WritingBench精心构建的1239个写作任务实现了对多个专业领域的全面覆盖。这6个主要领域包括:学术写作、商业文书、法律文件、文学创作、教育材料和营销文案,每个领域又细分为16-20个具体的应用场景,总计达100个细分领域。
这些任务的一个显著特点是其真实性和实用性。比如在商业领域中包含为季度财务报告撰写总结,在法律领域涉及合同条款起草,在学术领域包含研究论文摘要写作等具体任务。每个任务都配有详细的风格、格式和长度要求,平均每个任务包含1546个词的具体说明,确保评测结果能准确反映模型在真实场景中的写作能力。
这种细分和量化设计使其成为目前业内最全面的大模型写作能力评估基准之一。
Essa resposta foi extraída do artigoWritingBench: uma ferramenta de avaliação de benchmarking para testar a capacidade de redação de modelos grandesO