WritingBench是由X-PLUG团队开发的专门用于测试大模型写作能力的开源评估工具,托管在GitHub平台。它通过构建真实场景的写作任务集,帮助开发者和研究者量化评估AI模型的文本生成质量。
Zu den wichtigsten Funktionen gehören:
- Angebot1239个真实写作任务,覆盖学术、商业、法律等6大领域和100个细分场景
- 每个任务包含平均1546词的详细要求,模拟真实写作场景
- Outfit mit5维度动态评分标准,支持大模型自动评分和专用评判模型两种评估方式
- 包含财务报表、法律模板等多样化参考材料
- 完全开源的数据集、评估脚本和评判模型接口
项目通过模型生成+人工优化的方式构建任务库,既保证了任务的多样性,又确保了实用性和专业性。所有资源均可免费下载修改,适合用于优化各类文本生成模型的写作能力测试。
Diese Antwort stammt aus dem ArtikelWritingBench: ein Benchmark-Bewertungsinstrument zum Testen der Schreibfähigkeiten von großen ModellenDie