WritingBench是由X-PLUG团队开发的专门用于测试大模型写作能力的基准评估系统。该项目托管在GitHub平台,采用开源模式提供完整的代码、数据集和评估脚本。其核心价值在于提供了1239个经过人工优化的真实写作任务,覆盖学术、商业、法律等6大领域和100个细分场景,每个任务平均包含1546个词的详细要求。系统支持大模型自动评分和专用评判模型评分两种评估方式,每个任务配有针对性的5个评分标准,确保评估的全面性和专业性。
该工具在开发过程中采取了模型生成与人工优化相结合的方法,由30名标注员收集开源材料,5名专家进行最终筛选和优化。这种严谨的构建流程确保了任务的多样性和实用性,使其成为提升大模型写作能力的有效测评工具。
Diese Antwort stammt aus dem ArtikelWritingBench: ein Benchmark-Bewertungsinstrument zum Testen der Schreibfähigkeiten von großen ModellenDie