WritingBench提供了双重评估机制来确保测评结果的可靠性。首先是基于大模型的自动评分系统,用户可通过编辑evaluator/llm.py配置文件,接入自己的API端点实现评分功能。其次是专用评判模型评分系统,该系统基于Qwen-7B模型开发,用户需从HuggingFace平台下载特定模型后才能使用。
两种评估方式均采用标准的5项评分标准,评分区间为0-10分。评估脚本会自动输出每项标准的得分和具体理由,如’内容完整性:8/10,涵盖了核心要素但某些细节不足’这样的详细反馈。
这种双轨制设计既考虑了评估效率,又保证了评分质量,用户可根据实际需求灵活选择最适合的评估方式。
本答案来源于文章《WritingBench:测试大模型写作能力的基准评估工具》