当前位置：首页 » AI答疑

WritingBench支持大模型自动评分和专用评判模型评分两种评估方式

2025-08-28

1.4 K

WritingBench提供了双重评估机制来确保测评结果的可靠性。首先是基于大模型的自动评分系统，用户可通过编辑evaluator/llm.py配置文件，接入自己的API端点实现评分功能。其次是专用评判模型评分系统，该系统基于Qwen-7B模型开发，用户需从HuggingFace平台下载特定模型后才能使用。

两种评估方式均采用标准的5项评分标准，评分区间为0-10分。评估脚本会自动输出每项标准的得分和具体理由，如’内容完整性：8/10，涵盖了核心要素但某些细节不足’这样的详细反馈。

这种双轨制设计既考虑了评估效率，又保证了评分质量，用户可根据实际需求灵活选择最适合的评估方式。

本答案来源于文章《WritingBench：测试大模型写作能力的基准评估工具》

未经允许不得转载：AI生产力工具 » WritingBench支持大模型自动评分和专用评判模型评分两种评估方式

WritingBench支持大模型自动评分和专用评判模型评分两种评估方式

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

WritingBench支持大模型自动评分和专用评判模型评分两种评估方式

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具