海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

WritingBench支持大模型自动评分和专用评判模型评分两种评估方式

2025-08-28 1.2 K

WritingBench提供了双重评估机制来确保测评结果的可靠性。首先是基于大模型的自动评分系统,用户可通过编辑evaluator/llm.py配置文件,接入自己的API端点实现评分功能。其次是专用评判模型评分系统,该系统基于Qwen-7B模型开发,用户需从HuggingFace平台下载特定模型后才能使用。

两种评估方式均采用标准的5项评分标准,评分区间为0-10分。评估脚本会自动输出每项标准的得分和具体理由,如’内容完整性:8/10,涵盖了核心要素但某些细节不足’这样的详细反馈。

这种双轨制设计既考虑了评估效率,又保证了评分质量,用户可根据实际需求灵活选择最适合的评估方式。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文