WritingBench配套的专用评判模型是基于Qwen-7B优化的专项评估工具,具有以下特点:
- 多维度评估:能同时从逻辑连贯性、领域专业性、风格适配度等5个维度进行评分
- 量化输出:每个维度给出0-10分的具体分值
- 解释性说明:不仅给出分数,还附带评分理由的文本说明
- 本地化运行:下载后可在离线环境使用,保护数据隐私
获取方式:
- 访问HuggingFace模型库:https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B
- 下载完整模型文件(约15GB)
- 在critic.py中配置本地模型路径
- 需安装PyTorch和对应CUDA版本
需要注意的是,评判模型需要较强的计算资源支持,建议使用至少24GB显存的GPU设备。相较于使用大模型API评分,专用评判模型的评估结果更加稳定且可复现,特别适合需要进行大批量测试的研发场景。
本答案来源于文章《WritingBench:测试大模型写作能力的基准评估工具》