使用WritingBench进行评估主要分为以下步骤:
1. preparação ambiental
由于项目未提供requirements.txt,需要手动安装:
- Python 3.8+环境
- 基础依赖库:torch(建议GPU版)、transformers、requests等
2. 数据获取
从GitHub克隆或下载ZIP包后:
- 主要数据存储在benchmark_all.jsonlpapéis
- 包含1239个任务描述、参考材料和评分标准
3. 模型测试
典型测试流程:
- 加载目标写作模型
- 读取任务描述生成文本
- 保存生成结果到response.txt
4. 执行评估
两种评分方式选择:
- Pontuação de modelos grandes:配置LLM的API密钥后运行llm.py
- 评判模型评分:需提前下载7B参数的专用评判模型
最终输出包含5个维度(如逻辑性、专业性等)的详细评分结果,可通过修改prompt.py自定义评分标准。
Essa resposta foi extraída do artigoWritingBench: uma ferramenta de avaliação de benchmarking para testar a capacidade de redação de modelos grandesO