通过以下方法可建立自动化模型评估工作流:
- 导入包含测试问题的数据集
- 为每个待测模型创建单独回答列,使用相同提示结构
- 添加评判列,提示模板为’评估{{prompt}}的响应1:{{model1}},响应2:{{model2}}’
- 可选用更大参数模型(如 70B 级别)作为评判标准
- 系统会自动生成包含质量评分的比对结果
- 通过’导出到 Hub’功能保存完整的测试配置和结果
此方案特别适合需要定期评估新发布模型的研发团队,可节省 80% 以上的手动评测时间。
本答案来源于文章《AI Sheets:无代码在表格中使用AI模型构建和处理数据集》