场景化评估挑战
针对金融、医疗等垂直领域,需快速验证模型在专业文本(如银行投诉分类)的表现。MTEB提供Banking77Classification
等专业数据集和灵活配置。
高效评估方案
- 任务精准筛选:通过
MTEB(tasks=["Banking77Classification"])
仅运行相关任务 - 批量优化:根据GPU显存调整
encode_kwargs={"batch_size":64}
- 早停机制:对二分类任务可设置
early_stopping=True
加速验证
领域适配建议
- 使用
--output_folder
参数保存预测结果,分析错误案例 - 通过继承
AbsTaskClassification
创建自定义领域数据集 - 对检索类业务场景,优先测试
SciFact
等科学文献数据集
本答案来源于文章《MTEB:评估文本嵌入模型性能的基准测试》