如何解读MTEB排行榜上的模型性能数据？不同任务指标有何区别？

2025-08-30

1.5 K

排行榜数据解析方法论

MTEB排行榜（可通过Hugging Face Spaces或本地部署查看）采用多维度评分体系：

任务特异性指标::
- 分类任务：常用Accuracy/F1-score
- 检索任务：关注NDCG@10/MRR等排序敏感指标
- 语义相似度：使用Spearman相关系数
聚合分析策略::
- 同一任务跨数据集取平均分（如Clustering任务的v-measure均值）
- 不同任务类型独立排名，避免指标不可比性
关键观察维度::
- 查看模型在目标业务场景相关任务的表现（如电商推荐系统应重点关注检索任务分数）
- 对比多语言场景下模型性能衰减程度（部分模型在非英语任务中表现急剧下降）

建议实践：优先选择在task-type列中标记为与自身应用匹配且main_score领先的模型，同时注意测试集的领域匹配度。