如何实现自定义文本嵌入模型在MTEB上的标准化评估？

2025-08-30

1.5 K

评估需求场景

当开发者需要将自己的BERT变体或专业领域嵌入模型与主流模型对比时，MTEB提供标准化评测框架。以下是三种接入方式：

若模型符合encode()接口规范，直接加载即可评测：

from sentence_transformers import SentenceTransformer
evaluation.run(SentenceTransformer("your_model_path"))

気付くencode()方法处理批量输入：

class CustomModel:
    def encode(self, texts, batch_size=32):
        return numpy_array
mteb.run(CustomModel())

とおすtransformers.AutoModel加载模型时，需额外实现分词预处理：

from mteb import Pooling
model = AutoModel.from_pretrained(...)
pooling = Pooling(...) # 配置池化策略