分布式计算痛点
当评估十亿级文本检索任务时,单GPU可能需数天完成。MTEB支持通过BEIR库的多GPU扩展实现线性加速。
分步实施指南
Vorbereitung der Umwelt
pip install git+https://github.com/NouamaneTazi/beir@nouamane/better-multi-gpu
Grundierbefehl
torchrun --nproc_per_node=4 scripts/retrieval_multigpu.py --model_name_or_path all-MiniLM-L6-v2 --task_name nfcorpus
Beschreibung der wichtigsten Parameter
--nproc_per_node
:每个节点的GPU数量(需匹配CUDA_VISIBLE_DEVICES)--dataset_dir
:建议将数据集挂载到共享存储--metric_for_early_stopping
:设置ndcg@10等早停指标
Diese Antwort stammt aus dem ArtikelMTEB: Benchmarking zur Bewertung der Leistung von Text-EinbettungsmodellenDie