准备工作
Rankify提供了40个预检索数据集,这些数据集可以从Hugging Face平台下载使用。
详细使用步骤
1. 导入数据集模块
from rankify.dataset.dataset import Dataset
2. 检查可用数据集
查看所有预置数据集:
Dataset.available_dataset()
3. 下载数据集
以BM25检索器和nq-dev数据集为例:
dataset = Dataset(retriever="bm25", dataset_name="nq-dev", n_docs=100) documents = dataset.download(force_download=False)
4. 加载本地数据集
若已有下载的数据集文件:
documents = Dataset.load_dataset('./bm25_nq_dev.json', 100)
本答案来源于文章《Rankify:支持信息检索与重排序的Python工具包》