Search-R1支持哪些训练数据格式？如何准备自定义数据集？

2025-08-27

1.2 K

Search-R1要求训练数据采用JSON Lines（.jsonl）格式，分为问答数据和语料库两类：

1. 问答数据规范::
每行需包含以下字段：
{ "data_source": "web", "prompt": [{"role": "user", "content": "问题"}], "ability": "fact-reasoning", "reward_model": {"style": "rule", "ground_truth": "答案"}, "extra_info": {"split": "train", "index": 1} }

2. 语料库要求::
用于本地检索的语料需包含id歌で応えるcontents字段：
{"id": "0", "contents": "文本内容"}

数据处理建议::

のプロジェクトを参照してください。nq_search.py脚本处理NQ数据集
利用するbuild_index.sh为本地语料创建FAISS索引
对于多轮对话任务，需在prompt中维护完整的对话历史

この答えは記事から得たものである。Search-R1: 検索と推論のための大規模モデルを学習する強化学習について

Search-R1支持哪些训练数据格式？如何准备自定义数据集？

関連記事

おすすめ

AIツールが見つからない？こちらをお試しください！

人気のAIツール

新着情報

最新のAIツール

Search-R1支持哪些训练数据格式？如何准备自定义数据集？

関連記事

おすすめ

AIツールが見つからない？こちらをお試しください！

人気のAIツール

新着情報

最新のAIツール

クイック照会ステーションAIツール