海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Search-R1支持哪些训练数据格式?如何准备自定义数据集?

2025-08-27 1.2 K

Search-R1要求训练数据采用JSON Lines(.jsonl)格式,分为问答数据和语料库两类:

1. 问答数据规范::
每行需包含以下字段:
{
"data_source": "web",
"prompt": [{"role": "user", "content": "问题"}],
"ability": "fact-reasoning",
"reward_model": {"style": "rule", "ground_truth": "答案"},
"extra_info": {"split": "train", "index": 1}
}

2. 语料库要求::
用于本地检索的语料需包含id歌で応えるcontents字段:
{"id": "0", "contents": "文本内容"}

数据处理建议::

  • のプロジェクトを参照してください。nq_search.py脚本处理NQ数据集
  • 利用するbuild_index.sh为本地语料创建FAISS索引
  • 对于多轮对话任务,需在prompt中维护完整的对话历史

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語