背景
Open R1は、Hugging Faceが立ち上げた大規模なオープンソースプロジェクトで、DeepSeek-R1のトレーニングプロセスを完全に再現し、検証可能で改良されたオープンソースのベンチマークを研究コミュニティに提供することを主な目的としている。
センター
- このプロジェクトは、DeepSeek-R1 テクニカルレポートの3段階のトレーニングプロセスに厳密に従います。
- トレーニングスクリプト、評価ツール、データ作成ツールの完全なインフラを含む。
- ベースモデルのトレーニングからRLのチューニングまで、完全なプロセスの再現をサポート
- Python 3.11やvLLM 0.6.6などのテクノロジースタックとの互換性を確保。
持ち帰りポイント
オープンR1プロジェクトのオープンソースの性質は、DeepSeek-R1ファミリーのモデルを理解し、改善するための素晴らしいコミュニティリソースとなり、開発者はカスタムトレーニングと結果の検証をこのプロジェクトに基づいて行うことができます。
この答えは記事から得たものである。オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現について































