中国DeepSeek-R1蒸留データセットの紹介
中国語DeepSeek-R1蒸留データセットは、機械学習と自然言語処理研究のために特別に設計されたオープンソースの中国語データセットです。Cong LiuのNLPチームによってリリースされたこのデータセットの主な特徴は以下の通りです:
- データサイズ11万件の高品質データを収録
- データタイプ数学的データ、論理的推論データ、一般的なタイプのデータ(例:Little Red Book、Zhihuなどのコンテンツ)をカバー。
- 品質保証(QA)DeepSeek-R1のデータ蒸留の公式規格に厳密に準拠。
- オープンソース・プロパティ完全無料で、Hugging FaceとModelScopeのプラットフォームで利用できます!
このデータセットの主な利用シーンは、言語モデル学習、対話システム開発、テキスト理解研究などである。特に特筆すべきは、生データを提供するだけでなく、詳細なデータ分布情報を含んでいることで、ユーザは各タイプのデータの割合を明確に理解することができる。
この答えは記事から得たものである。中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポートについて































