データセットへのアクセスと利用のためのガイドライン
中国の DeepSeek-R1 蒸留データセットを使用するプロセスは、以下のステップに分けられる:
取得方法
- Hugging FaceまたはModelScopeプラットフォームへのアクセス
- "Chinese-DeepSeek-R1-Distill-data-110k "で検索。
- 適切なフォーマット(JSON、CSVなど)を選択し、データセットをダウンロードする。
積載と使用
- 環境準備Pythonとデータセットのライブラリがインストールされている必要があります。
- 基本ローディング::
from datasets import load_dataset dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k") - データ閲覧基本情報はprint(dataset)とprint(dataset['train'][0])で見ることができる。
前処理とトレーニング
データの前処理とモデルのトレーニングには、Transformer関連のツールライブラリ(Hugging FaceのTransformerなど)を使用することが推奨される。データセットは正規化されているが、特定のタスクの要件に応じてさらなる処理を行うことができる。
この答えは記事から得たものである。中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポートについて































