ドメイン適応力強化フルプロセス
専門的な分野でパフォーマンスを飛躍的に向上させるには、データエンジニアリングとトレーニング戦略の相乗的な最適化が必要です:
- データ準備段階プロジェクトが提供するフォーマットで、最低5000件のドメインQAデータを収集することが推奨される。
dirty_chinese_dpo.json問題と解答には、(1) 問題と解答の完全な文脈 (2) 分野の専門用語 (3) 典型的な誤りの例、を含めるべきである。 - トレーニング戦略の選択::
- 基本的な能力構築:フルデータファースト(SFT)による教師あり微調整
train_sft_dirty.py3~5ラウンドのトレーニング - ファイン・キャリブレーション:ORPOアルゴリズムを使用したプリファレンス・アライメント
RL_FineTuning/train_orpo.pyスクリプトを使用し、ドメインの専門家がラベル付けした優位性サンプルを注入する。
- 基本的な能力構築:フルデータファースト(SFT)による教師あり微調整
- 検証方法プロジェクト推論スクリプトは、バッチテストモード (
--mode batch)、自動評価によって200の検証セットを準備することが推奨される。
特記事項:純粋に生成的なリスクを避けるため、医療/法律などのリスクの高い分野では、知識検索モジュールを重ねることを推奨する。
この答えは記事から得たものである。Qwen3-FineTuning-Playground: Qwen3の大きなモデルを微調整するための、すぐに使えるコードベース。について































