3つのステップによる知識の蒸留
オープンソースのプロトコルで許可されている、微調整されたパーミッションに基づいて強制可能:
ステップ1:データの準備
Grok-2自身を使用して生成された、ドメイン固有のQAペアデータセット(10~50kサンプルを推奨)を構築する。合成データ補充
ステップ2:パラメータの効率的な微調整
LoRAまたはQLoRA技術を用いてトレーニングされたのは、0.1-11 TP3Tパラメータのみであった:peft_config = LoraConfig(task_type='CAUSAL_LM', r=8, lora_alpha=32)
ステップ3:専門家による選択的微調整
MoEの経路記録の分析による(要修正)router_logits出力)、HFで活性化されたエキスパート・モジュールのターゲット微調整
警告だ:
1.必要性Grok-2 ライセンス許可された範囲内での使用
2.推奨用途--freeze-base-modelベースモデルのパラメータを凍結
3.典型的な結果は、以下の雑誌に掲載される。ニューリップIsoTopでのMoEシンポジウム
この答えは記事から得たものである。Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデルについて
































