多言語機能の技術的実装
Qwen3 オーバーライド119の言語と方言での画期的なパフォーマンス:
- 全言語をカバーインド・ヨーロッパ語族(67語)、中国・チベット語族(3語)、南島語族(12語)、そしてルクセンブルク語やアッサム語などの低資源言語も含まれる。
- ほうげんさいもくアラビア語は、ナジュディ語、エジプト語、モロッコ語など7つの方言に対応しています。
- ハイブリッドコード中国語/日本語/韓国語のCJK文字とラテン文字の混在入力を効果的に処理します。
トレーニングデータ戦略における3つの革新:
- データ量の乗算プレトレーニングトークンが36兆個(Qwen 2.5の2倍)に達し、非英語データのシェアが45%に増加。
- マルチモーダル洗浄Qwen2.5-VLを使用してPDFやその他の文書からテキストを抽出し、品質フィルタリング後にトレーニングに追加します。
- 合成データの強化Qwen2.5-Math/Coderを使用して、コードの解法や数学的導出などの構造化データを生成します。
S2フェーズでは知識集約型データの割合を増やし、S3フェーズでは長文の微調整を通じて低リソース言語の文脈理解を強化するという3段階の事前学習により、Qwen3は小言語タスクでGPT-3.5レベルに到達した。
この答えは記事から得たものである。Qwen3をリリース:深く考え、素早く対応する新世代のビッグ・ランゲージ・モデルについて