Qwen3における多言語サポートの具体的なブレークスルーとは？その学習データ戦略の特徴は？

2025-08-24

1.7 K

直接リンクモバイルビュー

多言語機能の技術的実装

Qwen3 オーバーライド119の言語と方言での画期的なパフォーマンス：

全言語をカバーインド・ヨーロッパ語族（67語）、中国・チベット語族（3語）、南島語族（12語）、そしてルクセンブルク語やアッサム語などの低資源言語も含まれる。
ほうげんさいもくアラビア語は、ナジュディ語、エジプト語、モロッコ語など7つの方言に対応しています。
ハイブリッドコード中国語/日本語/韓国語のCJK文字とラテン文字の混在入力を効果的に処理します。

トレーニングデータ戦略における3つの革新：

S2フェーズでは知識集約型データの割合を増やし、S3フェーズでは長文の微調整を通じて低リソース言語の文脈理解を強化するという3段階の事前学習により、Qwen3は小言語タスクでGPT-3.5レベルに到達した。