世代交代のテクニカル分析
Qwen3がQwen2.5より強化された点は、3つの側面に反映されている:
- 構造革新::
- パラメトリック効率を10倍向上させるMoEアーキテクチャの導入
- アテンションヘッド構成の最適化(例:32Bモデルのクエリヘッドを64に増加)
- モデル 14B 以上は、単語埋め込みバインディング(tie_embedding)をキャンセル。
- トレーニングのブレークスルー::
- コンテキスト・ウィンドウが8Kから128Kに拡張
- 漸進的な長さの延長(4K→32K→128K)によるトレーニング
- 集中学習段階におけるコンピューティング・リソースへの投資が3倍に増加
- データエンジニアリング::
- 合成データ生成プロセスにおける自己教師付き品質フィルタリングの導入
- STEM分野のデータの割合が18%に増加
- コードデータにTypeScript/Rustやその他のモダン言語を追加する
パフォーマンス世代圧縮効果::
- Qwen3-4BはQwen2.5-72Bに匹敵する性能を持っている。
- MoEバージョン30Bのモデルトレーニングコストは、高密度のバージョン72Bのわずか1/5
- GSM 8K数学ベンチマークで32Bモデルの精度が17.3%向上
これらの改良により、Qwen3は推論速度を維持しながら、Gemini 1.5 Proレベルの複雑な推論を実現した。
この答えは記事から得たものである。Qwen3をリリース:深く考え、素早く対応する新世代のビッグ・ランゲージ・モデルについて