データ工学の革新がもたらすスケール効果
Qwen3は、前身のQwen2.5の2倍となる36兆トークンの事前学習データを持ち、STEM、プログラミング、学術論文などの高品質なコンテンツをカバーしている。テクニカルレポートによると、Qwen2.5のデータ構築は、4Kコンテクストを用いた基本トレーニング(30兆トークン)、知識集約型のデータ最適化(5兆トークン)、32K~128Kのロングコンテクストを用いた拡張トレーニングの3つの主要フェーズで構成されている。データソースには、一般的なウェブページに加え、PDF文書の解析(精度92.3%)、Qwen2.5シリーズのモデルによって生成された合成データが含まれる。
品質向上策には以下が含まれる:
- Qwen2.5-VLモデルによるマルチモーダルテキスト抽出の最適化
- Qwen2.5-Mathで何百万もの数学的推論の例を生成する
- Qwen2.5-Coderに基づくコードデータの多様性の向上
- 5段階のコンテンツセキュリティフィルタリング機構の実装
ベンチマークテストによると、Qwen3-32B のベースモデルは、MATH や HumanEval などの専門的なレビューにおいて、Qwen2.5-72B バージョンを上回り、データ品質がモデル能力に決定的な影響を与えることを検証しています。このデータの優位性により、従来は 70B のパラメー タレベルのモデルを必要としていたタスクを、小規模なモデル(例えば 4B のパラメー タ)でも処理できるようになりました。
この答えは記事から得たものである。Qwen3をリリース:深く考え、素早く対応する新世代のビッグ・ランゲージ・モデルについて