海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Qwen3における多言語サポートの具体的なブレークスルーとは?その学習データ戦略の特徴は?

2025-08-24 1.5 K
直接リンクモバイルビュー
qrcode

多言語機能の技術的実装

Qwen3 オーバーライド119の言語と方言での画期的なパフォーマンス:

  • 全言語をカバーインド・ヨーロッパ語族(67語)、中国・チベット語族(3語)、南島語族(12語)、そしてルクセンブルク語やアッサム語などの低資源言語も含まれる。
  • ほうげんさいもくアラビア語は、ナジュディ語、エジプト語、モロッコ語など7つの方言に対応しています。
  • ハイブリッドコード中国語/日本語/韓国語のCJK文字とラテン文字の混在入力を効果的に処理します。

トレーニングデータ戦略における3つの革新:

  1. データ量の乗算プレトレーニングトークンが36兆個(Qwen 2.5の2倍)に達し、非英語データのシェアが45%に増加。
  2. マルチモーダル洗浄Qwen2.5-VLを使用してPDFやその他の文書からテキストを抽出し、品質フィルタリング後にトレーニングに追加します。
  3. 合成データの強化Qwen2.5-Math/Coderを使用して、コードの解法や数学的導出などの構造化データを生成します。

S2フェーズでは知識集約型データの割合を増やし、S3フェーズでは長文の微調整を通じて低リソース言語の文脈理解を強化するという3段階の事前学習により、Qwen3は小言語タスクでGPT-3.5レベルに到達した。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

新着情報

トップに戻る

ja日本語