Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Was sind die besonderen Neuerungen bei der mehrsprachigen Unterstützung in Qwen3? Was sind die Merkmale seiner Trainingsdatenstrategie?

2025-08-24 1.5 K
Link direktMobile Ansicht
qrcode

Technische Umsetzung der Mehrsprachigkeit

Qwen3 Übersteuerung119 Sprachen und Dialekte, bahnbrechende Leistung in:

  • Vollständige SprachabdeckungDazu gehören gängige Sprachfamilien wie Indoeuropäisch (67), Sino-Tibetisch (3), Südinsel (12) und sogar ressourcenarme Sprachen wie Luxemburgisch und Assamesisch.
  • mundartliche UntergliederungArabisch: Arabisch unterstützt 7 dialektale Varianten von Najdi/Ägyptisch/Marokkanisch usw.
  • Hybrid-CodeEffektive Verarbeitung der gemischten Eingabe von chinesischen/japanischen/koreanischen CJK-Zeichen und lateinischen Buchstaben.

Drei Neuerungen bei den Schulungsdatenstrategien:

  1. Vervielfachung der DatenmengenPre-training token erreicht 36 Billionen (2x Qwen 2.5), mit nicht-englischem Datenanteil auf 45% gesteigert
  2. Multimodale ReinigungVerwenden Sie Qwen2.5-VL, um Text aus PDFs und anderen Dokumenten zu extrahieren und ihn nach der Qualitätsfilterung zum Training hinzuzufügen.
  3. Synthetische DatenanreicherungQwen2.5-Math/Coder: Generieren Sie strukturierte Daten wie Codelösungen, mathematische Ableitungen usw. mit Qwen2.5-Math/Coder

Durch das dreiphasige Vortraining, wobei die S2-Phase der Erhöhung des Anteils wissensintensiver Daten gewidmet war und die S3-Phase das kontextuelle Verständnis in ressourcenarmen Sprachen durch die Feinabstimmung von Langtexten verstärkte, konnte Qwen3 das GPT-3.5-Niveau bei der Aufgabe mit kleinen Sprachen erreichen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Neue Veröffentlichungen

zurück zum Anfang

de_DEDeutsch