Technische Umsetzung der Mehrsprachigkeit
Qwen3 Übersteuerung119 Sprachen und Dialekte, bahnbrechende Leistung in:
- Vollständige SprachabdeckungDazu gehören gängige Sprachfamilien wie Indoeuropäisch (67), Sino-Tibetisch (3), Südinsel (12) und sogar ressourcenarme Sprachen wie Luxemburgisch und Assamesisch.
- mundartliche UntergliederungArabisch: Arabisch unterstützt 7 dialektale Varianten von Najdi/Ägyptisch/Marokkanisch usw.
- Hybrid-CodeEffektive Verarbeitung der gemischten Eingabe von chinesischen/japanischen/koreanischen CJK-Zeichen und lateinischen Buchstaben.
Drei Neuerungen bei den Schulungsdatenstrategien:
- Vervielfachung der DatenmengenPre-training token erreicht 36 Billionen (2x Qwen 2.5), mit nicht-englischem Datenanteil auf 45% gesteigert
- Multimodale ReinigungVerwenden Sie Qwen2.5-VL, um Text aus PDFs und anderen Dokumenten zu extrahieren und ihn nach der Qualitätsfilterung zum Training hinzuzufügen.
- Synthetische DatenanreicherungQwen2.5-Math/Coder: Generieren Sie strukturierte Daten wie Codelösungen, mathematische Ableitungen usw. mit Qwen2.5-Math/Coder
Durch das dreiphasige Vortraining, wobei die S2-Phase der Erhöhung des Anteils wissensintensiver Daten gewidmet war und die S3-Phase das kontextuelle Verständnis in ressourcenarmen Sprachen durch die Feinabstimmung von Langtexten verstärkte, konnte Qwen3 das GPT-3.5-Niveau bei der Aufgabe mit kleinen Sprachen erreichen.
Diese Antwort stammt aus dem ArtikelQwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles ReagierenDie