Skaleneffekte von datentechnischen Innovationen
Qwen3 verfügt über 36 Billionen Token an Pre-Training-Daten, doppelt so viel wie sein Vorgänger Qwen2.5, und deckt hochwertige Inhalte wie MINT, Programmierung und akademische Arbeiten ab. Aus dem technischen Bericht geht hervor, dass die Datenkonstruktion aus drei Hauptphasen besteht: Basistraining mit 4K-Kontexten (30 Billionen Token), wissensintensive Datenoptimierung (5 Billionen Token) und erweitertes Training mit 32K-128K langen Kontexten. Zu den Datenquellen gehören das Parsen von PDF-Dokumenten (Genauigkeit 92,3%) und synthetische Daten, die von der Qwen2.5-Modellfamilie erzeugt wurden, sowie allgemeine Webseiten.
Die Maßnahmen zur Qualitätsverbesserung umfassen:
- Optimierung der multimodalen Textextraktion unter Verwendung des Qwen2.5-VL-Modells
- Generierung von Millionen von Beispielen für mathematisches Denken mit Qwen2.5-Math
- Verbesserung der Code-Datenvielfalt auf der Grundlage von Qwen2.5-Coder
- Implementierung eines fünfstufigen Mechanismus zur Sicherheitsfilterung von Inhalten
Benchmark-Tests zeigen, dass das Qwen3-32B-Basismodell die Qwen2.5-72B-Version bei professionellen Tests wie MATH und HumanEval übertrifft, was den entscheidenden Einfluss der Datenqualität auf die Modellfähigkeit bestätigt. Dieser Datenvorteil ermöglicht es selbst kleinen Modellen (z. B. 4B-Parameter), Aufgaben zu bewältigen, die traditionell Modelle mit 70B-Parametern erfordern.
Diese Antwort stammt aus dem ArtikelQwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles ReagierenDie