Derzeitige Position:Abb. Anfang " AI-Antworten

Umfang und Qualität der Qwen3-Trainingsdaten bieten einen kognitiven Vorteil

2025-08-24

1.6 K

Skaleneffekte von datentechnischen Innovationen

Qwen3 verfügt über 36 Billionen Token an Pre-Training-Daten, doppelt so viel wie sein Vorgänger Qwen2.5, und deckt hochwertige Inhalte wie MINT, Programmierung und akademische Arbeiten ab. Aus dem technischen Bericht geht hervor, dass die Datenkonstruktion aus drei Hauptphasen besteht: Basistraining mit 4K-Kontexten (30 Billionen Token), wissensintensive Datenoptimierung (5 Billionen Token) und erweitertes Training mit 32K-128K langen Kontexten. Zu den Datenquellen gehören das Parsen von PDF-Dokumenten (Genauigkeit 92,3%) und synthetische Daten, die von der Qwen2.5-Modellfamilie erzeugt wurden, sowie allgemeine Webseiten.

Die Maßnahmen zur Qualitätsverbesserung umfassen:

Optimierung der multimodalen Textextraktion unter Verwendung des Qwen2.5-VL-Modells
Generierung von Millionen von Beispielen für mathematisches Denken mit Qwen2.5-Math
Verbesserung der Code-Datenvielfalt auf der Grundlage von Qwen2.5-Coder
Implementierung eines fünfstufigen Mechanismus zur Sicherheitsfilterung von Inhalten

Benchmark-Tests zeigen, dass das Qwen3-32B-Basismodell die Qwen2.5-72B-Version bei professionellen Tests wie MATH und HumanEval übertrifft, was den entscheidenden Einfluss der Datenqualität auf die Modellfähigkeit bestätigt. Dieser Datenvorteil ermöglicht es selbst kleinen Modellen (z. B. 4B-Parameter), Aufgaben zu bewältigen, die traditionell Modelle mit 70B-Parametern erfordern.

Diese Antwort stammt aus dem ArtikelQwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles ReagierenDie

Umfang und Qualität der Qwen3-Trainingsdaten bieten einen kognitiven Vorteil

Skaleneffekte von datentechnischen Innovationen

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Umfang und Qualität der Qwen3-Trainingsdaten bieten einen kognitiven Vorteil

Skaleneffekte von datentechnischen Innovationen

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool