Technische Analyse der Höherstufung von Generationen
Die wichtigsten Verbesserungen von Qwen3 gegenüber Qwen 2.5 zeigen sich in drei Dimensionen:
- strukturelle Innovation::
- Einführung der MoE-Architektur für eine 10-fache Verbesserung der parametrischen Effizienz
- Optimierung der Konfiguration der Abfrageköpfe (z. B. Erhöhung der 32B-Modellabfrageköpfe auf 64)
- Ab Modell 14B entfällt die Worteinbettungsbindung (tie_embedding)
- Durchbrüche in der Ausbildung::
- Kontextfenster von 8K auf 128K erweitert
- Training mit progressiver Längenausdehnung (4K → 32K → 128K)
- Verdreifachung der Investitionen in die Computerressourcen in der intensiven Lernphase
- Datentechnik::
- Einführung der selbstüberwachten Qualitätsfilterung in den Prozess der Erzeugung synthetischer Daten
- Prozentualer Anteil der Daten in MINT-Feldern auf 18% gestiegen
- Code-Daten hinzufügen TypeScript/Rust und andere moderne Sprachen
Die Aufführung zeigtGenerationskompressionseffekt::
- Qwen3-4B konkurriert in seiner Leistung mit Qwen2.5-72B.
- Die Ausbildungskosten für das Modell der MoE-Version 30B betragen nur 1/5 der Kosten für die dichte Version 72B
- 17,3% Verbesserung der Genauigkeit des 32B-Modells bei den GSM-8K-Mathematik-Benchmarks
Diese Verbesserungen bringen Qwen3 auf das Niveau von Gemini 1.5 Pro für komplexe Inferenzen, wobei die Geschwindigkeit der Inferenzen beibehalten wird.
Diese Antwort stammt aus dem ArtikelQwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles ReagierenDie