Análise técnica da atualização de gerações
Os principais aprimoramentos do Qwen3 em relação ao Qwen 2.5 são refletidos em três dimensões:
- inovação estrutural::
- Apresentando a arquitetura MoE para obter uma melhoria de 10 vezes na eficiência paramétrica
- Otimização da configuração do cabeçote de atenção (por exemplo, cabeçotes de consulta do modelo 32B aumentados para 64)
- Os modelos 14B e superiores cancelaram a vinculação de incorporação de palavras (tie_embedding)
- Inovações no treinamento::
- Janela de contexto expandida de 8K para 128K
- Treinamento com extensão progressiva do comprimento (4K → 32K → 128K)
- Aumento de três vezes no investimento em recursos de computação na fase de aprendizado intensivo
- engenharia de dados::
- Introdução da filtragem de qualidade autossupervisionada no processo de geração de dados sintéticos
- A porcentagem de dados em campos STEM aumentou para 18%
- Os dados de código adicionam TypeScript/Rust e outras linguagens modernas
O desempenho mostraefeito de compressão geracional::
- O Qwen3-4B rivaliza com o Qwen2.5-72B em termos de desempenho.
- O custo de treinamento do modelo MoE versão 30B é apenas 1/5 do custo da versão densa 72B
- 17,31 Melhoria do TP3T na precisão do modelo 32B em benchmarks de matemática GSM 8K
Essas melhorias levam o Qwen3 ao nível Gemini 1.5 Pro de inferência complexa, mantendo a velocidade de inferência.
Essa resposta foi extraída do artigoLançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamenteO