Quais são as principais melhorias na arquitetura do modelo e na metodologia de treinamento do Qwen3 em relação ao seu antecessor, o Qwen2.5?

2025-08-24

1.8 K

Link diretoVisualização móvel

Análise técnica da atualização de gerações

Os principais aprimoramentos do Qwen3 em relação ao Qwen 2.5 são refletidos em três dimensões:

inovação estrutural::
- Apresentando a arquitetura MoE para obter uma melhoria de 10 vezes na eficiência paramétrica
- Otimização da configuração do cabeçote de atenção (por exemplo, cabeçotes de consulta do modelo 32B aumentados para 64)
- Os modelos 14B e superiores cancelaram a vinculação de incorporação de palavras (tie_embedding)
Inovações no treinamento::
- Janela de contexto expandida de 8K para 128K
- Treinamento com extensão progressiva do comprimento (4K → 32K → 128K)
- Aumento de três vezes no investimento em recursos de computação na fase de aprendizado intensivo
engenharia de dados::
- Introdução da filtragem de qualidade autossupervisionada no processo de geração de dados sintéticos
- A porcentagem de dados em campos STEM aumentou para 18%
- Os dados de código adicionam TypeScript/Rust e outras linguagens modernas

O desempenho mostraefeito de compressão geracional::

O Qwen3-4B rivaliza com o Qwen2.5-72B em termos de desempenho.
O custo de treinamento do modelo MoE versão 30B é apenas 1/5 do custo da versão densa 72B
17,31 Melhoria do TP3T na precisão do modelo 32B em benchmarks de matemática GSM 8K

Essas melhorias levam o Qwen3 ao nível Gemini 1.5 Pro de inferência complexa, mantendo a velocidade de inferência.