Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Quais são as principais melhorias na arquitetura do modelo e na metodologia de treinamento do Qwen3 em relação ao seu antecessor, o Qwen2.5?

2025-08-24 1.5 K
Link diretoVisualização móvel
qrcode

Análise técnica da atualização de gerações

Os principais aprimoramentos do Qwen3 em relação ao Qwen 2.5 são refletidos em três dimensões:

  1. inovação estrutural::
    • Apresentando a arquitetura MoE para obter uma melhoria de 10 vezes na eficiência paramétrica
    • Otimização da configuração do cabeçote de atenção (por exemplo, cabeçotes de consulta do modelo 32B aumentados para 64)
    • Os modelos 14B e superiores cancelaram a vinculação de incorporação de palavras (tie_embedding)
  2. Inovações no treinamento::
    • Janela de contexto expandida de 8K para 128K
    • Treinamento com extensão progressiva do comprimento (4K → 32K → 128K)
    • Aumento de três vezes no investimento em recursos de computação na fase de aprendizado intensivo
  3. engenharia de dados::
    • Introdução da filtragem de qualidade autossupervisionada no processo de geração de dados sintéticos
    • A porcentagem de dados em campos STEM aumentou para 18%
    • Os dados de código adicionam TypeScript/Rust e outras linguagens modernas

O desempenho mostraefeito de compressão geracional::

  • O Qwen3-4B rivaliza com o Qwen2.5-72B em termos de desempenho.
  • O custo de treinamento do modelo MoE versão 30B é apenas 1/5 do custo da versão densa 72B
  • 17,31 Melhoria do TP3T na precisão do modelo 32B em benchmarks de matemática GSM 8K

Essas melhorias levam o Qwen3 ao nível Gemini 1.5 Pro de inferência complexa, mantendo a velocidade de inferência.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Novos lançamentos

voltar ao topo

pt_BRPortuguês do Brasil