Projeto inovador da arquitetura do MoE
O Qwen3 usa um sistema Mixture of Experts que alcança um avanço tecnológico significativo por meio de um mecanismo de ativação dinâmica:
- Revolução da eficiência paramétricaO modelo principal Qwen3-235B-A22B ativa apenas 22 bilhões de parâmetros por inferência (~9,31 TP3T), apesar de um total de 235 bilhões de parâmetros, o que torna seu consumo computacional próximo ao dos modelos densos tradicionais de 32B
- Desempenho sem compromissoTestes: os testes mostram que o Qwen3-30B-A3B (com 3 bilhões de parâmetros ativados) pode superar o modelo denso 32B padrão, demonstrando que a ativação esparsa não afeta o desempenho.
- Flexibilidade de implementaçãoA estrutura de camadas (48-94 camadas) e a configuração do cabeçalho de atenção (32-64 cabeças de consulta) do modelo MoE são especificamente otimizadas para o roteamento especializado
A diferença essencial em relação ao modelo denso tradicional é:
- Mecanismo especializado de divisão de trabalho: das 128 sub-redes de especialistas, apenas os 8 especialistas mais relevantes são ativados por vez
- algoritmo de roteamento dinâmicoSeleção em tempo real de combinações de especialistas com base nas características do conteúdo de entrada
- Suporte a contextos longosTodos os modelos MoE suportam janelas de contexto de 128K
Esse design permite que o Qwen3-MoE obtenha resultados comparáveis em tarefas complexas no nível GPT-4 com apenas 1/10 dos recursos de computação.
Essa resposta foi extraída do artigoLançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamenteO