Visão geral da arquitetura do MoE
A arquitetura Mixture of Experts é um tipo especial de projeto de rede neural que o dots.llm1 usa para equilibrar o desempenho do modelo com a eficiência computacional.
Vantagens arquitetônicas
- eficiência computacionalEmbora o modelo como um todo tenha 142 bilhões de parâmetros, apenas 14 bilhões de parâmetros são ativados durante a inferência, o que reduz bastante o consumo de recursos computacionais
- roteamento dinâmico6 especialistas em roteamento e 2 especialistas em compartilhamento são selecionados dinamicamente para cada token de entrada, para um total de 8 redes de especialistas ativadas
- balanceamento de cargaOtimização da utilização da rede de especialistas por meio de termos de polarização dinâmica para evitar a sobrecarga de alguns especialistas
- aprimoramento do desempenhoCombinação da função de ativação SwiGLU e do mecanismo de atenção de várias cabeças melhora a capacidade de expressão do modelo
Detalhes técnicos
O modelo adota uma arquitetura de transformador de decodificador unidirecional, substituindo a tradicional rede feed-forward por uma estrutura MoE contendo 128 especialistas em roteamento e 2 especialistas compartilhados. A camada de atenção usa um mecanismo de atenção de várias cabeças combinado com a normalização RMSNorm, que mantém um forte poder expressivo e melhora a estabilidade numérica.
Essa resposta foi extraída do artigodots.llm1: o primeiro modelo de idioma grande do MoE com código aberto da Little Red BookO