Recursos de arquitetura do MoE e significado de código aberto do dots.llm1
A principal inovação do dots.llm1, como o primeiro modelo de linguagem grande de código aberto para o Little Red Book, é o projeto da arquitetura Mixed Expert (MoE). A arquitetura contém 128 especialistas em roteamento e 2 especialistas compartilhados, e 6 especialistas em roteamento e 2 especialistas compartilhados são selecionados dinamicamente para processar juntos cada token de entrada. Esse projeto permite que o modelo ative apenas 14 bilhões de parâmetros durante a inferência, mantendo um tamanho total de parâmetro de 142 bilhões, reduzindo o custo computacional em mais de 80%.
- Detalhes da arquitetura: estrutura do transformador do decodificador unidirecional, captura de dados otimizada usando a função de ativação SwiGLU
- Tecnologia principal: a camada de atenção combina o mecanismo de atenção de várias cabeças com a normalização RMSNorm para melhorar a estabilidade numérica
- Balanceamento de carga: otimize o uso da rede de especialistas com termos de polarização dinâmica para evitar o desequilíbrio da carga de especialistas
A estratégia de código aberto torna o dots.llm1 o primeiro modelo de MoE disponível comercialmente em uma plataforma social chinesa, preenchendo a lacuna de código aberto dos macromodelos de MoE chineses.
Essa resposta foi extraída do artigodots.llm1: o primeiro modelo de idioma grande do MoE com código aberto da Little Red BookO