Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O dots.llm1 é o primeiro grande modelo de linguagem com arquitetura de especialista híbrido de código aberto da Little Red Book

2025-08-20 222

Recursos de arquitetura do MoE e significado de código aberto do dots.llm1

A principal inovação do dots.llm1, como o primeiro modelo de linguagem grande de código aberto para o Little Red Book, é o projeto da arquitetura Mixed Expert (MoE). A arquitetura contém 128 especialistas em roteamento e 2 especialistas compartilhados, e 6 especialistas em roteamento e 2 especialistas compartilhados são selecionados dinamicamente para processar juntos cada token de entrada. Esse projeto permite que o modelo ative apenas 14 bilhões de parâmetros durante a inferência, mantendo um tamanho total de parâmetro de 142 bilhões, reduzindo o custo computacional em mais de 80%.

  • Detalhes da arquitetura: estrutura do transformador do decodificador unidirecional, captura de dados otimizada usando a função de ativação SwiGLU
  • Tecnologia principal: a camada de atenção combina o mecanismo de atenção de várias cabeças com a normalização RMSNorm para melhorar a estabilidade numérica
  • Balanceamento de carga: otimize o uso da rede de especialistas com termos de polarização dinâmica para evitar o desequilíbrio da carga de especialistas

A estratégia de código aberto torna o dots.llm1 o primeiro modelo de MoE disponível comercialmente em uma plataforma social chinesa, preenchendo a lacuna de código aberto dos macromodelos de MoE chineses.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil