Posição atual:fig. início " Respostas da IA

O dots.llm1 é o primeiro grande modelo de linguagem com arquitetura de especialista híbrido de código aberto da Little Red Book

2025-08-20

222

Recursos de arquitetura do MoE e significado de código aberto do dots.llm1

A principal inovação do dots.llm1, como o primeiro modelo de linguagem grande de código aberto para o Little Red Book, é o projeto da arquitetura Mixed Expert (MoE). A arquitetura contém 128 especialistas em roteamento e 2 especialistas compartilhados, e 6 especialistas em roteamento e 2 especialistas compartilhados são selecionados dinamicamente para processar juntos cada token de entrada. Esse projeto permite que o modelo ative apenas 14 bilhões de parâmetros durante a inferência, mantendo um tamanho total de parâmetro de 142 bilhões, reduzindo o custo computacional em mais de 80%.

Detalhes da arquitetura: estrutura do transformador do decodificador unidirecional, captura de dados otimizada usando a função de ativação SwiGLU
Tecnologia principal: a camada de atenção combina o mecanismo de atenção de várias cabeças com a normalização RMSNorm para melhorar a estabilidade numérica
Balanceamento de carga: otimize o uso da rede de especialistas com termos de polarização dinâmica para evitar o desequilíbrio da carga de especialistas

A estratégia de código aberto torna o dots.llm1 o primeiro modelo de MoE disponível comercialmente em uma plataforma social chinesa, preenchendo a lacuna de código aberto dos macromodelos de MoE chineses.

Essa resposta foi extraída do artigodots.llm1: o primeiro modelo de idioma grande do MoE com código aberto da Little Red BookO

O dots.llm1 é o primeiro grande modelo de linguagem com arquitetura de especialista híbrido de código aberto da Little Red Book

Recursos de arquitetura do MoE e significado de código aberto do dots.llm1

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

O dots.llm1 é o primeiro grande modelo de linguagem com arquitetura de especialista híbrido de código aberto da Little Red Book

Recursos de arquitetura do MoE e significado de código aberto do dots.llm1

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida