Avanços técnicos trazidos pela arquitetura do MoE
A arquitetura Mixture of Experts adotada pelo GLM-4.5 é sua principal inovação tecnológica. A arquitetura reduz o consumo computacional em 60-70% em comparação com os modelos densos tradicionais, ativando dinamicamente 32 bilhões de parâmetros (12 bilhões para o GLMAir) em vez de todos os parâmetros. Em termos de implementação, o modelo contém várias sub-redes de especialistas, e cada token de entrada é encaminhado para os 2 a 4 especialistas mais relevantes para processamento. Esse mecanismo de ativação seletiva melhora consideravelmente a eficiência do raciocínio, mantendo a capacidade do modelo.
Testes de implantação no mundo real mostram que a versão GLM-4.5-Air requer apenas 16 GB de memória de GPU (12 GB após a quantificação INT4) para ser executada, economizando 401 TP3T de memória de vídeo em comparação com um modelo denso de mesma capacidade. Em cenários de processamento de textos longos, sua exclusiva tecnologia de cache de contexto reduz os cálculos duplicados em 301 TP3T. Esses recursos fazem dele o primeiro modelo multimodal de 100 bilhões de parâmetros a ser executado em GPUs de consumo, como a RTX3090, reduzindo significativamente o limite para a implementação corporativa.
Essa resposta foi extraída do artigoGLM-4.5: grandes modelos multimodais de código aberto que suportam raciocínio inteligente e geração de códigoO































