Requisitos de hardware e compensações tecnológicas
O alto limite de hardware do Grok-2 decorre de três características técnicas principais: 1) a arquitetura MoE de 128 especialistas precisa manter 286 bilhões de parâmetros ativos; 2) o paralelismo do tensor de 8 vias exige interconexões NVLink ultrarrápidas; e 3) a quantificação do FP8 precisa ser suportada por placas de computação de última geração, como a H100.
Para desenvolvedores com recursos limitados, os modelos podem ser experimentados dessas maneiras:
- Soluções de serviços em nuvemLambda Labs: o Lambda Labs oferece instâncias de aluguel por hora de ambientes pré-instalados (~$12.5/hora) para dar suporte à liberação rápida de recursos
- Quantitative LiteA versão grok-2-mini 4bit da comunidade é executada em uma única GPU de 24 GB e mantém a capacidade do 85%.
- Acesso à APIxAI espera lançar uma API oficial em 2024T4, e a estratégia de preços pode se basear em 1/3 do preço da GPT-4.
Compensações de desempenho: 1) A desativação de alguns especialistas (-expert-dropout 0,3) pode reduzir o uso de memória do 40%; 2) O uso de uma estrutura de inferência otimizada, como o vLLM, pode melhorar o rendimento do 20%; 3) Para cenários de tamanho de lote = 1, você pode tentar --quantization fp4 Modo.
Essa resposta foi extraída do artigoGrok-2: Modelo de linguagem grande de especialista híbrido de código aberto da xAIO
































