A Step3 oferece duas soluções para lidar com as limitações da memória de vídeo:
- Use o formato block-fp8que reduz significativamente o espaço ocupado pela memória em comparação com o formato bf16 tradicional.
- adoção Arquitetura híbrida do modelo de especialização (MoE)A sobrecarga de cálculo é reduzida com a ativação de apenas alguns dos especialistas (3,8 bilhões de parâmetros ativos).
Implementação: baixe os pesos no formato block-fp8 do Hugging Face e implemente com o mecanismo de inferência vLLM. Para GPUs A800/H800 com 80 GB de memória, recomenda-se usar a operação paralela de 4 cartões, e o consumo de memória pode ser controlado em 60 GB/cartão. Se as condições de hardware forem limitadas, você poderá reduzir adequadamente o max_new_tokens
O valor do parâmetro (por exemplo, definido como 512) reduz a pressão computacional.
Essa resposta foi extraída do artigoEtapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodalO