Etapa 3 Um esquema de otimização de três camadas é projetado para requisitos em tempo real:
- Nível de arquiteturaO modelo MoE ativa apenas cerca de 121 TP3T de parâmetros (3,8 bilhões/321 bilhões), reduzindo o tempo decorrido de uma única inferência em 401 TP3T
- Nível de implementaçãoMotor vLLM recomendado com tecnologia de batelada contínua para um rendimento de 3 a 5 vezes maior.
- nível de parâmetro: Configurações
max_new_tokens=512
O tempo de resposta da placa de vídeo A800 pode ser controlado em até 500 ms.
Dica importante de configuração: ao iniciar o serviço vLLM, adicione o parâmetro --tensor-parallel-size=4
Os parâmetros aproveitam ao máximo a computação paralela multi-GPU, com QPS (consultas por segundo) medidos de até 120+.
Essa resposta foi extraída do artigoEtapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodalO