Programa de otimização de desempenho para equipamentos de baixo perfil
As seguintes estratégias de otimização podem ser usadas para dispositivos com desempenho insuficiente da GPU ou memória limitada:
- parametrizaçãoDiminua o valor de -max-tokens (padrão 3072) para diminuir a duração da geração e reduzir significativamente a carga computacional.
- loteDiálogos longos são divididos em vários segmentos curtos para gerá-los separadamente e, por fim, uni-los.
- Modelagem e quantificaçãoUso de precisão FP16 para reduzir o uso da memória de vídeo (é necessário alterar a configuração dtype em config.yaml)
- processamento off-line: pré-geração do material principal em serviços de nuvem, apenas processamento local leve
Diretrizes operacionais específicas:
- Modificar o script cli.py para adicionar lógica de monitoramento de memória
- Defina o número de processos de trabalho do uvicorn como 1 (-workers 1)
- Ativar o ponto de verificação de gradiente em config.yaml (gradient_checkpointing: true)
Observação: a Nari Labs anunciou que uma versão otimizada para CPU estará disponível. Fique de olho no GitHub para obter atualizações.
Essa resposta foi extraída do artigoDia: um modelo de conversão de texto em fala para gerar diálogos hiper-realistas para vários jogadoresO































