Como posso otimizar o desempenho do Dia em dispositivos de baixo custo?

2025-08-24

1.5 K

Programa de otimização de desempenho para equipamentos de baixo perfil

As seguintes estratégias de otimização podem ser usadas para dispositivos com desempenho insuficiente da GPU ou memória limitada:

parametrizaçãoDiminua o valor de -max-tokens (padrão 3072) para diminuir a duração da geração e reduzir significativamente a carga computacional.
loteDiálogos longos são divididos em vários segmentos curtos para gerá-los separadamente e, por fim, uni-los.
Modelagem e quantificaçãoUso de precisão FP16 para reduzir o uso da memória de vídeo (é necessário alterar a configuração dtype em config.yaml)
processamento off-line: pré-geração do material principal em serviços de nuvem, apenas processamento local leve

Diretrizes operacionais específicas:

Modificar o script cli.py para adicionar lógica de monitoramento de memória
Defina o número de processos de trabalho do uvicorn como 1 (-workers 1)
Ativar o ponto de verificação de gradiente em config.yaml (gradient_checkpointing: true)

Observação: a Nari Labs anunciou que uma versão otimizada para CPU estará disponível. Fique de olho no GitHub para obter atualizações.