Programa de tecnologia de otimização de recursos
Soluções em vários níveis para diferentes configurações de hardware:
- Programa de degradação no lado do navegador::
- modificações
packages/client/src/lib/config.tsA configuração do modelo no - Selecione modelos quantitativos, como
llama-3-8b-instruct-q4
- modificações
- Soluções de otimização de desktop::
- Usuário NVIDIA habilitado
CUDA_VISIBLE_DEVICESLimitar o uso da GPU - aumentar
--n-gpu-layers 20Parâmetro Balanceamento de carga
- Usuário NVIDIA habilitado
- Programa de raciocínio misto::
configurar
REMOTE_LLM_APIPermitir a triagem quente e fria e o roteamento de tarefas de contexto longo para a nuvem
Recomendações da ferramenta de monitoramento:
fazer uso denvtop(Linux) ouGPU-Z(Windows), monitoramento em tempo real do uso da memória de vídeo com o software AIRI integrado/metricsGargalos na análise de endpoints
Essa resposta foi extraída do artigoAIRI: companheiro virtual de IA auto-hospedado com suporte para voz em tempo real e interação com jogosO
































