Guia de otimização ambiental com poucos recursos
Para dispositivos de GPU com memória de vídeo insuficiente (por exemplo, 24 GB ou menos), o seguinte esquema pode ser usado:
- tecnologia de divisão do conhecimento: Uso
split_knowledge.pySeparar a grande base de conhecimento por tópico e carregá-la dinamicamente em tempo de execução - Quantificação de 8 bits: Adicionar
--quantizeparametrizaçãointegrate.pyO volume do modelo é reduzido em 50%. - Estratégia de descarregamento da CPU: Configuração
offload_knowledge=TrueArmazenamento de vetores de conhecimento inativos na memória - Otimização de lotes: Ajustes
--batch_size 4Evitando o estouro da memória de vídeo
Ao executar o Llama-3-8B no RTX3090 (24 GB): 1) O fatiamento e o processamento de 1 milhão de peças de conhecimento podem manter o uso da memória de vídeo dentro de 18 GB; 2) A latência de Q&A é reduzida de 320 ms para 210 ms após a quantificação. Como alternativa, modelos pequenos, como o Microsoft Phi-3-mini, podem ser considerados para trabalhar com o aprimoramento do conhecimento, o que resulta em uma perda de desempenho inferior a 15%, mas um requisito de memória de vídeo menor de 80%.
Essa resposta foi extraída do artigoKBLaM: uma ferramenta aprimorada de código aberto para incorporar conhecimento externo em modelos grandesO































