Programa de otimização em três etapas
Para um PC comum com 4 a 8 GB de RAM, o desempenho pode ser significativamente melhorado..:
- Seleção de modelos: Prefira modelos pequenos de nível Q4_K_M quantificados (menos de 1 GB), como o gemma-3-1b-it recomendado no artigo, que reduz o volume em 75% em comparação com o modelo FP16 original, mas mantém o efeito de 90% ou mais.
- otimização do sistema::
- Feche outros programas que consomem muita memória (por exemplo, navegadores) e verifique se você tem pelo menos 2 GB de memória livre
- Clique com o botão direito do mouse no arquivo EXE enquanto o programa estiver em execução → Propriedades → marque a caixa "Executar como administrador" (não é obrigatório, mas pode aumentar a prioridade dos recursos).
- Dicas e truques::
- Evite alternar frequentemente após carregar o modelo pela primeira vez, mantenha o modelo na memória
- Reduza o tempo de carregamento do 10% colocando os arquivos de modelo em um pendrive USB3.0 de alta velocidade
- Tarefas complexas divididas em vários diálogos curtos (não mais do que 200 palavras para uma única pergunta)
A velocidade de geração otimizada é testada para ser utilizável de 8 tokens/seg a 18-22 tokens/seg em um laptop de entrada i5-8250U/8GB. Se ainda assim não atender à demanda, experimente o modelo de quantificação Q2_K mais extremo (com precisão reduzida, mas com a metade do tamanho novamente).
Essa resposta foi extraída do artigoLocal LLM Notepad: uma ferramenta portátil para a execução off-line de modelos locais de linguagens grandesO































