Soluções de otimização de memória para dispositivos de consumo
Três soluções são recomendadas para problemas de limitação de memória:
- Seleção de modelosPrioridade é dada ao uso do gpt-oss-20b (parâmetro 21B), que passa o
torch_dtype='auto'
Ativa automaticamente a precisão mista BF16, economizando 50% de memória em comparação com o FP32 - Implementação quantitativaUso da cadeia de ferramentas Ollama (
ollama pull gpt-oss:20b
) Aplica automaticamente a quantificação de 4 bits do GPTQ para reduzir os requisitos de memória gráfica de 16 GB para 8 GB - carregamento hierárquico: Configuração
device_map={'':0}
Força o uso da GPU principal, em conjunto comoffload_folder='./offload'
Trocar camadas não utilizadas para o disco - adaptação de parâmetros: em
from_pretrained()
Adicionarlow_cpu_mem_usage=True
responder cantandotorch_dtype='auto'
parâmetros
Para dispositivos com apenas 8 GB de memória de vídeo, a ativação adicional deoptimize_model()
Realize a fusão de operadores para reduzir ainda mais o espaço ocupado pela memória em cerca de 151 TP3T.
Essa resposta foi extraída do artigoColeção de scripts e tutoriais para ajuste fino dos modelos OpenAI GPT OSSO