Speicheroptimierungslösungen für Consumer-Geräte
Für Probleme mit der Speicherbegrenzung werden drei Lösungen empfohlen:
- Auswahl des ModellsPriorität hat die Verwendung von gpt-oss-20b (Parameter 21B), das die
torch_dtype='auto'
Aktiviert automatisch die gemischte BF16-Präzision und spart 50% Speicher im Vergleich zu FP32 - Quantitativer EinsatzVerwendung der Ollama-Werkzeugkette (
ollama pull gpt-oss:20b
) Automatische Anwendung der GPTQ-4-Bit-Quantisierung zur Reduzierung der Grafikspeicheranforderungen von 16 GB auf 8 GB - hierarchisches Laden: Konfiguration
device_map={'':0}
Erzwingt die Verwendung der Haupt-GPU, in Verbindung mitoffload_folder='./offload'
Auslagerung unbenutzter Ebenen auf die Festplatte - Parameteranpassung: in
from_pretrained()
hinzufügenlow_cpu_mem_usage=True
im Gesang antwortentorch_dtype='auto'
Parameter
Bei Geräten mit nur 8 GB Videospeicher ist eine zusätzliche Aktivierung vonoptimize_model()
Führen Sie eine Operator-Fusion durch, um den Speicherplatzbedarf um etwa 151 TP3T weiter zu verringern.
Diese Antwort stammt aus dem ArtikelSammlung von Skripten und Tutorials zur Feinabstimmung von OpenAI GPT OSS ModellenDie