Gegenmaßnahmen bei unzureichendem Videospeicher
Um das Problem des unzureichenden Videospeichers zu lösen, können folgende Strategien angewandt werden:
- Verwenden Sie die Konfiguration low_memory:Aktivierung von Speicheroptimierungsschemata über -profile low_memory, um automatisch speichersparende Techniken wie die FP8-Quantisierung zu aktivieren
- Quantifizierung des Modells:Manuelle Angabe der Quantisierung awq/squeezellm usw.
- Passen Sie die Modellscheibe an:Verringern Sie den Wert des Parameters -tensor-parallel-size (auf 1 gesetzt für eine einzelne GPU)
- Strategie für die Deinstallation:Einstellung des Parameters -swap-space, um die Vorteile der Systemspeichererweiterung zu nutzen
Diagnoseschritte: Wenn das Laden fehlschlägt, prüfen Sie sofort mit dem von vllm-cli bereitgestellten Log-Viewer auf spezifische Fehlercodes. Wenn es sich um einen OOM-Fehler handelt, verwenden Sie vllm-cli info, um zunächst den verfügbaren Videospeicher zu prüfen und dann die Modellspezifikation entsprechend zu reduzieren oder ein stärkeres Quantisierungsschema zu aktivieren. Bei Modellen auf dem HuggingFace Hub ist darauf zu achten, dass der passende Zweig gewählt wird (z.B. die 4bit-Quantisierungsversion).
Diese Antwort stammt aus dem ArtikelvLLM CLI: Kommandozeilen-Tool für die Bereitstellung großer Sprachmodelle mit vLLMDie