Derzeitige Position:Abb. Anfang " AI-Antworten

Wie löst man das Problem des unzureichenden Videospeichers beim Einsatz großer multimodaler Modelle?

2025-08-19

478

Step3 bietet zwei Lösungen für den Umgang mit begrenztem Videospeicher:

Verwenden Sie die optimierte Block-FP8-FormatModellgewichte, was den Speicherbedarf im Vergleich zum traditionellen bf16-Format erheblich reduziert.
Adoption Hybride Architektur des Kompetenzmodells (MoE)Der Berechnungsaufwand wird reduziert, indem nur ein Teil der Experten aktiviert wird (3,8 Milliarden aktive Parameter).

Implementierung: Laden Sie Gewichte im Block-fp8-Format von Hugging Face herunter und verwenden Sie die vLLM-Inferenzmaschine. Für A800/H800-GPUs mit 80 GB Speicher wird der parallele Betrieb mit 4 Karten empfohlen, und der Speicherverbrauch kann auf 60 GB/Karte begrenzt werden. Wenn die Hardware-Bedingungen eingeschränkt sind, können Sie den Speicherverbrauch entsprechend reduzieren. max_new_tokens Der Parameterwert (z. B. auf 512 gesetzt) reduziert den Berechnungsdruck.

Diese Antwort stammt aus dem ArtikelSchritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale InhalteDie

Darf nicht ohne Genehmigung vervielfältigt werden:KI-Produktivitätswerkzeuge " Wie löst man das Problem des unzureichenden Videospeichers beim Einsatz großer multimodaler Modelle?