Step3 bietet zwei Lösungen für den Umgang mit begrenztem Videospeicher:
- Verwenden Sie die optimierte Block-FP8-FormatModellgewichte, was den Speicherbedarf im Vergleich zum traditionellen bf16-Format erheblich reduziert.
- Adoption Hybride Architektur des Kompetenzmodells (MoE)Der Berechnungsaufwand wird reduziert, indem nur ein Teil der Experten aktiviert wird (3,8 Milliarden aktive Parameter).
Implementierung: Laden Sie Gewichte im Block-fp8-Format von Hugging Face herunter und verwenden Sie die vLLM-Inferenzmaschine. Für A800/H800-GPUs mit 80 GB Speicher wird der parallele Betrieb mit 4 Karten empfohlen, und der Speicherverbrauch kann auf 60 GB/Karte begrenzt werden. Wenn die Hardware-Bedingungen eingeschränkt sind, können Sie den Speicherverbrauch entsprechend reduzieren. max_new_tokens
Der Parameterwert (z. B. auf 512 gesetzt) reduziert den Berechnungsdruck.
Diese Antwort stammt aus dem ArtikelSchritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale InhalteDie