Leitfaden zur ressourcenschonenden Optimierung der Umwelt
Für GPU-Geräte mit unzureichendem Videospeicher (z. B. 24 GB oder weniger) kann das folgende Schema verwendet werden:
- Wissenssplitting-Technologie: Verwendung
split_knowledge.py
Die große Wissensbasis wird nach Themen gegliedert und zur Laufzeit dynamisch geladen. - 8-Bit-Quantisierung: Hinzufügen
--quantize
Parametrisierungintegrate.py
Das Modellvolumen wird um 50% reduziert. - CPU-Entlastungsstrategie: Konfiguration
offload_knowledge=True
Speicherung von inaktiven Wissensvektoren im Speicher - Optimierung der ChargenAnpassungen
--batch_size 4
Vermeiden von Videospeicherüberlauf
Bei der Ausführung von Llama-3-8B auf einer RTX3090 (24 GB): 1) Durch das Schneiden und Verarbeiten von 1 Million Wissensteilen kann der Videospeicherbedarf auf 18 GB begrenzt werden; 2) die Q&A-Latenzzeit wird nach der Quantisierung von 320 ms auf 210 ms reduziert. Alternativ können kleine Modelle wie Microsoft Phi-3-mini für die Arbeit mit der Wissenserweiterung in Betracht gezogen werden, was zu einem Leistungsverlust von weniger als 15%, aber einem geringeren Videospeicherbedarf von 80%.
Diese Antwort stammt aus dem ArtikelKBLaM: Ein erweitertes Open-Source-Tool zur Einbettung von externem Wissen in große ModelleDie