Leitfaden zur Optimierung des Speichers für die Verarbeitung langer Dokumente
Der Speicherverbrauch für 128K-Kontexte kann erheblich reduziert werden durch:
- Aktivieren der Kontext-ZwischenspeicherungDoppelte Zählung desselben Inhalts vermeiden, nach dem ersten Laden einstellen
cache_context=True
Parameter:model.chat(tokenizer, '总结上一段的核心观点', cache_context=True)
- Technologie der Segmentierung: Verwenden Sie eine Sliding-Window-Policy für sehr lange Dokumente:
- Aufteilung von PDF nach Kapiteln mit PyMuPDF (≤32K Token pro Absatz)
- ausnutzen
yarn
Die Erweiterungstechnologie erhält die Verknüpfungen zwischen den Absätzen aufrecht - Endgültige Anforderung der Ergebnisse der Modellintegrationsanalyse
- Optimierung auf Hardware-Ebene::
- Unterstützung der dynamischen Stapelverarbeitung mit der vLLM-Inferenzmaschine
- Aktivieren von FlashAttention-2 beschleunigt das Attention Computing
- konfigurieren.
--limit-mm-per-prompt '{"text":64}'
Speicherspitzen begrenzen
Testfall: Bei der Verarbeitung von 100 Seiten juristischer Verträge kann die Segmentierungsstrategie den Speicherverbrauch von 48 GB auf 22 GB reduzieren. Wir empfehlen die Kombination GLM-4.5-Air + INT4-Quantisierung, mit der die Analyse von Dokumenten mit einer Million Wörtern auf einem 16-GB-Speichergerät abgeschlossen werden kann.
Diese Antwort stammt aus dem ArtikelGLM-4.5: Open Source Multimodale Großmodelle zur Unterstützung intelligenter Schlussfolgerungen und CodegenerierungDie