Für das Problem der Doppelzählung im Mehrrunden-Dialog bietet LMCache die folgende Lösung:
- Caching von Schlüsselwerten aktivierenvLLM: Bei der Initialisierung von vLLM eingestellt
KVTransferConfig(kv_connector='LMCacheConnector') - Konfigurieren von SpeicherrichtlinienAuswahl des geeigneten Speichers je nach Dialoglänge (GPU/CPU für kurze Dialoge, Festplatte/Redis für lange Dialoge)
- Anpassen der Cache-Granularität: durch
LMCACHE_CHUNK_SIZEDer Parameter legt die Token-Blockgröße von 256-512 fest. - Persistenz mit RedisPersistente Speicherung historischer Sitzungsdaten, um zu verhindern, dass der Cache nach einem Server-Neustart ungültig wird
Dieses Schema kann die Zwischenergebnisse der Dialoghistorie wiederverwenden und den Umfang der GPU-Berechnungen in Q&A-Szenarien mit mehreren Runden erheblich reduzieren.
Diese Antwort stammt aus dem ArtikelLMCache: Ein Key-Value-Cache-Optimierungswerkzeug zur Beschleunigung von Schlussfolgerungen auf großen SprachmodellenDie































