Der Integrationsprozess besteht aus vier wichtigen Schritten:
- Vorbereitung der UmweltLinux, Python ≥ 3.10, CUDA ≥ 12.1, es wird empfohlen, Conda zu verwenden, um eine isolierte Umgebung zu schaffen.
- Einbau der Komponenten: durch
pip install lmcache vllm
Installieren Sie die neueste Version, oder kompilieren Sie aus dem Quellcode, um experimentelle Funktionen zu installieren - Laufende KonfigurationSetzen von Umgebungsvariablen wie
LMCACHE_USE_EXPERIMENTAL=True
Aktivieren Sie erweiterte Funktionen mit demKVTransferConfig
Festlegen des Cache-Verbinders - Instanz-Validierung: Inspektion
prefiller.log
Es wird empfohlen, dass Sie dielmcache-tests
Lagerhaus für Benchmarking
Typische Codebeispiele erfordern eine explizite Deklarationkv_connector="LMCacheConnector"
und kann auf Anfrage ausgewählt werdenkv_role
für die Modi Nur-Lesen/Nur-Schreiben/Lesen-Schreiben.
Diese Antwort stammt aus dem ArtikelLMCache: Ein Key-Value-Cache-Optimierungswerkzeug zur Beschleunigung von Schlussfolgerungen auf großen SprachmodellenDie