LMCache wird mit vLLM für die Inferenzoptimierung durch die folgenden Schritte integriert:
- Umgebungsvariablen konfigurierenExperimentelle Funktionsschalter, Cache-Chunk-Größe (z. B. 256 Token), Speicher-Backend (z. B. CPU) und Speichergrenzen (z. B. 5 GB) einstellen.
- Starten einer vLLM-InstanzvLLM: Bei der Initialisierung der vLLM wird eine neue vLLM über die Funktion
KVTransferConfig
Geben Sie LMCache als Schlüssel-Wert-Konnektor an und definieren Sie Rollen (z.B.kv_both
). - Automatische Cache-WiederverwendungWenn vLLM ausgeführt wird, lädt LMCache automatisch zwischengespeicherte Schlüssel-Wert-Paare und verwendet sie wieder, um Doppelberechnungen zu vermeiden.
Der folgende Code veranschaulicht zum Beispiel den Integrationsansatz:
from vllm import LLM
from lmcache.integration.vllm.utils import ENGINE_NAME
ktc = KVTransferConfig(kv_connector="LMCacheConnector", kv_role="kv_both")
llm = LLM(model="meta-llama/Meta-Llama-3.1-8B-Instruct", kv_transfer_config=ktc)
Durch diese Integration wird die Latenzzeit erheblich reduziert, insbesondere bei langen Texten oder Dialogszenarien mit mehreren Runden.
Diese Antwort stammt aus dem ArtikelLMCache: Ein Key-Value-Cache-Optimierungswerkzeug zur Beschleunigung von Schlussfolgerungen auf großen SprachmodellenDie