Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie lässt sich LMCache mit vLLM integrieren, um die Inferenz zu optimieren?

2025-08-14 139

LMCache wird mit vLLM für die Inferenzoptimierung durch die folgenden Schritte integriert:

  1. Umgebungsvariablen konfigurierenExperimentelle Funktionsschalter, Cache-Chunk-Größe (z. B. 256 Token), Speicher-Backend (z. B. CPU) und Speichergrenzen (z. B. 5 GB) einstellen.
  2. Starten einer vLLM-InstanzvLLM: Bei der Initialisierung der vLLM wird eine neue vLLM über die FunktionKVTransferConfigGeben Sie LMCache als Schlüssel-Wert-Konnektor an und definieren Sie Rollen (z.B.kv_both).
  3. Automatische Cache-WiederverwendungWenn vLLM ausgeführt wird, lädt LMCache automatisch zwischengespeicherte Schlüssel-Wert-Paare und verwendet sie wieder, um Doppelberechnungen zu vermeiden.

Der folgende Code veranschaulicht zum Beispiel den Integrationsansatz:

from vllm import LLM
from lmcache.integration.vllm.utils import ENGINE_NAME
ktc = KVTransferConfig(kv_connector="LMCacheConnector", kv_role="kv_both")
llm = LLM(model="meta-llama/Meta-Llama-3.1-8B-Instruct", kv_transfer_config=ktc)

Durch diese Integration wird die Latenzzeit erheblich reduziert, insbesondere bei langen Texten oder Dialogszenarien mit mehreren Runden.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch