LMCacheはvLLMと統合され、以下のステップで推論の最適化を実現する:
- 環境変数の設定実験ファンクションスイッチ、キャッシュチャンクサイズ(例:256トークン)、ストレージバックエンド(例:CPU)、メモリ制限(例:5GB)を設定する。
- vLLMインスタンスの起動vLLMの初期化時に、新しいvLLMは
KVTransferConfig
LMCacheをKey-Valueコネクタとして指定し、ロールを定義する(たとえばkv_both
). - 自動キャッシュ再利用vLLMを実行する際、LMCacheはキャッシュされたキーと値のペアを自動的にロードして再利用し、二重計算を回避する。
例えば、次のコードは統合アプローチを示している:
from vllm import LLM
from lmcache.integration.vllm.utils import ENGINE_NAME
ktc = KVTransferConfig(kv_connector="LMCacheConnector", kv_role="kv_both")
llm = LLM(model="meta-llama/Meta-Llama-3.1-8B-Instruct", kv_transfer_config=ktc)
この統合により、特に長いテキストや複数ラウンドの対話シナリオの待ち時間が大幅に短縮される。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて