LMCacheの分散アーキテクチャは、複数のGPUデバイスまたはコンテナ化環境でのキャッシュ共有をサポートしており、この機能は特に大規模なエンタープライズレベルのAI推論導入に適しています。このシステムは、GPU高速グラフィックスメモリ(ホットデータに最適)、CPU DRAM(速度と容量のバランス)、永続ディスクストレージ(コールドデータ用)、Redisクラスタ(分散アクセスをサポート)など、複数のメディア上のキャッシュデータの分散ストレージをサポートしています。インテリジェントなデータスライシングと転送メカニズムにより、異なる計算ノードがキャッシュされたキーと値のペアを効率的に共有し、重複した計算を避けることができる。公式に提供されているdisagg_vllm_launcher.shスクリプトは、クラスタ展開時にGPUメモリ使用量を大幅に削減する方法で分散環境を構成する方法を示しています。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて