LMCacheは、大規模言語モデル(LLM)の推論プロセスを最適化するために特別に設計された、Apache 2.0ライセンスに基づくオープンソースツールです。モデル内で事前に計算されたキーと値のペア(KVキャッシュ)を再利用することで、計算オーバーヘッドを大幅に削減し、推論の待ち時間を3~10分の1に短縮することができます。このツールは、vLLMのような主流の推論エンジンとの深い統合をネイティブにサポートしており、GPUメモリ、CPUメモリ、ディスク、Redisデータベースを含むマルチストレージバックエンドをサポートしている。特に注目すべき点は、LMCacheが革新的な非プリフィックステキスト再利用技術を採用していることで、従来のKVキャッシュがプリフィックステキストしか再利用できないという制限を打破し、RAGやマルチラウンドダイアログのような長い文脈のシナリオを扱う際に大きな利点を発揮します。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて