LMCacheは、従来のKVキャッシュの適用範囲を革新的に拡張し、マルチモーダルモデルの推論プロセスを最適化することを可能にする。このシステムは、特殊なハッシュ・アルゴリズム(mm_hashes)を介して画像トークンをエンコードして処理し、視覚的特徴とテキスト的特徴のキーと値のペアを同じストレージ・システムに一様にキャッシュします。この技術により、視覚言語モデル(CLIP、Flamingoなど)のGPUメモリ消費量を大幅に削減し、出力品質の確保を前提とした推論速度を飛躍的に向上させることができます。公式のLMCache-Examplesリポジトリには、画像とテキストのペアの中間計算結果をキャッシュして再利用する方法を示す、マルチモーダルなシナリオの具体的な実装例が含まれています。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて