視覚と言語のハイブリッド・モデルのために、LMCacheは2つの革新的なデザインを実装している:
- クロスモーダルハッシュ機構画像トークンには一意ハッシュ(mm_hash)が生成され、テキストトークンのキーバリューキャッシュとのマッピング関係を確立し、視覚的特徴を正確に再利用できるようにします。例えば、画像記述生成タスクでは、同じ画像の視覚的特徴を一度だけ計算する必要がある。
- ハイブリッド・ストレージ戦略画像特徴のサイズと特徴に応じて、記憶媒体が自動的に選択されます。高頻度の小特徴はGPUメモリに保存され、低頻度の大特徴はCPUまたはディスクに転送されます。
この機能は、vLLMのマルチモーダルバージョンと組み合わせて使用する必要があります。LMCache-Examples
倉庫でのVQA(Visual Question and Answer)の例。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて