多ラウンド対話における二重カウントの問題に対して、LMCacheは以下の解決策を提供する:
- キー・バリュー・キャッシュを有効にするvLLM初期化時に設定
KVTransferConfig(kv_connector='LMCacheConnector')
- ストレージポリシーの設定ダイアログの長さに応じて適切なストレージを選択(短いダイアログはGPU/CPU、長いダイアログはディスク/Redis)。
- キャッシュの粒度を調整するスルー
LMCACHE_CHUNK_SIZE
パラメータはトークン・ブロックのサイズを256~512で設定する。 - Redisによる永続化サーバー再起動後のキャッシュ無効化を回避するため、過去のセッションデータを永続的に保存します。
この方式は、対話履歴の中間計算結果を再利用することができ、複数ラウンドのQ&AシナリオにおいてGPUの計算量を大幅に削減することができる。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて