LMCacheは、性能検証のための完全なツールチェーンを提供します:
- 標準検査キットスルー
lmcache-tests
リポジトリには、マルチラウンド・ダイアログやRAG検索などのテストケースがあらかじめ登録されておりmain.py
レイテンシー、スループット、キャッシュヒットレートのCSVレポートを生成 - カスタム負荷生成異なる繰り返し率(20%~80%)の入力シーケンスのシミュレーションに対応。
LMCACHE_CHUNK_SIZE
チャンクサイズがパフォーマンスに与える影響を観察するために、以下のようなパラメータを追加した。 - フルリンク監視通常のGPU使用率指標に加え、次のような指標も提供する。
proxy.log
キャッシュ要求の詳細を記録する。decoder.log
時間のかかる解析とデコード段階
テスト時には、長いシーケンス(>2048トークン)シナリオにおけるメモリ節約率に注目することを推奨します。また、企業ユーザーは、分散テストスクリプトによってクロスノード通信のオーバーヘッドを評価することもできます。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて