LMCacheのパフォーマンス問題をデバッグする手順は以下の通り:
- ログファイルのチェックモニタリング
prefiller.log
そしてdecoder.log
歌で応えるproxy.log
キャッシュのヒット率、ストレージのバックエンドの負荷など、主要なメトリクスを分析する。 - テストツールの実行LMCacheが提供するテストツールを使用して、Q&AまたはRAGワークロードを複数ラウンド生成し、レイテンシとスループットを定量化するためのCSVファイルを出力します。
- 環境バリデーションCUDAとPythonのバージョンの互換性を確保する。
- 地域支援Slackチャンネルに参加するか、隔週で開催されるコミュニティ・ミーティング(毎週火曜日、PT午後9時)に参加するとよい。
例えば、クローニングlmcache-tests
リポジトリの後、以下のコマンドを実行してCPUバックエンドのパフォーマンスをテストする:
python3 main.py tests/tests.py -f test_lmcache_local_cpu -o outputs/
結果はCSVファイルとして保存され、最適化ポイントをさらに分析することができる。
この答えは記事から得たものである。LMCache:大規模言語モデルの推論を高速化するキーバリューキャッシュ最適化ツールについて