Die Schritte zur Beseitigung von LMCache-Leistungsproblemen sind wie folgt:
- Überprüfung der Protokolldateien: Überwachung
prefiller.log
unddecoder.log
im Gesang antwortenproxy.log
Analyse von Schlüsselkennzahlen wie Cache-Trefferrate, Backend-Last usw. - Ausführen des TestwerkzeugsGenerieren Sie mehrere Runden von Q&A- oder RAG-Workloads mit den von LMCache bereitgestellten Testwerkzeugen und geben Sie CSV-Dateien aus, um die Latenz und den Durchsatz zu quantifizieren.
- Validierung der UmweltSicherstellen der Kompatibilität von CUDA- und Python-Versionen; es wird empfohlen, eine isolierte Conda-Umgebung zu verwenden.
- Unterstützung der GemeinschaftTreten Sie dem Slack-Kanal bei oder nehmen Sie an den zweiwöchentlichen Community-Treffen (dienstags um 21:00 Uhr PT) teil, um Hilfe zu erhalten.
Zum Beispiel das Klonenlmcache-tests
Führen Sie nach dem Repository den folgenden Befehl aus, um die Leistung des CPU-Backends zu testen:
python3 main.py tests/tests.py -f test_lmcache_local_cpu -o outputs/
Die Ergebnisse werden als CSV-Datei zur weiteren Analyse der Optimierungspunkte gespeichert.
Diese Antwort stammt aus dem ArtikelLMCache: Ein Key-Value-Cache-Optimierungswerkzeug zur Beschleunigung von Schlussfolgerungen auf großen SprachmodellenDie