As etapas para depurar problemas de desempenho do LMCache são as seguintes:
- Verificação de arquivos de registro: Monitoramento
prefiller.log
edecoder.log
responder cantandoproxy.log
Analisando as principais métricas, como taxa de acerto do cache, carga de back-end do armazenamento etc. - Execução da ferramenta de testeGerar várias rodadas de cargas de trabalho de Q&A ou RAG usando as ferramentas de teste fornecidas pelo LMCache, gerando arquivos CSV para quantificar a latência e a taxa de transferência.
- Validação ambientalCompatibilidade de versões do CUDA e do Python: garantir a compatibilidade de versões do CUDA e do Python; recomenda-se usar o ambiente isolado do Conda.
- Suporte à comunidadePara obter ajuda, entre no canal do Slack ou participe das reuniões quinzenais da comunidade (às terças-feiras, às 21h (horário de Brasília)).
Por exemplo, a clonagemlmcache-tests
Após o repositório, execute o seguinte comando para testar o desempenho do backend da CPU:
python3 main.py tests/tests.py -f test_lmcache_local_cpu -o outputs/
Os resultados serão salvos como um arquivo CSV para análise posterior dos pontos de otimização.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO