O LMCache oferece uma cadeia completa de ferramentas para verificação de desempenho:
- Kits de teste padrão: através de
lmcache-tests
O repositório é preenchido previamente com casos de teste, como diálogos de várias rodadas, recuperação de RAG etc., e a execução domain.py
Gera relatórios CSV com latência, taxa de transferência e taxa de acerto do cache - Geração de carga personalizadaSuporte à simulação de sequências de entrada com diferentes taxas de repetição (20%-80%), com ajuste pelo usuário
LMCACHE_CHUNK_SIZE
e outros parâmetros para observar o efeito do tamanho do bloco no desempenho - monitoramento de link completoAlém das métricas usuais de utilização de GPU, ele também fornece
proxy.log
registro de detalhes da solicitação de cache.decoder.log
Fase de análise e decodificação que consome muito tempo
Recomenda-se concentrar-se na porcentagem de economia de memória em cenários de sequência longa (>2048 tokens) ao testar, e os usuários corporativos também podem avaliar a sobrecarga de comunicação entre nós por meio de scripts de teste distribuídos.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO