Para o problema de contagem dupla no diálogo de várias rodadas, o LMCache oferece a seguinte solução:
- Ativar o cache de valores-chaveDefinido na inicialização do vLLM
KVTransferConfig(kv_connector='LMCacheConnector')
- Configuração de políticas de armazenamentoEscolha o armazenamento apropriado com base na duração do diálogo (GPU/CPU para diálogos curtos, disco/Redis para diálogos longos)
- Ajuste da granularidade do cache: através de
LMCACHE_CHUNK_SIZE
O parâmetro define o tamanho do bloco de tokens de 256 a 512 - Persistência com o RedisArmazenamento persistente de dados históricos da sessão para evitar a invalidação do cache após a reinicialização do servidor
Esse esquema pode reutilizar os resultados de computação intermediários do histórico do diálogo e reduzir significativamente a quantidade de computação da GPU em cenários de perguntas e respostas com várias rodadas.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO