No cenário do aplicativo Retrieval Augmented Generation (RAG), o LMCache alcança uma melhoria significativa no desempenho armazenando em cache pares de valores-chave de fragmentos de documentos. Quando o sistema processa consultas semelhantes, ele pode reutilizar diretamente os resultados de computação intermediários armazenados em cache, evitando a repetição da computação avançada da camada Transformer. Os dados de teste mostram que, em cenários de consultas repetitivas de alta frequência, como a recuperação de documentos, o LMCache pode reduzir a quantidade de computação em mais de 70%. A ferramenta é especialmente otimizada para a capacidade de reutilização do cache de fragmentos de texto não contíguos, rompendo os requisitos tradicionais do cache KV para a continuidade do texto. Juntamente com a arquitetura de armazenamento distribuído, o LMCache pode aumentar a velocidade de resposta dos aplicativos RAG, como a base de conhecimento empresarial e o atendimento inteligente ao cliente, em mais de cinco vezes e, ao mesmo tempo, reduzir significativamente o custo do consumo de recursos de GPU.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO