O LMCache é uma ferramenta de código-fonte aberto baseada na licença Apache 2.0, projetada especificamente para otimizar o processo de raciocínio dos modelos de linguagem grande (LLMs). Ela reduz significativamente a sobrecarga computacional reutilizando pares de valores-chave pré-computados (caches KV) no modelo, o que pode reduzir a latência da inferência em um fator de 3 a 10. A ferramenta oferece suporte nativo à integração profunda com os principais mecanismos de inferência, como o vLLM, fornecendo suporte a back-end de vários armazenamentos, incluindo memória de GPU, memória de CPU, disco e banco de dados Redis. É particularmente notável que o LMCache adota uma tecnologia inovadora de reutilização de texto não prefixado, rompendo a limitação de que os caches KV tradicionais só podem reutilizar texto prefixado, o que faz com que ele apresente vantagens significativas ao lidar com cenários contextuais longos, como RAG e diálogos de várias rodadas.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO