O LMCache é uma ferramenta de cache de valor-chave (KV) de código aberto otimizada para raciocínio de modelo de linguagem grande (LLM), com recursos principais que incluem:
- Reutilização do cache de valores-chaveO armazenamento em cache dos resultados de computação intermediários (pares de valores-chave) dos LLMs evita a computação repetida do mesmo texto ou contexto, o que reduz significativamente o tempo de raciocínio e o consumo de recursos da GPU.
- Suporte a back-end com vários armazenamentosSuporte a vários métodos de armazenamento, como GPU, DRAM da CPU, disco e Redis, para lidar de forma flexível com as restrições de memória.
- Integração com o vLLMAcesso contínuo ao mecanismo de inferência vLLM, proporcionando otimização de latência de 3 a 10 vezes.
- cache distribuídoSuporte a cache compartilhado em várias GPUs ou ambientes em contêineres para implementações em grande escala.
- suporte multimodalCacheable key-value pairs of images and text to optimise multimodal model inference (Pares de valores-chave armazenáveis de imagens e texto para otimizar a inferência de modelos multimodais).
Esses recursos o tornam particularmente adequado para cenários de contexto longo, como várias rodadas de Q&A, Retrieval Augmented Generation (RAG), etc.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO