O LMCache melhora principalmente a eficiência da inferência armazenando em cache e reutilizando os resultados de computação intermediários do Modelo de Linguagem Grande (LLM), o Cache de Valor Chave (KV Cache). Ele usa as seguintes tecnologias principais:
- Reutilização do cache de valores-chaveArmazenamento: armazene os pares de valores-chave gerados pelo cálculo do modelo e reutilize-os diretamente quando encontrar as mesmas entradas de texto ou entradas de texto parcialmente sobrepostas para evitar cálculos repetidos.
- Suporte a back-end com vários armazenamentosUso flexível de mídia de armazenamento, como gráficos de GPU, memória da CPU, disco ou Redis, para otimizar automaticamente as políticas de cache com base nos recursos de hardware.
- Arquitetura de cache distribuídoSuporte a cache compartilhado em várias GPUs ou ambientes em contêineres, especialmente adequado para cenários de implementação em larga escala em nível empresarial.
Os testes mostraram que, quando integrado a mecanismos de inferência, como o vLLM, o LMCache pode atingir uma otimização de latência de 3 a 10 vezes, o que é especialmente eficaz em cenários como contextos longos e conversas em várias rodadas.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO