A arquitetura distribuída do LMCache oferece suporte ao compartilhamento de cache em vários dispositivos de GPU ou ambientes em contêineres, um recurso que o torna particularmente adequado para implementações de inferência de IA de nível empresarial em grande escala. O sistema oferece suporte ao armazenamento descentralizado de dados em cache em várias mídias, incluindo memória gráfica de alta velocidade da GPU (adequada para dados quentes), DRAM da CPU (velocidade e capacidade de equilíbrio), armazenamento em disco persistente (para dados frios) e clusters Redis (com suporte a acesso distribuído). Por meio de mecanismos inteligentes de fatiamento e transferência de dados, diferentes nós de computação podem compartilhar com eficiência pares de valores-chave armazenados em cache, evitando cálculos duplicados. O script disagg_vllm_launcher.sh fornecido oficialmente mostra como configurar um ambiente distribuído de forma a reduzir significativamente o uso da memória da GPU durante a implantação do cluster.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO