O LMCache amplia de forma inovadora o escopo de aplicação do cache KV tradicional, permitindo otimizar o processo de inferência de modelos multimodais. O sistema codifica e processa tokens de imagem por meio de um algoritmo de hashing especial (mm_hashes) e armazena uniformemente em cache pares de valores-chave de recursos visuais e textuais no mesmo sistema de armazenamento. Essa tecnologia reduz significativamente o consumo de memória da GPU dos modelos de linguagem visual (por exemplo, CLIP, Flamingo etc.) e melhora consideravelmente a velocidade de inferência sob a premissa de garantir a qualidade da saída. O repositório oficial LMCache-Examples contém exemplos concretos de implementação de cenários multimodais, demonstrando como armazenar em cache e reutilizar os resultados de computação intermediários de pares imagem-texto.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO