O LMCache é especialmente adequado para os três cenários de aplicativos típicos a seguir:
- Sistema multicast de perguntas e respostasO histórico de diálogos: Ao armazenar em cache pares de valores-chave no histórico de diálogos, ele pode reduzir significativamente a contagem dupla quando os usuários fazem perguntas consecutivas envolvendo o mesmo contexto (por exemplo, bots de atendimento ao cliente).
- Geração de aumento de recuperação (RAG)Pares de valores-chave de codificações de documentos armazenados em cache podem ser respondidos rapidamente para consultas semelhantes em documentos da base de conhecimento; exemplos típicos incluem pesquisa inteligente empresarial e sistemas de questionários de documentos.
- inferência multimodalCache de pares de valores-chave de recursos de imagem e recursos de texto simultaneamente para modelos híbridos visuais e verbais para reduzir efetivamente o uso de memória da GPU (por exemplo, cenários de geração de relatórios de imagens médicas).
De acordo com os testes oficiais, em cenários em que a taxa de repetição de tokens de entrada excede 30%, o LMCache geralmente pode melhorar a taxa de transferência em mais de 5 vezes.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO