Para o modelo híbrido visual-verbal, o LMCache implementa dois projetos inovadores:
- mecanismo de hash intermodalHashs exclusivos (mm_hashes) são gerados para tokens de imagem a fim de estabelecer uma relação de mapeamento com o cache de valores-chave de tokens de texto para garantir que os recursos visuais possam ser reutilizados com precisão. Por exemplo, na tarefa de geração de descrição de imagens, os recursos visuais da mesma imagem precisam ser calculados apenas uma vez.
- Estratégia de armazenamento híbridoDe acordo com o tamanho e as características dos recursos de imagem, o meio de armazenamento é selecionado automaticamente - os recursos pequenos de alta frequência são armazenados na memória da GPU e os recursos grandes de baixa frequência são transferidos para a CPU ou para o disco, o que pode reduzir a ocupação da memória de vídeo do 40% em cenários típicos.
Esse recurso precisa ser usado em conjunto com a versão multimodal do vLLM; para obter uma configuração específica, consulte o site oficial do vLLM.LMCache-Examples
Exemplo de pergunta e resposta visual (VQA) em um depósito.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO