Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Como o LMCache se integra ao vLLM para otimizar a inferência?

2025-08-14 141

O LMCache é integrado ao vLLM para otimização da inferência por meio das seguintes etapas:

  1. Configuração de variáveis de ambienteLimites de memória (por exemplo, 5 GB): defina interruptores de função de experimento, tamanho do bloco de cache (por exemplo, 256 tokens), backend de armazenamento (por exemplo, CPU) e limites de memória (por exemplo, 5 GB).
  2. Iniciando uma instância vLLMNo momento da inicialização do vLLM, um novo vLLM é criado por meio da funçãoKVTransferConfigEspecifique o LMCache como o conector de valor-chave e defina funções (por exemplokv_both).
  3. Reutilização automática do cacheQuando o vLLM é executado, o LMCache carrega e reutiliza automaticamente os pares de valores-chave armazenados em cache para evitar a duplicação de cálculos.

Por exemplo, o código a seguir demonstra a abordagem de integração:

from vllm import LLM
from lmcache.integration.vllm.utils import ENGINE_NAME
ktc = KVTransferConfig(kv_connector="LMCacheConnector", kv_role="kv_both")
llm = LLM(model="meta-llama/Meta-Llama-3.1-8B-Instruct", kv_transfer_config=ktc)

Essa integração reduz significativamente a latência, especialmente para textos longos ou cenários de diálogo com várias rodadas.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil