O processo de integração consiste em quatro etapas principais:
- Preparação ambientalLinux, Python ≥ 3.10, CUDA ≥ 12.1, recomendado o uso do Conda para criar um ambiente isolado.
- Instalação de componentes: através de
pip install lmcache vllm
Instale a versão mais recente ou compile a partir da fonte para instalar recursos experimentais - Configuração em execuçãoConfiguração de variáveis de ambiente, como
LMCACHE_USE_EXPERIMENTAL=True
Ative os recursos avançados com o botãoKVTransferConfig
Especificando o conector de cache - Validação de instância: Inspeção
prefiller.log
É recomendável que você use olmcache-tests
Armazém para benchmarking
Os exemplos típicos de código exigem uma declaração explícitakv_connector="LMCacheConnector"
e pode ser selecionado mediante solicitaçãokv_role
para os modos somente leitura/ somente gravação/ leitura e gravação.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO