O processo de integração consiste em quatro etapas principais:
- Preparação ambientalLinux, Python ≥ 3.10, CUDA ≥ 12.1, recomendado o uso do Conda para criar um ambiente isolado.
- Instalação de componentes: através de
pip install lmcache vllmInstale a versão mais recente ou compile a partir da fonte para instalar recursos experimentais - Configuração em execuçãoConfiguração de variáveis de ambiente, como
LMCACHE_USE_EXPERIMENTAL=TrueAtive os recursos avançados com o botãoKVTransferConfigEspecificando o conector de cache - Validação de instância: Inspeção
prefiller.logÉ recomendável que você use olmcache-testsArmazém para benchmarking
Os exemplos típicos de código exigem uma declaração explícitakv_connector="LMCacheConnector"e pode ser selecionado mediante solicitaçãokv_rolepara os modos somente leitura/ somente gravação/ leitura e gravação.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO































