O LMCache requer suporte específico ao ambiente de tempo de execução, exigindo um sistema operacional Linux, uma versão do Python não inferior a 3.10 e deve ser configurado com o ambiente de desenvolvimento NVIDIA CUDA 12.1 e superior. É oficialmente recomendado usar o Miniconda para criar um ambiente virtual Python isolado para gerenciar as dependências. A instalação é flexível: você pode instalar a versão estável diretamente via PyPI (pip install lmcache) ou pode optar por compilar e instalar a partir do código-fonte para obter os recursos mais recentes. É importante observar que o LMCache deve ser usado em conjunto com o mecanismo de inferência vLLM, portanto, é necessária uma instalação adicional do componente vLLM. Para cenários de implantação em contêineres, o projeto também fornece imagens pré-construídas do Docker que integram o vLLM e as dependências relacionadas para simplificar o processo de implantação.
Essa resposta foi extraída do artigoLMCache: uma ferramenta de otimização de cache de valores-chave para acelerar o raciocínio em grandes modelos de linguagemO