LMCache是一款基于Apache 2.0许可证的开源工具,专门设计用于优化大语言模型(LLM)的推理过程。它通过复用模型中预先计算好的键值对(KV缓存)来显著降低计算开销,能减少3-10倍的推理延迟。该工具原生支持与vLLM等主流推理引擎的深度集成,提供多存储后端支持包括GPU显存、CPU内存、磁盘和Redis数据库。特别值得注意的是,LMCache采用了创新的非前缀文本复用技术,突破了传统KV缓存仅能复用前缀文本的限制,这使得它在处理RAG、多轮对话等长上下文场景时展现出显著优势。
本答案来源于文章《LMCache:加速大语言模型推理的键值缓存优化工具》