当前位置：首页 » AI答疑

LMCache是一个专为大语言模型推理优化的开源键值缓存工具

2025-08-19

361

LMCache是一款基于Apache 2.0许可证的开源工具，专门设计用于优化大语言模型(LLM)的推理过程。它通过复用模型中预先计算好的键值对(KV缓存)来显著降低计算开销，能减少3-10倍的推理延迟。该工具原生支持与vLLM等主流推理引擎的深度集成，提供多存储后端支持包括GPU显存、CPU内存、磁盘和Redis数据库。特别值得注意的是，LMCache采用了创新的非前缀文本复用技术，突破了传统KV缓存仅能复用前缀文本的限制，这使得它在处理RAG、多轮对话等长上下文场景时展现出显著优势。

本答案来源于文章《LMCache：加速大语言模型推理的键值缓存优化工具》