针对视觉-语言混合模型,LMCache实现了两项创新设计:
- 跨模态哈希机制:对图像token生成唯一哈希值(mm_hashes),与文本token的键值缓存建立映射关系,确保视觉特征可被精准复用。例如在图像描述生成任务中,相同图像的视觉特征只需计算一次。
- 混合存储策略:根据图像特征的大小特点,自动选择存储介质——高频小特征存GPU显存,低频大特征转存CPU或磁盘,典型场景下可降低40%的显存占用。
该功能需要配合多模态版vLLM使用,具体配置参考官方LMCache-Examples
仓库中的视觉问答(VQA)示例。
本答案来源于文章《LMCache:加速大语言模型推理的键值缓存优化工具》