VideoRAG的多模态检索系统采用特征级融合策略,工作流程可分为四个阶段:
- 跨模态特征提取:
- 视觉通道:使用ImageBind提取关键帧的CLIP特征
- 文本通道:通过Distil-Whisper获得ASR转录文本的嵌入向量
- 分层索引构建:
- 视频级粗粒度索引(HNSW图结构)
- 片段级精粒度索引(Faiss-IVF向量库)
- 查询路由机制:
- 纯文本查询:优先检索知识图谱节点
- 视觉相关查询:激活跨模态相似度计算
- 混合排序输出:综合语义相关度、时序邻近度、跨模态一致性三个维度进行结果排序
该机制在LongerVideos基准测试中取得了81.3%的top-5检索准确率,显著优于单模态基线方法。
本答案来源于文章《VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建》