O sistema de recuperação multimodal do VideoRAG usa oFusão em nível de recursoo fluxo de trabalho pode ser dividido em quatro estágios:
- Extração de recursos multimodais::
- Canal visual: extração de recursos CLIP de quadros-chave usando o ImageBind
- Canal de texto: vetores de incorporação de texto transcrito por ASR obtidos pelo Distil-Whisper
- Construção de índices hierárquicos::
- Indexação de granulação grossa em nível de vídeo (estrutura de gráfico HNSW)
- Indexação de granulação fina em nível de fragmento (biblioteca de vetores Faiss-IVF)
- Mecanismo de roteamento de consultas::
- Consulta de texto simples: recuperação prioritária de nós do gráfico de conhecimento
- Consultas relacionadas à visão: cálculo de similaridade entre modos de ativação
- Saída de classificação mistaRelevância semântica combinada, proximidade temporal e dimensões de consistência entre modos para classificar os resultados
O mecanismo alcançou uma precisão de recuperação entre os cinco primeiros de 81,31 TP3T no benchmark LongerVideos, superando significativamente a abordagem de linha de base unimodal.
Essa resposta foi extraída do artigoVideoRAG: uma estrutura RAG para entender vídeos ultralongos com suporte para recuperação multimodal e construção de gráficos de conhecimentoO































