在长视频理解任务中,M3-Agent展现出三项关键优势:
- 记忆效率:Gemini等模型需要将整个视频重新编码到上下文窗口,而M3-Agent通过记忆图谱只需检索相关实体节点。例如处理1小时视频时,前者需要消耗约200K tokens,后者仅需激活约50个相关节点。
- Profundidade de raciocínio:在HOTPOT-QA视频测试集中,M3-Agent对需要三级推理的问题准确率达72%,比Gemini-1.5-pro高18%。这源于其能通过图谱边关系进行链式推理,如”人物A拿走的物件→该物件属于人物B→因此A与B存在交互”。
- 时空建模:独有的时序编码器能准确记录事件发生的相对时间。测试显示其对”发生在X之后Y之前”类问题的回答准确率比GPT-4o高27%,这对监控分析等场景尤为重要。
这些优势使M3-Agent在需要长期记忆的开放场景(如家庭机器人)中具有不可替代性,但其模块化设计也意味着更高的部署复杂度。
Essa resposta foi extraída do artigoM3-Agent:一个拥有长期记忆并能处理音视频的多模态智能体O