MM-EUREKA 是由上海人工智能实验室、上海交通大学等机构联合开发的开源多模态推理工具,其核心创新点在于将基于规则的强化学习技术扩展到视觉与文本协同处理场景。
主要技术优势包括:
- 多模态融合能力:能同时解析图像和文本信息,例如处理带图数学题时能自动关联图形特征和文字描述
- 规则驱动的强化学习:通过结构化训练框架减少数据依赖,54K训练样本即可超越传统百万级数据模型效果
- 视觉反思机制:在推理过程中模拟人类的’顿悟’行为,支持对图像线索的二次验证
- 双模型架构:提供8B和38B两种参数规模的模型,兼顾效率与精度需求
本答案来源于文章《MM-EUREKA:探索视觉推理的多模态强化学习工具》