MM-EUREKA 在三个关键维度实现了显著突破:
- 数据效率革命
通过规则强化学习框架,仅需54K图文数据即可达到传统模型百万级数据的性能,训练成本降低约95% - 推理范式创新
pull into,cap (a poem)<answer>标记机制,使模型能分步展示推理过程(例如几何题会先计算半径再求面积) - 动态反思能力
当检测到答案置信度低时,会自动触发图像重检流程,类似人类的错题检查行为
实际测试表明,在MathVista基准测试中,MM-Eureka-Zero-38B比同规模模型准确率提升12.7%,特别是在需图文交叉验证的复杂题目上优势明显。
This answer comes from the articleMM-EUREKA: A Multimodal Reinforcement Learning Tool for Exploring Visual ReasoningThe