MM-EUREKA 在三个关键维度实现了显著突破:
- 数据效率革命
通过规则强化学习框架,仅需54K图文数据即可达到传统模型百万级数据的性能,训练成本降低约95% - 推理范式创新
trazer<think>responder cantando<answer>标记机制,使模型能分步展示推理过程(例如几何题会先计算半径再求面积) - 动态反思能力
当检测到答案置信度低时,会自动触发图像重检流程,类似人类的错题检查行为
实际测试表明,在MathVista基准测试中,MM-Eureka-Zero-38B比同规模模型准确率提升12.7%,特别是在需图文交叉验证的复杂题目上优势明显。
Essa resposta foi extraída do artigoMM-EUREKA: uma ferramenta de aprendizagem por reforço multimodal para explorar o raciocínio visualO