数学推理性能评估
MiMo-7B-RL 在多个国际数学竞赛数据集上展现出卓越表现:
核心数据集成绩
- AIME 2024:68.2% Pass@1(模型首轮解答正确率)
- AIME 2025:55.4% Pass@1
- MATH-500:95.8% Pass@1
这些结果说明模型能够:
- 理解竞赛级的复杂数学问题描述
- 进行多步逻辑推理和方程求解
- 生成符合数学规范的解题过程
使用建议
最佳实践:
- 设置
temperature=0.6
平衡解答质量与多样性 - 问题描述应尽量清晰完整,可分段输入复杂问题
- 适用于AMC/AIME等竞赛训练、高校数学教学辅助等场景
测试表明其性能可匹敌 OpenAI o1-mini 等更大规模的商业模型。
本答案来源于文章《MiMo:高效数学推理与代码生成的小型开源模型》