数学推理性能评估
MiMo-7B-RL 在多个国际数学竞赛数据集上展现出卓越表现:
核心数据集成绩
- AIME 2024:68.2% Pass@1(模型首轮解答正确率)
- AIME 2025:55.4% Pass@1
- MATH-500:95.8% Pass@1
这些结果说明模型能够:
- 理解竞赛级的复杂数学问题描述
- 进行多步逻辑推理和方程求解
- 生成符合数学规范的解题过程
Recommendations for use
best practice::
- set up
temperature=0.6
平衡解答质量与多样性 - 问题描述应尽量清晰完整,可分段输入复杂问题
- 适用于AMC/AIME等竞赛训练、高校数学教学辅助等场景
测试表明其性能可匹敌 OpenAI o1-mini 等更大规模的商业模型。
This answer comes from the articleMiMo: A Small Open Source Model for Efficient Mathematical Reasoning and Code GenerationThe