MiMo-7B 模型简介
MiMo-7B 是小米公司开发的开源大语言模型系列,拥有 70 亿参数。该系列包含四个不同训练阶段的模型:
- 基础模型 (Base):完成初始预训练的原始版本
- 监督微调模型 (SFT):通过监督学习进行任务优化的版本
- RL-Zero:直接从基础模型进行强化学习的版本
- RL:从 SFT 模型进一步强化学习的最佳版本
コア・コンピテンシー主要体现在两大领域:
- すうり:可解决 AIME、MATH-500 等数学竞赛题目,支持复杂问题分步推理
- コード生成:能够高质量生成 Python、C++ 等编程代码,适用于 LiveCodeBench 任务
该模型通过多重令牌预测 (MTP) 和强化学习优化,实现了与更大规模模型相当的推理能力。
この答えは記事から得たものである。MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデルについて