MiMo-7B 模型简介
MiMo-7B 是小米公司开发的开源大语言模型系列,拥有 70 亿参数。该系列包含四个不同训练阶段的模型:
- 基础模型 (Base):完成初始预训练的原始版本
- 监督微调模型 (SFT):通过监督学习进行任务优化的版本
- RL-Zero:直接从基础模型进行强化学习的版本
- RL:从 SFT 模型进一步强化学习的最佳版本
Competências essenciais主要体现在两大领域:
- raciocínio matemático:可解决 AIME、MATH-500 等数学竞赛题目,支持复杂问题分步推理
- geração de código:能够高质量生成 Python、C++ 等编程代码,适用于 LiveCodeBench 任务
该模型通过多重令牌预测 (MTP) 和强化学习优化,实现了与更大规模模型相当的推理能力。
Essa resposta foi extraída do artigoMiMo: um pequeno modelo de código aberto para raciocínio matemático eficiente e geração de códigoO