Perfil do modelo MiMo-7B
O MiMo-7B é uma família de modelos de idiomas grandes de código aberto desenvolvidos pela Xiaomi com 7 bilhões de parâmetros. A família contém quatro modelos com diferentes estágios de treinamento:
- BaseVersão original com pré-treinamento inicial concluído
- Modelagem de ajuste fino supervisionado (SFT)Uma versão de otimização de tarefas por aprendizado supervisionado
- RL-ZeroAprendizagem por reforço: uma versão da aprendizagem por reforço diretamente do modelo básico
- RLA melhor versão do aprendizado por reforço adicional do modelo SFT
Competências essenciaisIsso se reflete em duas áreas principais:
- raciocínio matemáticoSolução de problemas: resolve competições de matemática, como AIME, MATH-500, etc., e oferece suporte ao raciocínio passo a passo para problemas complexos.
- geração de códigoGeração de código de programação de alta qualidade em Python, C++, etc. para tarefas do LiveCodeBench.
O modelo alcança um poder de raciocínio comparável ao de modelos de maior escala por meio da previsão de múltiplos tokens (MTP) e otimizações de aprendizado por reforço.
Essa resposta foi extraída do artigoMiMo: um pequeno modelo de código aberto para raciocínio matemático eficiente e geração de códigoO































