O MiMo-7B é uma série de modelos de linguagem de grande porte de código aberto desenvolvidos pela Xiaomi, cuja competência principal está no foco em duas áreas principais de especialização: raciocínio matemático e geração de código. O modelo adota uma arquitetura de 7 bilhões de parâmetros e atinge um desempenho comparável ao de modelos de maior escala por meio de várias otimizações técnicas. As principais inovações incluem a otimização direcionada de dados de pré-treinamento, técnicas de Previsão de Múltiplos Tokens (MTP) e a aplicação de estratégias de aprendizado por reforço. Nos conjuntos de dados das competições de matemática AIME e MATH-500, a versão MiMo-7B-RL atinge pontuações Pass@1 de 68,2% e 95,8%, respectivamente, o que supera significativamente a média de modelos de tamanho semelhante.
Para a implementação técnica, o modelo fornece quatro versões do gradiente: a versão básica (Base), a versão de ajuste fino supervisionado (SFT), a versão de reforço básico (RL-Zero) e a versão de reforço avançado (RL). Entre elas, a versão RL é intensamente treinada por 130.000 problemas de matemática e programação, com desempenho próximo ao nível do OpenAI o1-mini. O arquivo do modelo tem cerca de 14 GB e suporta downloads da plataforma Hugging Face e ModelScope, oferecendo aos desenvolvedores uma solução completa de código aberto.
Essa resposta foi extraída do artigoMiMo: um pequeno modelo de código aberto para raciocínio matemático eficiente e geração de códigoO































