Avaliação de desempenho de raciocínio matemático
O MiMo-7B-RL demonstrou excelente desempenho em vários conjuntos de dados de competições internacionais de matemática:
Conquistas do conjunto de dados principais
- AIME 2024TP3T Pass@1 (modelo de resposta correta na primeira rodada): 68,21
- AIME 2025TP3T Pass@1: 55,41
- MATH-500: 95,8% Pass@1
Esses resultados sugerem que o modelo é capaz:
- Compreender descrições de problemas matemáticos complexos em nível de competição
- Realizar raciocínio lógico em várias etapas e resolver equações
- Gerar um processo de solução que atenda à especificação matemática
Recomendações de uso
melhores práticas::
- configurar
temperature=0.6Equilíbrio entre a qualidade e a diversidade das respostas - As descrições dos problemas devem ser tão claras e completas quanto possível, e os problemas complexos podem ser inseridos em segmentos
- Adequado para treinamento em AMC/AIME e outras competições, apoio ao ensino de matemática em universidades e outros cenários
Os testes mostraram que seu desempenho é comparável ao de modelos comerciais maiores, como o OpenAI o1-mini.
Essa resposta foi extraída do artigoMiMo: um pequeno modelo de código aberto para raciocínio matemático eficiente e geração de códigoO































