Soluções para melhorar a velocidade de raciocínio em matemática
O modelo MiMo-7B-RL é otimizado por uma solução técnica tripla para resolver o problema de raciocínio lento em questões de concursos de matemática:
- Previsão de múltiplos tokens (MTP)Configuração no mecanismo de inferência vLLM
num_speculative_tokens=1Se os parâmetros de inferência forem usados, várias sequências de tokens podem ser previstas para atingir a taxa de aceitação de 90%. Testes empíricos mostram que esse método reduz o tempo de espera da inferência em 30%. - Otimização do aprendizado aprimoradoA versão RL do modelo, treinada com o uso de um conjunto de dados de 130.000 problemas de matemática, é 2,3 vezes mais rápida do que a versão básica para raciocínio em questões de concurso da AIME. Recomenda-se dar preferência ao modelo MiMo-7B-RL.
- Mecanismo de reversão contínuoEmbora atue principalmente na fase de treinamento, a otimização do modelo resultante reduz o tempo de inferência única em 191 TP3T, o que é particularmente adequado para cenários em que várias perguntas são respondidas consecutivamente.
Procedimentos operacionais específicos:
- Instale a vLLM personalizada da Xiaomi:
pip install "vllm @ git+https://github.com/XiaomiMiMo/vllm.git@feat_mimo_mtp_stable_073" - Adicione parâmetros MTP ao iniciar o serviço:
python3 -m vllm.entrypoints.api_server --model XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code --num_speculative_tokens 1 - A configuração de temperatura=0,6 mantém um equilíbrio entre velocidade e precisão
Observação: para as perguntas do AIME2024, é recomendável usar um prompt de sistema vazio (prompt) para otimizar o desempenho. A configuração de hardware recomendada é de pelo menos uma GPU NVIDIA A100 40GB.
Essa resposta foi extraída do artigoMiMo: um pequeno modelo de código aberto para raciocínio matemático eficiente e geração de códigoO































