数学の推論スピードを向上させるソリューション
MiMo-7B-RLモデルは、数学競技の問題における遅い推論の問題に対処するために、三重の技術的解決策によって最適化されている:
- 複数トークン予測(MTP)vLLM推論エンジンでの設定
num_speculative_tokens=1パラメータを用いることで、複数のトークン列を予測し、90%の受理率を達成することができる。実証実験によれば、この方法によって推論待ち時間が30%短縮された。 - 学習の最適化130,000の数学問題のデータセットを使って学習されたRLバージョンのモデルは、AIMEコンペティション問題において、ベースバージョンよりも2.3倍速い推論を提供します。MiMo-7B-RLモデルを推奨します。
- シームレス・ロールバック・エンジンTP3Tは主に学習フェーズで機能するが、モデルの最適化により、1回の推論時間が191 TP3T短縮され、複数の質問に連続して回答するシナリオに特に適している。
具体的な運用手順
- XiaomiカスタムvLLMをインストールする:
pip install "vllm @ git+https://github.com/XiaomiMiMo/vllm.git@feat_mimo_mtp_stable_073" - サービス開始時に MTP パラメータを追加する:
python3 -m vllm.entrypoints.api_server --model XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code --num_speculative_tokens 1 - 温度=0.6に設定することで、スピードと精度のバランスを保つ
注意:AIME2024の問題では、最適なパフォーマンスを得るために空のシステムプロンプト(プロンプト)を使用することを推奨します。ハードウェア構成は、少なくともNVIDIA A100 40GB GPUを推奨します。
この答えは記事から得たものである。MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデルについて































