MiMo-7B ist eine Reihe von Open-Source-Modellen für große Sprachen, die von Xiaomi entwickelt wurden und deren Kernkompetenz in der Konzentration auf zwei große Fachgebiete liegt: mathematische Schlussfolgerungen und Codegenerierung. Das Modell verfügt über eine Architektur mit 7 Milliarden Parametern und erreicht durch mehrere technische Optimierungen eine Leistung, die mit größeren Modellen vergleichbar ist. Zu den wichtigsten Neuerungen gehören die gezielte Optimierung von Pre-Training-Daten, MTP-Techniken (Multiple Token Prediction) und die Anwendung von Strategien des Reinforcement Learning. Bei den Mathematik-Wettbewerbsdatensätzen AIME und MATH-500 erreicht die MiMo-7B-RL-Version Pass@1-Werte von 68,2% bzw. 95,8% und übertrifft damit den Durchschnitt ähnlich großer Modelle deutlich.
Für die technische Umsetzung bietet das Modell vier Versionen des Gradienten: die Basisversion (Base), die überwachte Feinabstimmungsversion (SFT), die Basisverstärkungsversion (RL-Zero) und die erweiterte Verstärkungsversion (RL). Die RL-Version wurde mit 130.000 Mathematik- und Programmierproblemen intensiv trainiert und erreicht eine Leistung, die der von OpenAI o1-mini nahe kommt. Die Modelldatei ist etwa 14 GB groß und unterstützt die Downloads der Plattformen Hugging Face und ModelScope, die Entwicklern eine vollständige Open-Source-Lösung bieten.
Diese Antwort stammt aus dem ArtikelMiMo: ein kleines Open-Source-Modell für effiziente mathematische Schlussfolgerungen und CodegenerierungDie































