Profil des Modells MiMo-7B
MiMo-7B ist eine von Xiaomi entwickelte Familie von quelloffenen großen Sprachmodellen mit 7 Milliarden Parametern. Die Familie umfasst vier Modelle mit unterschiedlichen Trainingsstufen:
- BasisOriginalversion mit abgeschlossener Vorschulung
- Überwachte Feinabstimmung Modellierung (SFT)A version of task optimization through supervised learning
- RL-NullA version of reinforcement learning directly from the base model
- RLDie beste Version des weiteren Verstärkungslernens aus dem SFT-Modell
KernkompetenzenDies spiegelt sich in zwei Hauptbereichen wider:
- mathematische Argumentation: löst Mathematikwettbewerbe wie AIME, MATH-500, etc. und unterstützt die schrittweise Argumentation bei komplexen Problemen.
- CodegenerierungHochwertige Generierung von Programmiercode in Python, C++, etc. für LiveCodeBench-Aufgaben.
Das Modell erreicht durch die Optimierung von Multiple-Token-Prediction (MTP) und Reinforcement Learning Inferenzfähigkeiten, die mit größeren Modellen vergleichbar sind.
Diese Antwort stammt aus dem ArtikelMiMo: ein kleines Open-Source-Modell für effiziente mathematische Schlussfolgerungen und CodegenerierungDie































