Die Version OLMoE-1B-7B-0125-Instruct kombiniert die beiden technischen Vorteile der hybriden Trainings- und Tülu3-Optimierungsverfahren von Dolmino. Ersteres passt die Datenabtaststrategie während des Trainings dynamisch an, während letzteres die Aufgabengeneralisierung durch Feinabstimmung der Instruktionen verbessert. Diese kombinierte Innovation hat zu einer Verbesserung der Gesamtleistung des Modells in der AI2-Standard-Evaluierungssuite um 35% geführt. Dies wird durch die Tatsache belegt, dass es das Benchmark-Modell seines Vorgängers im AlpacaEval 2-Längenkontrolltest übertrifft und dass die Leistung der 7B-Parameter-Spezifikation bei spezialisierten Aufgaben, wie der Codegenerierung, bereits an das Niveau der besten Cloud-Modelle der vergangenen Jahre heranreicht.
Dabei geht der Leistungssprung nicht auf Kosten der Gerätekompatibilität. Das Modell verwendet eine Mixture-of-Experts-Architektur, die eine dynamische Zuweisung von Rechenressourcen durch Aktivierung von Teilnetzmodulen ermöglicht. Zusammen mit der 4-Bit-Quantisierung wird das endgültige Einsatzpaket unter 3 GB gehalten und behält dennoch eine Generierungsrate von 40+ Token pro Sekunde auf mobilen Chips (A17 Pro/M-Serie) bei. Entwickler können entweder die Basisversion oder die von HuggingFace bereitgestellte Konstruktversion wählen, wobei sich erstere für allgemeine Szenarien eignet und letztere für Dialogaufgaben erweitert wurde.
Diese Antwort stammt aus dem ArtikelAi2 OLMoE: eine quelloffene iOS-KI-App, die auf OLMoE-Modellen basiert und offline läuftDie































