Die bahnbrechendste Innovation des R1-V-Projekts ist sein Kosten-Nutzen-Verhältnis. Nach den Daten des Papiers ermöglicht die im Projekt verwendete spezielle Trainingsstrategie des Verstärkungslernens, dass ein 2B-Modell ein konventionelles 72B-Modell, das das Zehnfache an Rechenressourcen benötigt, übertrifft, indem es nur 2,62 $ an Trainingskosten verbraucht (8*A100 GPUs*30 Minuten).
Der Schlüssel zu diesem Durchbruch liegt in drei technischen Optimierungen: Erstens wurde ein sample-effizientes Belohnungsberechnungsmodul entwickelt, um die Nutzungsrate der Trainingsmuster um 80% zu erhöhen; zweitens wurde eine Gradientenakkumulationsstrategie eingeführt, um die GPU-Speicherbelegung effektiv um 90% zu reduzieren; und drittens wurde ein dynamischer Kurslernalgorithmus entwickelt, der es dem Modell ermöglicht, den Lernfokus in verschiedenen Trainingsphasen automatisch anzupassen. Dank dieser technologischen Innovationen ist die Informationsmenge bei jeder Parameteraktualisierung 5-8 mal größer als bei der traditionellen Methode.
Der offene Quellcode des Projekts zeigt, dass das komplette Trainingssystem 17 zentrale Optimierungskomponenten enthält und Training mit gemischter Genauigkeit sowie verteilte Berechnungen unterstützt, was es für kleine und mittlere Unternehmen einfach macht, die Ergebnisse der Studie zu reproduzieren. Vergleichsdaten zeigen, dass der Energieverbrauch der R1-V-Lösung nur 1/47 der Transformer-Basislösung beträgt, um die gleiche Aufgabengenauigkeit zu erreichen.
Diese Antwort stammt aus dem ArtikelR1-V: Kostengünstiges Verstärkungslernen für die Generalisierungsfähigkeit von visuellen SprachmodellenDie































