Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

VLM-R1 verwendet ein hybrides Trainingsparadigma, das Verstärkungslernen und traditionelle Feinabstimmung kombiniert

2025-09-05 1.8 K

Die technologische Kerninnovation dieses Projekts liegt in der Konstruktion eines hybriden Trainingsrahmens von R1+SFT. Die R1-Phase verwendet Verstärkungslernen durch den Gradient Rewarded Policy Optimisation (GRPO)-Algorithmus, der es dem Modell ermöglicht, die visuell-verbale Ausrichtungsfähigkeit über 8 Millionen Trainingsinteraktionen schrittweise zu meistern. Die überwachte Feinabstimmungsphase hingegen verwendet Qwen2.5-VL-3B-Instruct als Basismodell und nutzt 120.000 annotierte Daten aus dem RefCOCO-Datensatz für die Feinabstimmung der Anweisungen.

Der Trainingsprozess ist für eine zweistufige Validierung ausgelegt: In der ersten Runde wird das Policy-Netzwerk durch 72 Stunden Reinforcement Learning optimiert, in der zweiten Runde erfolgt eine 48-stündige überwachte Feinabstimmung. Tests zeigen, dass dieses hybride Paradigma es dem Modell ermöglicht, eine Genauigkeit von 78,31 TP3T auf dem RefCOCOg-Testsatz zu erreichen, was eine Verbesserung von 12,6 Prozentpunkten gegenüber reinem überwachten Lernen bedeutet. Die Projektdokumentation enthält Details zur Konfigurationsdatei deepspeed zero3.json, um Entwickler bei der Reproduktion des gesamten Trainingsprozesses zu unterstützen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang