Die technologische Kerninnovation dieses Projekts liegt in der Konstruktion eines hybriden Trainingsrahmens von R1+SFT. Die R1-Phase verwendet Verstärkungslernen durch den Gradient Rewarded Policy Optimisation (GRPO)-Algorithmus, der es dem Modell ermöglicht, die visuell-verbale Ausrichtungsfähigkeit über 8 Millionen Trainingsinteraktionen schrittweise zu meistern. Die überwachte Feinabstimmungsphase hingegen verwendet Qwen2.5-VL-3B-Instruct als Basismodell und nutzt 120.000 annotierte Daten aus dem RefCOCO-Datensatz für die Feinabstimmung der Anweisungen.
Der Trainingsprozess ist für eine zweistufige Validierung ausgelegt: In der ersten Runde wird das Policy-Netzwerk durch 72 Stunden Reinforcement Learning optimiert, in der zweiten Runde erfolgt eine 48-stündige überwachte Feinabstimmung. Tests zeigen, dass dieses hybride Paradigma es dem Modell ermöglicht, eine Genauigkeit von 78,31 TP3T auf dem RefCOCOg-Testsatz zu erreichen, was eine Verbesserung von 12,6 Prozentpunkten gegenüber reinem überwachten Lernen bedeutet. Die Projektdokumentation enthält Details zur Konfigurationsdatei deepspeed zero3.json, um Entwickler bei der Reproduktion des gesamten Trainingsprozesses zu unterstützen.
Diese Antwort stammt aus dem ArtikelVLM-R1: Ein visuelles Sprachmodell zur Lokalisierung von Bildzielen durch natürliche SpracheDie































