VLM-R1 ist ein multimodales KI-Modell, das vom Om AI Lab auf der Grundlage der DeepSeek R1-Methodik entwickelt wurde und dessen Kernkompetenz darin besteht, natürlichsprachliche Befehle mit visuellen Inhalten zu verknüpfen. Das Projekt kombiniert auf innovative Weise die architektonischen Vorteile des Qwen2.5-VL-Modells und wendet die dualen Optimierungsstrategien des Reinforcement Learning (R1) und des Supervised Fine-Tuning (SFT) an, wodurch das Modell bei der Aufgabe des Representation Expression Comprehension (REC) gute Leistungen erbringen kann. Typische Beispiele sind das Parsen von Anweisungen wie "Wo ist die rote Tasse auf dem Bild?" und die genaue Lokalisierung des Zielobjekts in Form eines Begrenzungsrahmens oder von Koordinaten.
Was die technische Umsetzung betrifft, so verwendet das Projekt den GRPO-Algorithmus für verstärkendes Lernen, um die Modellparameter zu optimieren, und arbeitet mit bfloat16-Training mit gemischter Genauigkeit, um die Berechnungseffizienz zu verbessern. Die Open-Source-Gemeinschaft stellt COCO- und RefCOCO-Standarddatensätze mit 340.000 Trainingsbildern und 120.000 Fingerkommentaren zur Verfügung, um sicherzustellen, dass das Modell eine ausgezeichnete Generalisierungsfähigkeit besitzt. Das Projekt erhielt innerhalb von drei Monaten nach der Veröffentlichung auf GitHub fast 2.000 Sternchen, was die Spitzenposition seiner technischen Lösung bestätigt.
Diese Antwort stammt aus dem ArtikelVLM-R1: Ein visuelles Sprachmodell zur Lokalisierung von Bildzielen durch natürliche SpracheDie































