Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

VLM-R1 ist ein quelloffenes visuelles Sprachmodell zur Lokalisierung von Bildzielen durch natürliche Sprache

2025-09-05 1.8 K

VLM-R1 ist ein multimodales KI-Modell, das vom Om AI Lab auf der Grundlage der DeepSeek R1-Methodik entwickelt wurde und dessen Kernkompetenz darin besteht, natürlichsprachliche Befehle mit visuellen Inhalten zu verknüpfen. Das Projekt kombiniert auf innovative Weise die architektonischen Vorteile des Qwen2.5-VL-Modells und wendet die dualen Optimierungsstrategien des Reinforcement Learning (R1) und des Supervised Fine-Tuning (SFT) an, wodurch das Modell bei der Aufgabe des Representation Expression Comprehension (REC) gute Leistungen erbringen kann. Typische Beispiele sind das Parsen von Anweisungen wie "Wo ist die rote Tasse auf dem Bild?" und die genaue Lokalisierung des Zielobjekts in Form eines Begrenzungsrahmens oder von Koordinaten.

Was die technische Umsetzung betrifft, so verwendet das Projekt den GRPO-Algorithmus für verstärkendes Lernen, um die Modellparameter zu optimieren, und arbeitet mit bfloat16-Training mit gemischter Genauigkeit, um die Berechnungseffizienz zu verbessern. Die Open-Source-Gemeinschaft stellt COCO- und RefCOCO-Standarddatensätze mit 340.000 Trainingsbildern und 120.000 Fingerkommentaren zur Verfügung, um sicherzustellen, dass das Modell eine ausgezeichnete Generalisierungsfähigkeit besitzt. Das Projekt erhielt innerhalb von drei Monaten nach der Veröffentlichung auf GitHub fast 2.000 Sternchen, was die Spitzenposition seiner technischen Lösung bestätigt.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang