Das Modell zeigt herausragende Vorteile in multimodalen Verstehensszenarien: Im Bereich der E-Commerce-Einkaufsführung kann es komplexe Befehle wie "Finde die Garantieinformationen auf der Produktdetailseite heraus" umsetzen; beim automatischen Fahren kann es präzise auf räumliche Befehle wie "Navigiere zum dritten Parkplatz auf der linken Seite" reagieren. Dem technischen Whitepaper zufolge erreichte das Modell in einem realen Straßenszenariotest eine Genauigkeit von 91,2% bei der Identifizierung von Fahrzeugzielen.
Das Projektteam bietet eine Lösung zur Anpassung an die Domäne an, und Entwickler können durch Änderung der Konfigurationsdatei data_config/rec.yaml auf benutzerdefinierte Daten zugreifen. Typische Anwendungsfälle sind z. B. "Schalte die Lampe in der oberen rechten Ecke des Bildschirms aus" in Smart Home und "Markiere den zerkratzten Bereich auf der Oberfläche des Stahlblechs" in der industriellen Qualitätsprüfung usw. Die Aufgabenerfüllungsrate des Modells kann nach der Feinabstimmung der Domäne auf mehr als 89% gesteigert werden. Die Aufgabenerfüllungsrate kann auf mehr als 89% gesteigert werden, nachdem das Modell durch den Bereich feinabgestimmt wurde.
Diese Antwort stammt aus dem ArtikelVLM-R1: Ein visuelles Sprachmodell zur Lokalisierung von Bildzielen durch natürliche SpracheDie































