Der Delegierte versteht die Arbeitsweise der Mission
Das VLM-R1 eignet sich besonders gut für die Aufgabe "Referentielles Ausdrucksverständnis" (REC). Nachfolgend finden Sie Einzelheiten zur Verwendung des Geräts:
Ausbildungsphase
- Laden Sie die erforderlichen Datensätze herunter: einschließlich des COCO Train2014 Bilddatensatzes und der RefCOCO Annotationsdatei
- Konfigurieren Sie die Trainingsparameter: Ändern Sie das Trainingsskript im Verzeichnis src/open-r1-multimodal
- Starten Sie das Training: Verwenden Sie den Multi-GPU-Trainingsbefehl, Beispiel: torchrun -nproc_per_node=8 ...
Inferenzphase
- Wechseln Sie in das eval-Verzeichnis: cd src/eval
- Führen Sie das Testskript aus: python test_rec_r1.py -model_path ...
- Eingabe: Laden Sie ein Bild hoch und geben Sie eine Frage in natürlicher Sprache ein, z. B. "Wo ist das blaue Auto auf dem Bild?"
Eingabe/Ausgabe Beispiel
- Einfuhr: ein Bild mit mehreren Objekten + eine natürlichsprachliche Abfrage (z. B. "finde die rote Tasse in der rechten unteren Ecke des Bildschirms")
- AusfuhrenBoundary Box-Koordinaten oder Positionsbeschreibung des Zielobjekts
caveat
Für benutzerdefinierte Daten können Sie die Konfigurationsdatei data_config/rec.yaml ändern, um Ihre eigenen Bildpfade und Anmerkungsdateien hinzuzufügen.
Diese Antwort stammt aus dem ArtikelVLM-R1: Ein visuelles Sprachmodell zur Lokalisierung von Bildzielen durch natürliche SpracheDie































