Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie verwende ich das VLM-R1 für Aufgaben zum Verstehen von Fingerdarstellungen?

2025-09-05 1.8 K

Der Delegierte versteht die Arbeitsweise der Mission

Das VLM-R1 eignet sich besonders gut für die Aufgabe "Referentielles Ausdrucksverständnis" (REC). Nachfolgend finden Sie Einzelheiten zur Verwendung des Geräts:

Ausbildungsphase

  1. Laden Sie die erforderlichen Datensätze herunter: einschließlich des COCO Train2014 Bilddatensatzes und der RefCOCO Annotationsdatei
  2. Konfigurieren Sie die Trainingsparameter: Ändern Sie das Trainingsskript im Verzeichnis src/open-r1-multimodal
  3. Starten Sie das Training: Verwenden Sie den Multi-GPU-Trainingsbefehl, Beispiel: torchrun -nproc_per_node=8 ...

Inferenzphase

  1. Wechseln Sie in das eval-Verzeichnis: cd src/eval
  2. Führen Sie das Testskript aus: python test_rec_r1.py -model_path ...
  3. Eingabe: Laden Sie ein Bild hoch und geben Sie eine Frage in natürlicher Sprache ein, z. B. "Wo ist das blaue Auto auf dem Bild?"

Eingabe/Ausgabe Beispiel

  • Einfuhr: ein Bild mit mehreren Objekten + eine natürlichsprachliche Abfrage (z. B. "finde die rote Tasse in der rechten unteren Ecke des Bildschirms")
  • AusfuhrenBoundary Box-Koordinaten oder Positionsbeschreibung des Zielobjekts

caveat

Für benutzerdefinierte Daten können Sie die Konfigurationsdatei data_config/rec.yaml ändern, um Ihre eigenen Bildpfade und Anmerkungsdateien hinzuzufügen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang