海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

VLM-R1を指の表現理解タスクに使用するにはどうすればよいですか?

2025-09-05 1.8 K

委任者がミッションの運営手順を理解する

VLM-R1は、特に参照表現理解(REC)タスクに優れています。以下、使い方の詳細です:

トレーニング段階

  1. 必要なデータセットのダウンロード: COCO Train2014画像データセットとRefCOCOアノテーションファイルを含みます。
  2. トレーニングパラメータの設定:src/open-r1-multimodalディレクトリのトレーニングスクリプトを修正する。
  3. トレーニング開始:multi-GPUトレーニングコマンドを使用します。例:torchrun -nproc_per_node=8 ...

推論段階

  1. evalディレクトリに移動: cd src/eval
  2. テストスクリプトを実行します: python test_rec_r1.py -model_path ...
  3. 入力の提供:画像をアップロードし、"写真に写っている青い車はどこですか?"などの自然言語による質問を入力する。

入出力例

  • 輸入複数のオブジェクトを含む写真+自然言語によるクエリ(例:「写真の右下にある赤いカップを探す)
  • 輸出対象オブジェクトの境界ボックス座標または位置記述

ほら

カスタム・データの場合は、data_config/rec.yaml設定ファイルを変更して、独自の画像パスや注釈ファイルを追加することができます。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る