委任者がミッションの運営手順を理解する
VLM-R1は、特に参照表現理解(REC)タスクに優れています。以下、使い方の詳細です:
トレーニング段階
- 必要なデータセットのダウンロード: COCO Train2014画像データセットとRefCOCOアノテーションファイルを含みます。
- トレーニングパラメータの設定:src/open-r1-multimodalディレクトリのトレーニングスクリプトを修正する。
- トレーニング開始:multi-GPUトレーニングコマンドを使用します。例:torchrun -nproc_per_node=8 ...
推論段階
- evalディレクトリに移動: cd src/eval
- テストスクリプトを実行します: python test_rec_r1.py -model_path ...
- 入力の提供:画像をアップロードし、"写真に写っている青い車はどこですか?"などの自然言語による質問を入力する。
入出力例
- 輸入複数のオブジェクトを含む写真+自然言語によるクエリ(例:「写真の右下にある赤いカップを探す)
- 輸出対象オブジェクトの境界ボックス座標または位置記述
ほら
カスタム・データの場合は、data_config/rec.yaml設定ファイルを変更して、独自の画像パスや注釈ファイルを追加することができます。
この答えは記事から得たものである。VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデルについて































