海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

VLM-R1を指の表現理解タスクに使用するにはどうすればよいですか？

2025-09-05

1.8 K

委任者がミッションの運営手順を理解する

VLM-R1は、特に参照表現理解（REC）タスクに優れています。以下、使い方の詳細です：

トレーニング段階

必要なデータセットのダウンロード： COCO Train2014画像データセットとRefCOCOアノテーションファイルを含みます。
トレーニングパラメータの設定：src/open-r1-multimodalディレクトリのトレーニングスクリプトを修正する。
トレーニング開始：multi-GPUトレーニングコマンドを使用します。例：torchrun -nproc_per_node=8 ...

推論段階

evalディレクトリに移動： cd src/eval
テストスクリプトを実行します: python test_rec_r1.py -model_path ...
入力の提供：画像をアップロードし、"写真に写っている青い車はどこですか？"などの自然言語による質問を入力する。

入出力例

輸入複数のオブジェクトを含む写真＋自然言語によるクエリ（例：「写真の右下にある赤いカップを探す）
輸出対象オブジェクトの境界ボックス座標または位置記述

ほら

カスタム・データの場合は、data_config/rec.yaml設定ファイルを変更して、独自の画像パスや注釈ファイルを追加することができます。

この答えは記事から得たものである。VLM-R1：自然言語による画像ターゲットの位置決定のための視覚言語モデルについて

関連記事

無断転載を禁じます：AI生産性ツール " VLM-R1を指の表現理解タスクに使用するにはどうすればよいですか？

おすすめ