海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

VLM-R1は、自然言語による画像ターゲットのローカライゼーションのためのオープンソースの視覚言語モデルです。

2025-09-05

1.8 K

VLM-R1は、Om AI LabがDeepSeek R1手法に基づいて開発したマルチモーダルAIモデルで、自然言語コマンドと視覚コンテンツを正確に関連付けることを中核機能とする。このプロジェクトでは、Qwen2.5-VLモデルのアーキテクチャ上の利点を革新的に組み合わせ、強化学習（R1）と教師あり微調整（SFT）の二重最適化戦略を採用することで、Representation Expression Comprehension（REC）のタスクで優れた性能を発揮できるようにしている。代表的な例として、「赤いコップはどこにありますか」というような指示を解析し、バウンディングボックスや座標の形でターゲットオブジェクトの位置を正確に特定することが挙げられます。

技術的な実装の面では、このプロジェクトはモデルのパラメータを最適化するためにGRPO強化学習アルゴリズムを採用し、計算効率を向上させるためにbfloat16混合精度トレーニングと連携しています。オープンソースコミュニティは、モデルが優れた汎化能力を持つことを保証するために、34万枚のトレーニング画像と12万本の指の注釈を含むCOCOとRefCOCO標準データセットをサポートしています。このプロジェクトは、GitHubでのオープンソース化から3ヶ月以内に約2,000のスター付きラベルを獲得しており、この技術的ソリューションの最先端性が実証されている。

この答えは記事から得たものである。VLM-R1：自然言語による画像ターゲットの位置決定のための視覚言語モデルについて

無断転載を禁じます：AI生産性ツール " VLM-R1は、自然言語による画像ターゲットのローカライゼーションのためのオープンソースの視覚言語モデルです。

おすすめ