このモデルは、マルチモーダル理解シナリオにおいて卓越した優位性を示している。電子商取引のショッピングガイドの分野では、「商品の詳細ページで保証情報を検索する」といった複雑なコマンドを実現することができ、自動運転では、「左側の3番目の駐車スペースにナビゲートする」といった空間的なコマンドに正確に応答することができる。技術白書によると、実際の道路シナリオテストでは、このモデルの車両目標識別精度は91.2%に達した。
プロジェクトチームはドメイン適応ソリューションを提供し、開発者はdata_config/rec.yaml設定ファイルを修正することでカスタムデータにアクセスできる。代表的な応用例としては、スマートホームにおける「画面右上のランプを消す」、工業品質検査における「鋼板表面の傷に印をつける」などがある。モデルのタスク完了率は、ドメインによって微調整された後、89%以上に増加させることができます。
この答えは記事から得たものである。VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデルについて































