GLM-4.5Vは、視覚的要素(Grounding)の位置を正確に特定し、画像/映像内のターゲット物体の位置を[x1,y1,x2,y2]座標フォーマットで返す機能を備えています。この技術は、セキュリティや品質管理などの産業シーンにおいて重要な応用価値を持ち、例えば、監視画像内の異常物体の位置を特定したり、生産ライン上の不良品を特定したりすることができる。領域検出と意味理解を組み合わせることで、このモデルはターゲット位置を見つけるだけでなく、位置特定の根拠を説明するためにコンテキスト情報を関連付けることができ、出力結果は、その後の操作を実行するためにオートメーションシステムに直接接続することができます。
この答えは記事から得たものである。GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデルについて