視覚理解技術の実装と応用
UI-TARS-desktopの視覚理解能力は、従来の自動化ツールとは異なるコアコンピタンスです。Seed-1.5-VL/1.6視覚言語モデルにより、インターフェースのセマンティクスを理解し、例えば、「保存」ボタンを識別したり、データがテーブル内にどのように配置されているかを判断することができます。テーブル内のデータ
この技術的実装は、1)アプリケーション固有のAPIやDOM構造に限定されない高い汎用性、2)UIが更新されても認識効果に影響を与えることなく、動的なインターフェイスの変更に対応可能、3)非標準のコントロール操作をサポートし、カスタム開発されたインターフェイス要素を扱える、という3つの主要な利点をもたらす。実際にこのシステムは、ファイルマネージャでのアイコンのドラッグ&ドロップ、フォトショップでのツールパラメータの調整、その他の複雑なインタラクションシナリオなど、人間の操作モードを正確にシミュレートすることができる。
この答えは記事から得たものである。UI-TARS Desktop: 自然言語でコンピュータを制御するDesktop Intelligentsiaアプリケーションについて































