UI-TARS-desktopは、Bytedance社によってオープンソース化されたデスクトップアプリケーションで、本質的にはマルチモーダルAIインテリジェンスである。 このツールにより、ユーザーは簡単な自然言語コマンドを入力することで、ローカルまたはリモートのコンピュータを操作することができる。 UI-TARSとSeed-1.5-VL/1.6シリーズの視覚言語モデルが背後にあり、画面上の内容を理解し、それに応じてアクションを実行することができる。 UI-TARS-desktopの核となる機能は、スクリーンショットを認識することでユーザーインターフェース(GUI)を理解し、タスクを完了するための正確なマウスとキーボードの動きをシミュレートする能力にあり、WindowsやMacOSなどの幅広いオペレーティングシステムをサポートしています。 このツールは、通常のデスクトップ・アプリケーションを操作するだけでなく、ブラウザを制御し、アプリケーション間の複雑なワークフローを自動化する。 完全にローカルで情報を処理するツールであるため、ユーザーデータのプライバシーとセキュリティも保証される。

機能一覧
- 自然言語制御コードを書くことなく、日常会話のコマンドを使ってコンピュータを操作する。
- 視覚認識と理解アプリケーションは、画面上のインターフェイス要素を「見て」理解し、正確な操作を可能にします。
- 精密なカーソルとキーボードコントロールマウスのクリック、ドラッグ、スクロール、キーボード入力など、人間の操作をシミュレートすることができます。
- クロスプラットフォーム対応WindowsおよびMacOSオペレーティングシステムでの動作に対応。
- 遠隔操作機能自分のマシンをコントロールできるだけでなく、他のコンピュータやブラウザのリモートコントロールにも対応できます。
- リアルタイム・フィードバックタスクを実行すると、現在の状態や操作プロセスがリアルタイムで表示されます。
- ローカリゼーションすべての識別と操作はローカルで行われるため、ユーザーデータのプライバシーとセキュリティが保証されます。
ヘルプの使用
UI-TARS-desktopは、ユーザーが最も直感的な自然言語コマンドでコンピュータ操作を実行できるように設計された、すぐに使えるAIインテリジェンスです。このツールのインストールと使用方法については、以下で詳しく説明します。
設置プロセス
このプロジェクトはGitHubで直接ダウンロード可能なインストーラーとして提供されており、ユーザーはオペレーティング・システムに応じて選択することができる。
- プロジェクトリリースページへ::
UI-TARS-desktopのGitHubリポジトリにアクセスし、右側のナビゲーションバーにある「リリース」セクションを見つけます。 - 対応するインストールパッケージをダウンロードする::
お使いのオペレーティングシステム(WindowsまたはmacOS)に応じて、最新バージョンのインストールファイルをダウンロードしてください。例えば、Windowsの場合.exeもしかしたら.msimacOS用ダウンロードファイル.dmgドキュメンテーション - インストールの実行::
- Windowsユーザーダウンロードしたインストーラーをダブルクリックし、標準のインストールウィザードの指示に従ってインストールを完了します。
- macOSユーザーダブルクリックで開く
.dmgファイルを開き、アプリケーションアイコンを「アプリケーション」フォルダにドラッグします。
コア機能操作ガイド
インストール後、UI-TARS-desktopを起動すると、シンプルなインターフェースが表示されます。コアロジックは非常にシンプルで、3つのステップにまとめることができます:指示を与える→モデルが理解し計画を立てる→自動実行.
1.現地オペレーター(LOCAL OPERATOR)
これは最も基本的で核となる機能で、AIインテリジェンスが現在使用しているコンピューターを直接操作できるようにするものだ。
ワークフロー:
- アプリケーションを起動するUI-TARS-desktop アプリケーションを開きます。
- 動作モードの確認メイン画面で "ローカル操作 "モードであることを選択または確認します。
- 入力テキスト入力ボックスに、達成したいタスクを自然言語で明確に記述してください。より具体的な指示であればあるほど、より良い実行が可能になります。
- 例1 (VSコードの設定): "VS Codeで自動保存機能をオンにして、自動保存の遅延を500ミリ秒に設定するのを手伝ってください。"
- 例2 (GitHubの操作): "GitHubのUI-TARS-Desktopプロジェクトの最新の未解決問題のチェックを手伝ってください。"
- 始めるEnter キーを押すか、"実行 "ボタンをクリックしてください。
- 実施プロセスの観察この時点で、マウスポインターが動き始め、クリックし、自動的にテキストを入力するのが見えるはずです。アプリケーション・インターフェースは、現在実行中のステップをリアルタイムでフィードバックします。
- ミッション達成スマートボディはすべてのステップを完了すると動作を停止し、次のコマンドを待ちます。
2.リモートコンピューター/ブラウザーの操作(リモートオペレーター)
これはUI-TARS-desktopの優れた機能で、1台のパソコンからUI-TARS-desktopを通して別のデバイスを操作することができ、すべてのプロセスに複雑な設定は必要ありません。
ワークフロー:
- スイッチング・モードアプリケーションのメインインターフェースで、"リモートPC操作 "または "リモートブラウザ操作 "モードに切り替えます。
- リモートデバイスの接続アプリは、ターゲットデバイスのIPアドレスを入力するか、特定のペアリングコードで接続するよう求めることがあります(具体的な接続方法については、アプリ内のプロンプトを参照してください)。
- 指示を出す接続に成功した後の操作は、ローカルモードとまったく同じです。入力ボックスにコマンドを入力してください。
- 例(リモートブラウザ)"リモートブラウザでbooking.comを開き、9月1日から9月6日まで、ロサンゼルス国際空港近くで最も評価の高いリッツカールトンホテルを検索するのを手伝ってください。"
- リモート実行の監視リモートデバイスの画面をローカル画面でライブ表示し、スマートボディの操作の全ステップを見ることができます。
ヒントとベストプラクティス
- 指示は明確で曖昧であってはならないあいまいな表現は避ける。例えば、「そのファイルを開く」ではなく、「デスクトップにある`ProjectReport.docx'というファイルを開く」と言いましょう。
- 複雑なタスクを分解する非常に複雑な複数ステップのタスクの場合は、それをいくつかの単純なサブタスクに分割し、ステップバイステップの指示を与えてみる。こうすることで、実行の成功率を高めることができる。
- 文脈依存情報タスクが特定のアプリケーションを含む場合は、まずそのアプリケーションが開いていて、フォアグラウンドになっていることを確認するのがよいでしょう。あるいは、例えば "Excelを開き、新しい空白のワークブックを作成する "というように、アプリケーションを開く手順を指示に含める。
以上の手順で、UI-TARS-desktopを簡単に活用し、日常的で反復的なデスクトップタスクのために、AIインテリジェンスをパーソナルコンピュータアシスタントとして使用することができます。
アプリケーションシナリオ
- オフィスオートメーション
ユーザーは、自然言語コマンドを使用することで、AIインテリジェンスがオフィス・ソフトウェア(ワードやエクセルなど)の繰り返し操作(文書の書式設定、フォームへの入力、データの整理など)を自動化し、手作業を減らすことができる。 - ソフトウェアのテストとデモンストレーション
開発者やテスト担当者は、GUI上で一連のテストケースを実行し、ソフトウェアが正しく機能するかどうかをチェックするよう、AIインテリジェンスに指示することができる。また、製品の機能をビデオで録画し、すべての操作ステップを自動化することもできる。 - 情報収集と照合
複数のウェブページやアプリケーションから情報を収集する必要がある場合、UI-TARS-desktopは自動的に関連ページを開き、必要なコンテンツをコピーし、指定されたドキュメントに貼り付けてサマリーレポートを作成するよう指示することができる。 - リモート・テクニカル・サポート
テクニカル・サポート担当者は、リモート・オペレーション機能により、ユーザーの許可の下、もう一方のコンピュータで直接修理手順を実行することができ、音声やテキストによる指示だけでは効率が悪いという問題を解決することができる。
品質保証
- UI-TARS-desktopはどのオペレーティングシステムをサポートしていますか?
現在、WindowsとmacOSのデスクトップOSがサポートされています。 - このツールを使うのにプログラミングの知識は必要ですか?
そんなことはない。その設計コンセプトの中核は自然言語によるインタラクションであり、プログラミングの知識がないユーザーでも簡単にコンピューター操作を自動化することができる。 - 私のデータは安全ですか?
このツールは、ローカルコンピュータの操作を実行し、すべてのスクリーンショットの認識とモデル処理はローカルで実行され、クラウドにあなたの画面データをアップロードしないので、効果的に個人のプライバシーとデータのセキュリティを保護することができます。 - Seleniumのような他の自動化ツールとの違いは?
一方、UI-TARS-desktopは視覚的理解に基づき、人間のように画面を「見て」操作することができ、ブラウザとあらゆるデスクトップソフトをコントロールすることができます。一方、UI-TARS-desktopは、視覚的理解に基づき、人間のように画面を「見る」ことができ、ブラウザとあらゆるデスクトップソフトを操作することができ、自然言語によって駆動され、コードを必要としない。





























