OpenAdaptは、強力な大規模マルチモーダルモデル(Large Multimodal Models: LMM)をコンピュータのグラフィカルユーザーインターフェース(Graphical User Interface: GUI)に接続し、プロセスの自動化を目的としたオープンソースのソフトウェアツールです。OpenAdaptはこの問題を解決することを目的としている。RPA(ロボティック・プロセス・オートメーション)と同様の機能を持つが、中核となるのは従来のRPAツールではなく、高度なAIモデルだ。このツールは、ユーザーがコンピューター上で実際に行っていること(スクリーンショットやタイピング動作を含む)を記録することで学習し、このデータを使って自動化されたタスクを生成する。人間の実演から学習するこの方法は、自動化タスクを実際のプロセスに近づけ、AIが誤った操作を生成する可能性を低減する。モデルにとらわれないオープンソースプロジェクトであるため、あらゆる種類のデスクトップアプリケーション、さらには仮想化環境(Citrixなど)やウェブページにも適用できる。
機能一覧
- ユーザーの行動を記録する自動化のための学習データを提供するために、スクリーンショットと関連するユーザー入力(例:マウスクリック、キーボード入力)をキャプチャする機能。
- ビジュアライゼーション開発者が理解しやすく、デバッグしやすいように、記録されたデータを集約し、視覚化するツールを提供する。
- 自動化スクリプトの生成ユーザーの行動記録をAIモデルが理解できる形式に変換し、何度も再生できる自動タスクを生成する。
- 複数の再生戦略シンプルな直接再生からGPT-4やビジュアルモデルを使用したよりスマートな再生まで、さまざまな自動実行ストラテジーをサポート。
- ブラウザの統合より正確なウェブ自動化のために、ブラウザ内のアクションイベントを記録するChrome拡張機能を提供します。
- プライバシーAWS ComprehendやMicrosoft Presidioなどのツールを使用して、個人を特定できる情報(PII)や保護された医療情報(PHI)を削除する業界最先端のプライバシー情報消去機能を内蔵しています。 [引用:1.]
- パフォーマンス・モニタリング開発者がプログラムを分析し最適化できるよう、詳細なパフォーマンス監視ツールが統合されています。
- クロスプラットフォーム対応WindowsやmacOSなど、主要なOSのインストール方法と使用方法を解説しています。
ヘルプの使用
OpenAdaptは、あなたのコンピュータの操作(マウスのクリックやキーストロークなど)をスクリーンショットとともに記録することで、AIモデルがあなたの行動を模倣して反復タスクを完了する方法を学習することを可能にする。
設置プロセス
OpenAdaptは様々なオペレーティングシステムのユーザに便利なスクリプトによるインストールを提供します。
Windowsシステム。
- プレス
Windows
キーを押し、"powershell "と入力し、Enterキーを押してPowerShellを開く。 - 以下のコマンドをコピーしてPowerShellウィンドウに貼り付け、Enterキーを押して実行する。ユーザーアカウント制御のプロンプトが表示されたら、「はい」をクリックします。
Start-Process powershell -Verb RunAs -ArgumentList '-NoExit', '-ExecutionPolicy', 'Bypass', '-Command', "iwr -UseBasicParsing -Uri 'https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/main/install/install_openadapt.ps1' | Invoke-Expression"
macOSシステム。
- まず、以下を確認してください。
Git
歌で応えるPython 3.10
. - プレス
Command+Space
キーの組み合わせで "terminal "と入力し、エンターキーを押してターミナルを開く。 - 以下のコマンドをコピーしてターミナル・ウィンドウに貼り付け、Enterキーを押して実行する:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/HEAD/install/install_openadapt.sh)"
コア機能の操作
インストールが完了したら、いくつかのコアコマンドで OpenAdapt を使うことができます。 cd OpenAdapt
コマンドをプロジェクトのルート・ディレクトリに移動して実行する。 poetry shell
仮想環境が起動する。
1.システムトレイとウェブバックエンドの起動
以下のコマンドを実行すると、OpenAdapt のシステムトレイアイコンとウェブダッシュボードが起動し、タスクを簡単に管理・閲覧することができます。
python -m openadapt.entrypoint
2.新しいミッションを記録する
利用する openadapt.record
コマンドで新しい録音を開始します。録画するタスクには、"testing out openadapt "のようなわかりやすい名前が必要です。
python -m openadapt.record "testing out openadapt"
OpenAdapt はマウスの動き、クリック、キーボード入力を記録します。操作が終わったら CTRL+C
キーの組み合わせで録音を停止します。
銘記する現在のバージョンでは、メモリーの使いすぎを避けるため、録音は短時間(例えば1分以内)にすることを推奨しています。
3.録画コンテンツの視覚化
録画が完了したら、録画内容をすぐに見ることができる。次のコマンドを実行してください:
python -m openadapt.visualize
このコマンドは自動的にHTMLファイルを生成し、ブラウザで開きます。すべてのステップとそれに対応するスクリーンショットを含む詳細なビューが表示されます。
4.自動化されたタスクの再生(実行
利用する openadapt.replay
コマンドを実行する。再生ポリシーを指定する必要がある。 NaiveReplayStrategy
.
python -m openadapt.replay NaiveReplayStrategy
さらに、OpenAdaptは以下のような、よりスマートな再生戦略を提供します。 VisualReplayStrategy
視覚モデルを使用して画面上の要素を認識します。高度なストラテジーの中には、元のタスクを修正するために新しい指示を追加できるものもある:
python -m openadapt.replay VanillaReplayStrategy --instructions "calculate 9-8"
この命令は、AIがタスクを実行する際に、新しい命令(「9-8を計算せよ」)に行動を適応させるように指示する。
ブラウザ・オートメーションの統合
グーグル・クロームで操作を記録したい場合は、ブラウザの拡張機能を追加設定する必要がある:
- クロームのアドレスバーに
chrome://extensions
そしてオープン。 - 右上にある「開発者モード」スイッチをオンにする。
- 左上にある "Load unzipped extensions "をクリックする。
- ポップアップしたファイル選択ウィンドウで、OpenAdapt プロジェクトディレクトリを
chrome_extension
フォルダー - OpenAdapt エクステンションが有効になっていることを確認してください。
- 修正
openadapt/data/config.json
ファイルを作成する。RECORD_BROWSER_EVENTS
の値に設定される。true
.
アプリケーションシナリオ
- データ入力の自動化
あるソフトウェア(例:PDF文書、電子メール)から情報をコピーし、別のソフトウェア(例:Excelスプレッドシート、データベース)に貼り付けるような繰り返し作業では、OpenAdaptを使って作業の流れを一度記録しておけば、その後の同様のデータ入力作業をすべて自動化することができます。 - ソフトウェア操作補助
複雑なソフトウェアに不慣れなユーザのために、一連の標準的な操作手順をあらかじめ誰かに録音してもらうことも可能です。ユーザーは、OpenAdaptを通してこれらの手順を再生するだけで、特定のタスクを自動化することができ、ソフトウェアを使用するハードルを下げることができます。 - ソフトウェア回帰テスト
ソフトウェア開発中、開発者は一連の標準テストケースを記録することができる。これらのテストケースは、ソフトウェアがアップデートされるたびに自動的に再生され、新しいバージョンで新たな問題が発生するかどうかをチェックできるため、テスト効率が向上する。 - 個人の日常業務の自動化
毎日定期的に行うデスクトップファイルの整理、写真の一括リネーム、ウェブサイトへの自動ログインやサインインなど、PC上の日常的な作業を自動化し、個人的な時間を節約することができる。
品質保証
- OpenAdaptとは?
OpenAdapt はオープンソースのプロセス自動化ソフトウェアである。コンピュータ上でユーザーのアクションを記録し、大規模なマルチモーダルモデル(LMM)を使ってそれらのアクションを学習・模倣することで、繰り返し作業を自動化する。 - 従来のRPAツールとの違いは?
従来のRPAツールは通常、事前に定義されたルールやスクリプトに依存してタスクを実行するため、適応性が低い。一方、OpenAdaptは「AIファースト」戦略を採用し、人間の実演を観察することで学習するため、タスクの意図をよりよく理解し、インターフェースの変更などの動的なシナリオに適応することができ、より柔軟でインテリジェントなものとなる。 - OpenAdaptを使うのにお金は必要ですか?
OpenAdaptはMITライセンスに基づくオープンソースプロジェクトであり、誰でも自由に使用、変更、配布することができます。 - 対応OSは?
OpenAdaptは現在、WindowsとmacOS用の詳細なインストールスクリプトとマニュアルセットアップガイドを提供しています。 - OpenAdaptは個人情報をどのように扱うのですか?
OpenAdaptには業界をリードする個人情報消去機能が組み込まれており、録画中に個人を特定できる情報(PII)や保護されるべき健康情報(PHI)を自動的に識別して削除し、ユーザデータの安全性を保ちます。