Bytebotは、コンテナ化されたLinux環境で動作し、自然言語コマンドによってコンピュータタスクを自動化する、オープンソースのセルフホスト型AIデスクトップエージェントである。Bytebotは、キーボード、マウス、スクリーンを使って、ウェブブラウジング、データ処理、ファイル管理などのタスクを実行し、人間がコンピュータを操作する方法を模倣している。Bytebotは、プライバシーとカスタマイズ性を重視しており、データはユーザーのインフラから離れないようになっており、ユーザーがClaude、OpenAI、GeminiなどのAIモデルに独自のAPIキーを使用できるようになっている。このプロジェクトはGitHubでホストされており、開発者が自動化されたワークフローを構築するのに適している。このプロジェクトはGitHubでホストされており、個人でも企業でも簡単にデプロイ、拡張できる。
機能一覧
- 自然言語タスク処理来月のニューヨークからロンドンへのフライトを検索する」「ウェブフォームに記入する」など、ユーザーが自然言語でタスクを記述すると、バイトボットがそれを自動的に実行する。
- デスクトップ・オートメーションキーボード入力、マウスクリック、画面の読み取りをシミュレートし、ブラウザやオフィスソフトなどを操作します。
- Linux環境のコンテナ化UbuntuとXfce4をベースにした軽量なデスクトップ環境で、分離とセキュリティのためにDockerコンテナで動作します。
- マルチモデル対応Claude、OpenAI、Geminiといった大規模な言語モデルがサポートされており、ユーザーはニーズに合わせて選択することができる。
- リアルタイムのデスクトップ監視VNCビューアでAIエージェントの動きをリアルタイムで見ることができます。
- APIの統合マウス、キーボード、スクリーンショットを正確にコントロールするためのREST APIとMCP APIを提供します。
- カスタマイズ可能な環境ユーザーは、特定のニーズに合わせてカスタム・ソフトウェアをインストールしたり、デスクトップ環境を設定したりすることができます。
- プライバシーすべてのタスクとデータはローカルで実行され、クラウドサービスには依存しない。
ヘルプの使用
設置プロセス
Bytebotのインストールは簡単で、DockerとRailwayデプロイメントをベースにしている。詳しい手順は以下の通りです:
- コードベースのクローン
ターミナルを開き、以下のコマンドを実行してBytebotリポジトリをクローンします:git clone https://github.com/bytebot-ai/bytebot.git cd bytebot
- APIキーの設定
Bytebotは、Anthropic、OpenAI、GoogleのAPIキーをサポートしています。モデルを選択し、キーを設定します:echo "ANTHROPIC_API_KEY=your_api_key_here" > docker/.env # 用于 Claude # 或 echo "OPENAI_API_KEY=your_api_key_here" > docker/.env # 用于 OpenAI # 或 echo "GOOGLE_API_KEY=your_api_key_here" > docker/.env # 用于 Gemini
キーが有効であることを確認し、そのキーを
docker/.env
ファイルから漏れないようにする。 - デプロイメント・サービス
Docker Composeを使ってサービスを開始する:docker-compose -f docker/docker-compose.yml up -d
初回起動時のイメージのダウンロードには2~3分かかる場合がありますが、それ以降の起動は速くなります。サービスが開始されると、BytebotのUIは
http://localhost:9992
アクセス - インストールの確認
サービスログをチェックし、適切な動作を確認する:docker-compose -f docker/docker-compose.yml logs -f bytebot-agent
- 鉄道配備(オプション)
Railwayプラットフォームを使用する場合:- バイトボットの鉄道テンプレートページをご覧ください。
- APIキーを入力してください。
ANTHROPIC_API_KEY
). - Deploy Now "をクリックすると、Railwayが数分でデプロイし、公開URLを提供します。
主要機能の使用
Bytebotは、直感的なNext.jsインターフェースに、VNCビューアとタスク管理機能を組み合わせて提供します。以下は、主な機能の動作フローです:
- タスクの作成
見せるhttp://localhost:9992
タスク入力ボックスに自然言語コマンドを入力します:搜索下个月纽约到伦敦的航班
Submit(送信)をクリックすると、Bytebotがビューアを起動し、タスクを実行します。VNCビューアを通して、リアルタイムで操作を監視することができます。
- APIコントロール
開発者はREST APIを通じてタスクを正確にコントロールできる。例えば、タスクを作成するにはcurl -X POST http://localhost:9991/tasks \ -H "Content-Type: application/json" \ -d '{"description": "搜索下个月纽约到伦敦的航班", "type": "browser_task"}'
タスクのステータスを確認する:
curl http://localhost:9991/tasks/{task_id}
キーボードまたはマウスを操作する:
curl -X POST http://localhost:9990/api/computer \ -H "Content-Type: application/json" \ -d '{"action": "type_text", "text": "Hello, Bytebot!"}'
- リアルタイム・モニタリング
UIインターフェイスのVNCビューアから、Bytebotがブラウザやデスクトップアプリケーションを操作する様子をご覧ください。このビューアは、リアルタイムの画面内容を表示し、デバッグや検証作業に適しています。 - デスクトップ環境のカスタマイズ
修正docker/desktop/Dockerfile.custom
ファイルに追加ソフトウェアをインストールする。例えば、LibreOfficeやGIMPを追加する:FROM bytebot/desktop:latest RUN apt-get update && apt-get install -y libreoffice gimp COPY configs/.config /home/user/.config
イメージを再構築し、コンテナを起動する:
docker-compose -f docker/docker-compose.yml up --build
注目の機能操作
- ウェブオートメーション
バイトボット(Bytebot)はウェブタスクを専門としています。例えば、ウェブデータの抽出:import { BytebotClient, Table, Column, Text } from "@bytebot/sdk"; const bytebot = new BytebotClient({ apiKey: "YOUR_API_KEY" }); async function run() { const session = await bytebot.browser.startSession("https://www.example.com"); await bytebot.browser.act({ sessionId: session.sessionId, prompt: "点击搜索按钮" }); await bytebot.browser.endSession(session.sessionId); } run();
このコードはブラウザ・セッションを開始し、クリック・アクションを実行し、セッションを終了する。
- 文書処理
Bytebotはローカルファイルを扱うことができます。例えば、"CSVファイルからウェブフォームに入力 "というコマンドを実行すると、自動的にファイルを読み込んでフォームに入力します。CSVファイルのパスが正しいことを確認し、UIでコマンドを入力してください。 - マルチ・モデル・スイッチング
あるdocker/.env
異なるモデルに切り替えるには、APIキーを変更します。例えば、OpenAIのキーに置き換えた後、サービスを再起動する:docker-compose -f docker/docker-compose.yml restart
ほら
- 安全性デフォルトのVNCパスワードを本番環境で使用しないように変更する。
- 更新定期的にコンテナイメージを更新し、セキュリティパッチを適用する:
docker-compose -f docker/docker-compose.yml pull
アプリケーションシナリオ
- ウェブデータ抽出
Bytebot(バイトボット)は、商品価格やニュースコンテンツのクロールなど、ウェブサイトからデータを自動的に抽出し、市場調査やデータ分析に適した構造化テーブルを生成します。 - 自動フォーム入力
アカウント登録や申込書の提出など、ウェブフォームへの入力が繰り返し必要なタスクについては、バイトボットがCSVファイルからデータを読み取り、プロセスを自動化します。 - オフィスソフトの操作
Bytebotは、LibreOfficeやVSCodeを操作し、文書編集、コードデバッグ、その他のタスクを処理することができ、バッチファイル処理シナリオの必要性に適しています。 - エンタープライズ・ワークフローの自動化
Bytebot(バイトボット)を使って、SaaSツールのユーザー権限を自動的に更新したり、週次レポートを作成して社内の効率化を図ることができます。
品質保証
- バイトボットはどのようなAIモデルをサポートしていますか?
クロード、OpenAI、Geminiのサポートは、以下のユーザーに提供される。docker/.env
ファイルで対応するAPIキーを設定する。 - データ・プライバシーをどのように確保するのか?
Bytebotはローカルのコンテナで実行され、データはユーザーのインフラを離れないため、プライバシー要件が高いシナリオに適しています。 - プログラミングのスキルは必要ですか?
一般ユーザーは、プログラミングなしでUIから自然言語コマンドを入力できる。開発者は、APIを通じてより複雑な機能を実装することができます。 - 配備にかかる時間は?
最初のデプロイにかかる時間は約2〜3分で、その後の起動には数秒しかかからず、鉄道のデプロイは通常数分で完了する。