Peekabooは、macOS向けに設計されたツールで、AIアシスタントに高速かつ非侵入型の画面キャプチャとビジュアル質問応答(VQA)機能を提供します。AppleのScreenCaptureKitテクノロジーを使用して効率的な画面キャプチャを可能にし、画面全体、特定のアプリ、またはウィンドウのキャプチャをサポートし、ローカルまたはクラウドベースのAIモデルと連携して画像コンテンツを分析する機能を備えています。 エムシーピー サーバーは、開発者と自動視覚処理を必要とするシナリオに適した2つの方法で使用されます。プライバシーを考慮して設計されており、ユーザーの操作を妨げることなく、ローカルのAIモデルの実行とキャプチャをサポートする。ツールはnpmパッケージまたはHomebrew経由でインストールされ、開発プロセスに簡単に統合できます。
機能一覧
- 画面全体、特定のアプリケーション、ウィンドウをサポートし、macOSの画面をすばやくキャプチャ。
- 撮影した画像をAIが解析するVQA(Visual Question and Answer)をサポート。
- ファジィマッチング機能を提供し、ターゲットウィンドウをピンポイントで特定する。
- PNG、JPG、Base64など、複数の出力形式がサポートされています。
- ウィンドウの影や境界線を自動的に除去し、画像をより鮮明にします。
- ローカルAIモデル(Ollamaなど)やクラウドモデル(GPT-4 Vision、Claudeなど)を統合する。
- 現在のウィンドウのフォーカスを妨げることなく、邪魔にならないスナップ。
- TypeScriptをサポートし、開発者統合のためのJSON APIを提供する。
- ウィンドウとアプリケーションの管理をサポートし、実行中のアプリケーションとウィンドウに関する情報を取得します。
ヘルプの使用
設置プロセス
Peekabooはユーザーのニーズに合わせて様々なインストール方法を提供しています。以下に詳しい手順をご紹介します:
方法1:Homebrew経由でのインストール(推奨)
HomebrewはmacOS用のパッケージ管理ツールで、Peekabooを素早く簡単にインストールできる。
- ターミナルを開き、PeekabooのHomebrewリポジトリを追加する:
brew tap steipete/tap
- ピーカブーをインストールする:
brew install peekaboo
- インストールを確認し、以下のコマンドを実行してバージョンを表示する:
peekaboo --version
方法2:npm経由でのインストール(MCPサーバーを含む)
MCPサーバー機能を必要とする開発者に最適です。
- Node.jsがインストールされていることを確認する(バージョン16以上を推奨)。
- ターミナルで実行:
npm install -g @steipete/peekaboo-mcp
- インストールを確認する:
peekaboo --version
アプローチ3:ソースからのビルド
カスタム機能を必要とする開発者に最適。
- GitHubリポジトリをクローンする:
git clone https://github.com/steipete/peekaboo.git cd peekaboo
- 依存関係をインストールします:
npm install
- CLIサーバーとMCPサーバーを構築する:
npm run build:all
- (オプション)CLIをシステム・パスにインストールします:
./scripts/build-cli-standalone.sh --install
方法4:バイナリファイルを直接ダウンロードする
- 最新版のバイナリをダウンロードする:
curl -L https://github.com/steipete/peekaboo/releases/latest/download/peekaboo-macos-universal.tar.gz | tar xz
- システムパスへ移動:
sudo mv peekaboo-macos-universal/peekaboo /usr/local/bin/
AIモデルの設定
Peekabooはビジュアルクイズ機能のためにローカルとクラウドベースのAIモデルの両方をサポートしています。以下はローカル オーラマ モデルを例に挙げている:
- Ollamaをインストールします:
brew install ollama ollama serve
- ビジュアルモデル(llavaやqwen2-vlなど)をダウンロードする:
ollama pull llava:latest ollama pull qwen2-vl:7b
- ピーカブーを設定する:
peekaboo config edit
設定ファイルのAIプロバイダーを
<ollama/llava:latest>
または他のモデル。
主な機能
スクリーンキャプチャ
Peekabooは複数のキャプチャモードをサポートしています:
- 全画面フルスクリーンコンテンツをキャプチャします。
peekaboo capture screen --output screen.png
- 特定用途向けアプリケーション名で捕捉(ファジーマッチング対応)。
peekaboo capture app "Visual Studio Code" --output code.png
- 特定ウィンドウウィンドウのタイトルまたはインデックスによって捕捉される。
peekaboo capture window --title "Document" --output doc.png
- 出力フォーマットPNG、JPG、Base64に対応。
peekaboo capture screen --format base64
ビジュアル・クエスチョン&アンサー(VQA)
ユーザーは撮影した画像について質問することができ、AIモデルが画像を分析して回答する。
- 画像を撮り、質問をする:
peekaboo capture screen --question "What is the main text on the screen?" --output result.json
- 出力はJSON形式で、画像とAI応答を含む。
ウィンドウ管理
実行中のアプリケーションとウィンドウを一覧表示します:
peekaboo list apps
peekaboo list windows --app "Safari"
ほら
- macOSがPeekabooに画面録画の許可を与えていることを確認してください(システム設定 > プライバシーとセキュリティ > 画面録画)。
- ローカルAIモデルには十分なハードウェアリソースが必要であり、16GB以上のRAMを使用することが推奨される。
- クラウドモデルが適切に機能するよう、ネットワーク接続は安定している。
- 詳細なドキュメントはGitHubにある:
open https://github.com/steipete/peekaboo
アプリケーションシナリオ
- 開発者のデバッグ
開発者はPeekabooを使ってアプリケーションウィンドウをキャプチャし、UI要素やエラーメッセージを分析することができます。例えば、コードエディターのウィンドウをキャプチャして、"コードに構文エラーはありますか?"と質問すると、すぐに問題を特定できます。 - 自動化されたワークフロー
Peekabooを使えば、AIアシスタントはスクリーン・コンテンツをモニターし、タスクを自動化することができる。例えば、ブラウザウィンドウをキャプチャし、データ分析のためにウェブページのテキストを抽出する。 - 教育とトレーニング
教師は、ソフトウェアのインターフェイスをキャプチャし、VQAの機能を使用して教材を作成することができます。例えば、"チャートのデータポイントは何ですか?"と質問して、レッスン内容を素早く整理することができます。 - リモート・テクニカル・サポート
テクニカルサポートスタッフは、ユーザーの画面をキャプチャし、インターフェイスの問題を分析し、ユーザーが手動でスクリーンショットを送信しなくてもガイダンスを提供することができます。
品質保証
- PeekabooはどのAIモデルをサポートしていますか?
ローカルモデル(Ollamaのllavaやqwen2-vlなど)だけでなく、クラウドモデル(GPT-4 VisionやClaudeなど)もサポートされている。 - 継続的なネットワーキングの必要性はあるのか?
ローカルモデルを使用するにはインターネット接続は不要で、クラウドモデルを使用するには安定したネットワークが必要です。 - キャプチャが業務の妨げにならないようにするには?
PeekabooはScreenCaptureKitを使用し、ウィンドウのフォーカスを変更することなくキャプチャを行い、邪魔にならない動作を保証します。 - パーミッションはどのように扱われるのか?
初めて実行するときは、システム設定で画面録画の許可を与える必要があり、そうしないと画面をキャプチャできない。