Peekaboo ist ein Tool, das für macOS entwickelt wurde, um KI-Assistenten mit schnellen, nicht-intrusiven Screen-Capture- und visuellen Fragebeantwortungsfunktionen (VQA) auszustatten. Es nutzt die ScreenCaptureKit-Technologie von Apple, um eine effiziente Bildschirmerfassung zu ermöglichen. Es unterstützt die Erfassung des gesamten Bildschirms, bestimmter Apps oder Fenster sowie die Möglichkeit, Bildinhalte in Verbindung mit lokalen oder cloudbasierten KI-Modellen zu analysieren. MCP Der Server kann auf zwei Arten genutzt werden: für Entwickler und für Szenarien, die eine automatisierte visuelle Verarbeitung erfordern. Er wurde unter Berücksichtigung des Datenschutzes entwickelt und unterstützt lokale KI-Modellläufe und -Erfassungen, ohne die Benutzeroperationen zu beeinträchtigen. Die Tools werden über npm-Pakete oder Homebrew installiert, um eine einfache Integration in den Entwicklungsprozess zu ermöglichen.
Funktionsliste
- Schnelles Erfassen von macOS-Bildschirmen mit Unterstützung für den gesamten Bildschirm, bestimmte Anwendungen oder Fenster.
- Unterstützung für visuelle Fragen und Antworten (VQA) zur KI-Analyse von aufgenommenen Bildern.
- Bieten Sie eine Fuzzy-Matching-Funktion an, um das Zielfenster genau zu bestimmen.
- Es werden mehrere Ausgabeformate unterstützt, darunter PNG, JPG und Base64.
- Entfernt automatisch Fensterschatten und Ränder, um die Bildklarheit zu verbessern.
- Integration von lokalen KI-Modellen (z. B. Ollama) oder Cloud-Modellen (z. B. GPT-4 Vision, Claude).
- Nicht-intrusives Einrasten ohne Störung des aktuellen Fensterfokus.
- Bietet TypeScript-Unterstützung und JSON-API für die Integration von Entwicklern.
- Unterstützt die Fenster- und Anwendungsverwaltung, um Informationen über laufende Anwendungen und Fenster zu erhalten.
Hilfe verwenden
Einbauverfahren
Peekaboo bietet verschiedene Installationsmethoden an, um den unterschiedlichen Bedürfnissen der Benutzer gerecht zu werden. Nachfolgend finden Sie die detaillierten Schritte:
Weg 1: Installation über Homebrew (empfohlen)
Homebrew ist ein Paketmanagement-Tool für macOS, das die Installation von Peekaboo schnell und einfach macht.
- Öffnen Sie ein Terminal und fügen Sie das Homebrew-Repository von Peekaboo hinzu:
brew tap steipete/tap
- Peekaboo installieren:
brew install peekaboo
- Überprüfen Sie die Installation und führen Sie den folgenden Befehl aus, um die Version anzuzeigen:
peekaboo --version
Weg 2: Installation über npm (mit MCP-Server)
Ideal für Entwickler, die MCP-Serverfunktionen benötigen.
- Stellen Sie sicher, dass Node.js installiert ist (empfohlene Version 16 oder höher).
- Läuft im Terminal:
npm install -g @steipete/peekaboo-mcp
- Überprüfen Sie die Installation:
peekaboo --version
Ansatz 3: Aufbau aus dem Quellcode
Ideal für Entwickler, die benutzerdefinierte Funktionen benötigen.
- Klonen Sie ein GitHub-Repository:
git clone https://github.com/steipete/peekaboo.git cd peekaboo
- Installieren Sie die Abhängigkeit:
npm install
- Erstellen Sie die CLI- und MCP-Server:
npm run build:all
- (Optional) Installieren Sie die CLI in den Systempfad:
./scripts/build-cli-standalone.sh --install
Weg 4: Direktes Herunterladen der Binärdatei
- Laden Sie die neueste Version der Binärdatei herunter:
curl -L https://github.com/steipete/peekaboo/releases/latest/download/peekaboo-macos-universal.tar.gz | tar xz
- Wechseln Sie zum Systempfad:
sudo mv peekaboo-macos-universal/peekaboo /usr/local/bin/
AI-Modelle konfigurieren
Peekaboo unterstützt sowohl lokale als auch cloudbasierte KI-Modelle für visuelle Quizfunktionen. Im Folgenden finden Sie eine Liste der lokalen Ollama Modell als Beispiel:
- Ollama installieren:
brew install ollama ollama serve
- Laden Sie das visuelle Modell herunter (z. B. llava oder qwen2-vl):
ollama pull llava:latest ollama pull qwen2-vl:7b
- Konfigurieren Sie Peekaboo:
peekaboo config edit
Setzen Sie den AI-Anbieter in der Konfigurationsdatei auf
<ollama/llava:latest>
oder andere Modelle.
Hauptfunktionen
Bildschirmfoto
Peekaboo unterstützt mehrere Aufnahmemodi:
- gesamter BildschirmAufnahme von Vollbildinhalten.
peekaboo capture screen --output screen.png
- anwendungsspezifischErfasst nach Anwendungsname (Fuzzy Matching unterstützt).
peekaboo capture app "Visual Studio Code" --output code.png
- bestimmtes FensterErfasst durch Fenstertitel oder Index.
peekaboo capture window --title "Document" --output doc.png
- AusgabeformatUnterstützung von PNG, JPG oder Base64.
peekaboo capture screen --format base64
Visuelle Frage und Antwort (VQA)
Der Benutzer kann Fragen zu dem aufgenommenen Bild stellen, und das KI-Modell analysiert das Bild und antwortet.
- Nehmen Sie Bilder auf und stellen Sie Fragen:
peekaboo capture screen --question "What is the main text on the screen?" --output result.json
- Die Ausgabe erfolgt im JSON-Format und enthält Bilder und AI-Antworten.
Fensterverwaltung
Listet die laufenden Anwendungen und Fenster auf:
peekaboo list apps
peekaboo list windows --app "Safari"
caveat
- Stellen Sie sicher, dass macOS Peekaboo die Berechtigung zur Bildschirmaufzeichnung erteilt (Systemeinstellungen > Datenschutz & Sicherheit > Bildschirmaufzeichnung).
- Lokale KI-Modelle erfordern ausreichende Hardware-Ressourcen, und es wird empfohlen, mehr als 16 GB RAM zu verwenden.
- Die Netzverbindung ist stabil, um sicherzustellen, dass das Cloud-Modell ordnungsgemäß funktioniert.
- Eine ausführliche Dokumentation ist auf GitHub verfügbar:
open https://github.com/steipete/peekaboo
Anwendungsszenario
- Debugging für Entwickler
Entwickler können Peekaboo verwenden, um Anwendungsfenster zu erfassen und UI-Elemente oder Fehlermeldungen zu analysieren. Wenn Sie beispielsweise ein Code-Editor-Fenster aufzeichnen und fragen: "Gibt es Syntaxfehler im Code? - Automatisierte Arbeitsabläufe
Mit Peekaboo können KI-Assistenten Bildschirminhalte überwachen und Aufgaben automatisieren. Zum Beispiel das Erfassen eines Browserfensters und das Extrahieren von Webseitentext für die Datenanalyse. - Bildung und Ausbildung
Die Lehrkräfte können die Benutzeroberfläche der Software erfassen und die VQA-Funktionen nutzen, um Unterrichtsmaterialien zu erstellen. Fragen Sie zum Beispiel "Was sind die Datenpunkte im Diagramm?", um den Unterrichtsinhalt schnell zu organisieren. - Technische Fernunterstützung
Mitarbeiter des technischen Supports können den Bildschirm eines Benutzers erfassen, Schnittstellenprobleme analysieren und Anleitungen geben, ohne dass der Benutzer manuell Screenshots senden muss.
QA
- Welche AI-Modelle werden von Peekaboo unterstützt?
Es werden sowohl lokale Modelle (z. B. llava und qwen2-vl von Ollama) als auch Wolkenmodelle (z. B. GPT-4 Vision, Claude) unterstützt. - Besteht ein Bedarf an kontinuierlicher Vernetzung?
Für die Nutzung des lokalen Modells ist keine Internetverbindung erforderlich, für die Nutzung des Cloud-Modells ist ein stabiles Netzwerk erforderlich. - Wie kann ich sicherstellen, dass die Erfassung den Betrieb nicht beeinträchtigt?
Peekaboo verwendet ScreenCaptureKit, um Aufnahmen zu machen, ohne den Fokus des Fensters zu verändern, was einen nicht-intrusiven Betrieb gewährleistet. - Wie werden Berechtigungen gehandhabt?
Wenn Sie das Programm zum ersten Mal ausführen, müssen Sie in den Systemeinstellungen die Berechtigung zur Bildschirmaufzeichnung erteilen, sonst können Sie den Bildschirm nicht aufzeichnen.