O Peekaboo é uma ferramenta desenvolvida para o macOS para fornecer aos assistentes de IA recursos rápidos e não intrusivos de captura de tela e de resposta a perguntas visuais (VQA). Ela usa a tecnologia ScreenCaptureKit da Apple para permitir uma captura de tela eficiente, suportando a captura de toda a tela, aplicativos específicos ou janelas, e a capacidade de analisar o conteúdo da imagem em conjunto com modelos de IA locais ou baseados na nuvem. MCP O servidor é usado de duas maneiras, adequado para desenvolvedores e cenários que exigem processamento visual automatizado. Ele foi projetado com a privacidade em mente, oferecendo suporte a execuções e capturas de modelos de IA locais sem interferir nas operações do usuário. As ferramentas são instaladas por meio de pacotes npm ou Homebrew para facilitar a integração no processo de desenvolvimento.
Lista de funções
- Capture rapidamente telas do macOS com suporte para a tela inteira, aplicativos específicos ou janelas.
- Suporte a perguntas e respostas visuais (VQA) para análise de IA de imagens capturadas.
- Fornece função de correspondência difusa para identificar a janela de destino.
- Há suporte para vários formatos de saída, incluindo PNG, JPG e Base64.
- Remove automaticamente as sombras e bordas das janelas para melhorar a nitidez da imagem.
- Integrar modelos locais de IA (por exemplo, Ollama) ou modelos em nuvem (por exemplo, GPT-4 Vision, Claude).
- Encaixe não intrusivo sem perturbar o foco da janela atual.
- Oferece suporte a TypeScript e API JSON para integração com o desenvolvedor.
- Oferece suporte ao gerenciamento de janelas e aplicativos para obter informações sobre aplicativos e janelas em execução.
Usando a Ajuda
Processo de instalação
A Peekaboo oferece uma variedade de métodos de instalação para atender às diferentes necessidades dos usuários. Abaixo estão as etapas detalhadas:
Modo 1: Instalação via Homebrew (recomendado)
O Homebrew é uma ferramenta de gerenciamento de pacotes para o macOS que torna a instalação da Peekaboo rápida e fácil.
- Abra um terminal e adicione o repositório Homebrew da Peekaboo:
brew tap steipete/tap
- Instale a Peekaboo:
brew install peekaboo
- Verifique a instalação e execute o seguinte comando para visualizar a versão:
peekaboo --version
Caminho 2: Instalação via npm (inclui o servidor MCP)
Ideal para desenvolvedores que precisam da funcionalidade do servidor MCP.
- Certifique-se de que o Node.js esteja instalado (recomenda-se a versão 16 ou superior).
- É executado no terminal:
npm install -g @steipete/peekaboo-mcp
- Verifique a instalação:
peekaboo --version
Abordagem 3: Construir a partir do código-fonte
Ideal para desenvolvedores que precisam de funcionalidade personalizada.
- Clonar um repositório do GitHub:
git clone https://github.com/steipete/peekaboo.git cd peekaboo
- Instale a dependência:
npm install
- Crie os servidores CLI e MCP:
npm run build:all
- (Opcional) Instale a CLI no caminho do sistema:
./scripts/build-cli-standalone.sh --install
Maneira 4: Faça o download direto do arquivo binário
- Faça o download da versão mais recente do binário:
curl -L https://github.com/steipete/peekaboo/releases/latest/download/peekaboo-macos-universal.tar.gz | tar xz
- Vá para o caminho do sistema:
sudo mv peekaboo-macos-universal/peekaboo /usr/local/bin/
Configuração de modelos de IA
A Peekaboo oferece suporte a modelos de IA locais e baseados em nuvem para funções de questionário visual. Abaixo está uma lista de modelos locais de Ollama como exemplo:
- Instalar Ollama:
brew install ollama ollama serve
- Faça o download do modelo visual (por exemplo, llava ou qwen2-vl):
ollama pull llava:latest ollama pull qwen2-vl:7b
- Configurar a Peekaboo:
peekaboo config edit
Defina o provedor de IA no arquivo de configuração como
<ollama/llava:latest>
ou outros modelos.
Funções principais
captura de tela
O Peekaboo oferece suporte a vários modos de captura:
- tela inteiraCaptura de conteúdo em tela cheia: Captura de conteúdo em tela cheia.
peekaboo capture screen --output screen.png
- específico do aplicativoCapturado pelo nome do aplicativo (há suporte para correspondência difusa).
peekaboo capture app "Visual Studio Code" --output code.png
- janela específicaCapturado pelo título ou índice da janela.
peekaboo capture window --title "Document" --output doc.png
- formato de saídaSuporte a PNG, JPG ou Base64.
peekaboo capture screen --format base64
Perguntas e respostas visuais (VQA)
O usuário pode fazer perguntas sobre a imagem capturada e o modelo de IA analisará a imagem e responderá.
- Capture imagens e faça perguntas:
peekaboo capture screen --question "What is the main text on the screen?" --output result.json
- A saída está no formato JSON e contém imagens e respostas de IA.
gerenciamento de janelas
Lista os aplicativos e janelas em execução:
peekaboo list apps
peekaboo list windows --app "Safari"
advertência
- Certifique-se de que o macOS conceda permissões de gravação de tela à Peekaboo (Configurações do sistema > Privacidade e segurança > Gravação de tela).
- Os modelos locais de IA exigem recursos de hardware suficientes, e é recomendável usar mais de 16 GB de RAM.
- A conexão de rede é estável para garantir que o modelo de nuvem funcione corretamente.
- A documentação detalhada está disponível no GitHub:
open https://github.com/steipete/peekaboo
cenário do aplicativo
- Depuração do desenvolvedor
Os desenvolvedores podem usar o Peekaboo para capturar janelas de aplicativos e analisar elementos da interface do usuário ou mensagens de erro. Por exemplo, capturar uma janela do editor de código e perguntar "Há algum erro de sintaxe no código" identifica rapidamente o problema. - Fluxos de trabalho automatizados
Com o Peekaboo, os assistentes de IA podem monitorar o conteúdo da tela e automatizar tarefas. Por exemplo, capturar uma janela do navegador e extrair o texto da página da Web para análise de dados. - Educação e treinamento
Os professores podem capturar a interface do software e usar a funcionalidade VQA para gerar materiais didáticos. Por exemplo, pergunte "Quais são os pontos de dados no gráfico?" para organizar rapidamente o conteúdo da aula. - Suporte técnico remoto
A equipe de suporte técnico pode capturar a tela de um usuário, analisar problemas de interface e fornecer orientação sem que o usuário tenha que enviar capturas de tela manualmente.
QA
- Quais modelos de IA são compatíveis com a Peekaboo?
Há suporte para modelos locais (por exemplo, Ollama's llava e qwen2-vl), bem como para modelos de nuvem (por exemplo, GPT-4 Vision, Claude). - Há necessidade de uma rede contínua?
Não é necessário ter conexão com a Internet para usar o modelo local, mas é preciso ter uma rede estável para usar o modelo de nuvem. - Como faço para garantir que a captura não interfira nas operações?
O Peekaboo usa o ScreenCaptureKit para capturar sem alterar o foco da janela, garantindo uma operação não intrusiva. - Como as permissões são tratadas?
Na primeira vez em que for executado, será necessário conceder permissão de gravação de tela nas configurações do sistema; caso contrário, não será possível capturar a tela.