O Windows-MCP é um projeto leve e de código aberto desenvolvido para permitir que agentes de IA controlem diretamente o sistema operacional Windows por meio de um modelo de linguagem grande (LLM). Ele simplifica o processo de configuração, eliminando a necessidade de depender de técnicas tradicionais de visão computacional ou de modelos específicos. Os usuários podem realizar operações de teclado e mouse e capturar o estado da janela por meio de ferramentas simples para tarefas como navegação em arquivos, controle de aplicativos e interação com a interface do usuário. O projeto está disponível sob a licença MIT e o código é aberto e facilmente extensível para desenvolvedores e entusiastas de IA. Seu recurso de baixa latência (cerca de 1,5 a 2,3 segundos entre as ações) garante interações suaves em tempo real e baixo uso de recursos do sistema, tornando-o adequado para operação local.
Lista de funções
- Suporte a LLMs (Large Language Models) arbitrários sem a necessidade de modelos específicos ou técnicas tradicionais de visão computacional.
- As ferramentas de manipulação do teclado e do mouse são fornecidas para simular a entrada do usuário.
- Capture os estados da janela e da interface do usuário e obtenha o conteúdo da tela para análise de IA.
- Executar comandos do PowerShell para operações em nível de sistema.
- Oferece suporte à navegação de documentos e ao controle de aplicativos para automatizar as tarefas diárias.
- Oferece interações em tempo real de baixa latência com intervalos de ação de cerca de 1,5 a 2,3 segundos.
- Código aberto e leve, código aberto, poucas dependências, fácil de instalar e estender.
Usando a Ajuda
Processo de instalação
O Windows-MCP tem um processo de instalação simples para usuários do Windows. Veja a seguir as etapas detalhadas:
- armazém de clones
Abra um terminal ou prompt de comando e digite o seguinte comando para clonar o repositório do projeto:git clone https://github.com/CursorTouch/Windows-MCP.git cd Windows-MCP
- Instalação de dependências
O projeto depende do ambiente Python e de algumas bibliotecas. Certifique-se de que o Python 3.8 ou superior esteja instalado. Uma vez no diretório do projeto, execute o seguinte comando para instalar as dependências:pip install -r requirements.txt
- Ambiente de configuração
Se estiver usando um LLM específico (por exemplo, Google Gemini), a chave da API precisará ser configurada. Para criar uma.env
adicione sua chave de API, por exemplo:GOOGLE_API_KEY=your_api_key_here
usabilidade
load_dotenv()
Carregar variáveis de ambiente, consulte a documentação do projeto para obter detalhes. - Projetos em andamento
Execute o script principal no diretório do projeto:python main.py
Quando o projeto é iniciado, ele inicializa o agente de IA e aguarda que o usuário insira comandos.
Funções principais
A função principal do Windows-MCP é controlar o sistema Windows por meio de um agente de IA. Veja a seguir o procedimento de operação detalhado das principais funções:
1. uso do sistema de controle do LLM
O Windows-MCP oferece suporte a LLMs arbitrários, e o usuário só precisa especificar o modelo no código. Por exemplo, use o modelo Google Gemini:
from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model='gemini-2.0-flash')
agent = Agent(llm=llm, use_vision=True)
O usuário insere um comando de linguagem natural (por exemplo, "abrir bloco de notas"), e o agente de IA analisa o comando e executa a ação correspondente. O resultado da operação retornará o texto ou o status da tela.
procedimento::
- Digite um comando no terminal, como "Open File Explorer".
- O AI analisa e chama a API do sistema para abrir automaticamente o aplicativo especificado.
- Verifique o resultado de retorno para confirmar que a operação foi bem-sucedida.
2. operação do teclado e do mouse
O Windows-MCP fornece ferramentas para simular a entrada do teclado e os cliques do mouse. Por exemplo, depois de abrir um aplicativo, a IA pode inserir texto ou clicar em um botão.
Exemplo de operação::
- Instrução: "Digite Hello World no Bloco de Notas".
- A IA invoca a ferramenta de teclado, abre o Bloco de Notas e digita o texto.
- Os usuários podem visualizar os detalhes da operação por meio de registros para garantir a precisão.
tomar nota deA operação do mouse tem um atraso de cerca de 1,5 a 2,3 segundos, que é afetado pela carga do sistema. O ajuste da clareza dos comandos pode melhorar a taxa de sucesso.
3. captura de estados da janela e da interface do usuário
O Windows-MCP pode interceptar a janela atual ou o conteúdo da tela para análise de IA. Por exemplo, para verificar se um determinado botão aparece na interface.
procedimento::
- Digite o comando "Check desktop for Chrome icon".
- AI captura o estado da tela, analisa se o ícone está presente ou não e retorna o resultado.
- Se o modo visual estiver ativado (
use_vision=True
), a IA fornecerá feedback mais preciso em conjunto com a análise de imagens.
4. execução de comandos do PowerShell
A Shell-Tool permite que os usuários executem comandos do PowerShell. Por exemplo, para listar o conteúdo de uma pasta:
Exemplo de operação::
- Comando: "List files in the root directory of the C drive" (Listar arquivos no diretório raiz da unidade C).
- Implementação de IA
dir C:\
que retorna uma lista de arquivos.
tomar nota deComandos do PowerShell: os comandos do PowerShell devem ser usados com cautela para não comprometer a segurança do sistema. Recomenda-se operar em um ambiente de teste.
5. navegação de documentos e controle de aplicativos
O Windows-MCP oferece suporte à manipulação de arquivos e ao gerenciamento de aplicativos. Por exemplo, abrir pastas específicas ou iniciar programas.
Exemplo de operação::
- Comando: "Open the Documents folder on the D drive" (Abra a pasta Documentos na unidade D).
- O AI invoca a ferramenta File Navigator para abrir o caminho especificado.
- O usuário pode inserir outros comandos, como "New Text File" (Novo arquivo de texto).
Operação da função em destaque
Interação em tempo real de baixa latência
Com um intervalo de ação tão baixo quanto 1,5 segundo, o Windows-MCP é adequado para tarefas rápidas. Os usuários podem inserir comandos continuamente e a IA os executará em sequência. Exemplo:
- Instrução 1: "Abrir o navegador".
- Instrução 2: "Search for AI tools" (Pesquisar ferramentas de IA).
A IA concluirá as operações sequencialmente para manter uma experiência tranquila.
Extensões de código aberto
O usuário pode modificar o código conforme necessário. Por exemplo, para adicionar ferramentas personalizadas ou para oferecer suporte a outros LLMs. A documentação do projeto fornece um guia de extensão, localizado na seçãoCONTRIBUTING
Documentação.
procedimento::
- show (um ingresso)
tools
para adicionar scripts personalizados. - atualização
agent.py
para integrar novas ferramentas. - Teste as modificações para garantir a compatibilidade.
Precauções de uso
- Assegure a estabilidade da rede, especialmente quando estiver usando o LLM on-line.
- Verifique os privilégios do sistema, pois algumas operações exigem privilégios de administrador.
- Verifique regularmente se há atualizações no repositório do GitHub para obter os recursos mais recentes.
cenário do aplicativo
- trabalho de escritório automatizado
O Windows-MCP pode abrir automaticamente o software de escritório, inserir dados ou organizar arquivos. Por exemplo, renomeação de arquivos em lote ou preenchimento automático de planilhas do Excel, adequado para administradores ou analistas de dados. - Teste de interface do usuário
Os desenvolvedores podem usar o Windows-MCP para testar a interface do aplicativo, simular cliques e entradas do usuário e verificar se a funcionalidade funciona. Adequado para engenheiros de controle de qualidade. - Experimentos de desenvolvimento de IA
Os entusiastas da IA podem usar o Windows-MCP para testar o desempenho do LLM no controle do sistema e explorar como a IA interage com o sistema operacional. - Simplificação das tarefas diárias
Os usuários comuns podem usar comandos de linguagem natural para concluir operações complexas, como mover arquivos em massa ou definir parâmetros do sistema, para reduzir a dificuldade de operação.
QA
- Quais LLMs são compatíveis com o Windows-MCP?
Ele é compatível com qualquer LLM, como Google Gemini, OpenAI GPT, etc. Os usuários só precisam configurar o modelo correspondente e a chave de API no código. - Precisa de habilidades de visão computacional?
Não é necessário.O Windows-MCP simplifica o processo de configuração, permitindo o controle por meio da API do sistema e dos modos de visão opcionais. - Como posso garantir uma operação segura?
Recomenda-se a execução em um ambiente de teste para evitar a execução direta de comandos do PowerShell de alto risco. Verifique a clareza do código e do comando. - E quanto à alta latência?
A latência é normalmente de 1,5 a 2,3 segundos. Se for muito alta, verifique a carga do sistema ou a velocidade de inferência do LLM e otimize a formulação da instrução.