Windows-MCP ist ein leichtgewichtiges Open-Source-Projekt, das es KI-Agenten ermöglichen soll, das Windows-Betriebssystem direkt über ein Large Language Model (LLM) zu steuern. Es vereinfacht den Einrichtungsprozess, indem es die Notwendigkeit beseitigt, sich auf traditionelle Computer-Vision-Techniken oder spezifische Modelle zu verlassen. Benutzer können Tastatur- und Mausoperationen durchführen und den Fensterstatus mit einfachen Tools für Aufgaben wie Dateinavigation, Anwendungssteuerung und UI-Interaktion erfassen. Das Projekt ist unter der MIT-Lizenz verfügbar und der Code ist offen und leicht erweiterbar für Entwickler und KI-Enthusiasten. Die niedrige Latenzzeit (ca. 1,5-2,3 Sekunden zwischen den Aktionen) sorgt für reibungslose Interaktionen in Echtzeit und einen geringen Verbrauch von Systemressourcen, wodurch es sich für den lokalen Betrieb eignet.
Funktionsliste
- Unterstützung für beliebige Large Language Models (LLMs), ohne dass spezielle Modelle oder traditionelle Computer-Vision-Techniken erforderlich sind.
- Zur Simulation von Benutzereingaben werden Tastatur- und Mausmanipulationswerkzeuge bereitgestellt.
- Erfassen Sie Fenster- und UI-Zustände und erhalten Sie Bildschirminhalte für die KI-Analyse.
- Ausführen von PowerShell-Befehlen für Vorgänge auf Systemebene.
- Unterstützt die Dokumentennavigation und Anwendungssteuerung zur Automatisierung der täglichen Aufgaben.
- Ermöglicht Echtzeit-Interaktionen mit geringer Latenzzeit und Aktionsintervallen von etwa 1,5-2,3 Sekunden.
- Open Source und leichtgewichtig, offener Code, wenige Abhängigkeiten, einfach zu installieren und zu erweitern.
Hilfe verwenden
Einbauverfahren
Windows-MCP hat einen einfachen Installationsprozess für Windows-Benutzer. Im Folgenden finden Sie die detaillierten Schritte:
- Klon-Lager
Öffnen Sie ein Terminal oder eine Eingabeaufforderung und geben Sie den folgenden Befehl ein, um das Projekt-Repository zu klonen:git clone https://github.com/CursorTouch/Windows-MCP.git cd Windows-MCP
- Installation von Abhängigkeiten
Das Projekt stützt sich auf die Python-Umgebung und eine Handvoll Bibliotheken. Stellen Sie sicher, dass Python 3.8 oder höher installiert ist. Sobald Sie sich im Projektverzeichnis befinden, führen Sie den folgenden Befehl aus, um die Abhängigkeiten zu installieren:pip install -r requirements.txt
- Konfiguration der Umgebung
Wenn Sie ein bestimmtes LLM (z. B. Google Gemini) verwenden, muss der API-Schlüssel konfiguriert werden. Zum Erstellen eines.env
fügen Sie z. B. Ihren API-Schlüssel hinzu:GOOGLE_API_KEY=your_api_key_here
Benutzerfreundlichkeit
load_dotenv()
Laden Sie Umgebungsvariablen, Einzelheiten finden Sie in der Projektdokumentation. - Laufende Projekte
Führen Sie das Hauptskript im Projektverzeichnis aus:python main.py
Wenn das Projekt startet, wird der KI-Agent initialisiert und wartet auf die Eingabe von Befehlen durch den Benutzer.
Hauptfunktionen
Die Hauptfunktion von Windows-MCP ist die Steuerung des Windows-Systems durch einen KI-Agenten. Nachfolgend finden Sie eine detaillierte Beschreibung der Hauptfunktionen:
1. die Verwendung des LLM-Kontrollsystems
Windows-MCP unterstützt beliebige LLMs, und der Benutzer muss nur das Modell im Code angeben. Verwenden Sie zum Beispiel das Google Gemini-Modell:
from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model='gemini-2.0-flash')
agent = Agent(llm=llm, use_vision=True)
Der Benutzer gibt einen Befehl in natürlicher Sprache ein (z. B. "Öffne Notizblock"), und der KI-Agent analysiert den Befehl und führt die entsprechende Aktion aus. Das Ergebnis des Vorgangs wird als Text oder Bildschirmstatus zurückgegeben.
Verfahren::
- Geben Sie einen Befehl in das Terminal ein, z. B. "Datei-Explorer öffnen".
- AI parst und ruft die System-API auf, um die angegebene Anwendung automatisch zu öffnen.
- Prüfen Sie das Ergebnis, um zu bestätigen, dass der Vorgang erfolgreich war.
2. die Bedienung von Tastatur und Maus
Windows-MCP bietet Werkzeuge, um Tastatureingaben und Mausklicks zu simulieren. Zum Beispiel kann die KI nach dem Öffnen einer Anwendung Text eingeben oder auf eine Schaltfläche klicken.
Beispiel für den Betrieb::
- Anweisung: "Geben Sie Hello World in Notepad ein".
- Die KI ruft das Tastaturwerkzeug auf, öffnet Notepad und gibt den Text ein.
- Die Benutzer können die Details des Vorgangs in den Protokollen einsehen, um die Genauigkeit zu gewährleisten.
zur Kenntnis nehmenMausbedienung: Die Mausbedienung hat eine Verzögerung von ca. 1,5-2,3 Sekunden, die von der Systembelastung abhängt. Eine Anpassung der Deutlichkeit der Befehle kann die Erfolgsquote verbessern.
3. die Erfassung von Fenster- und UI-Zuständen
Windows-MCP kann den aktuellen Fenster- oder Bildschirminhalt zur AI-Analyse abfangen. Zum Beispiel, um zu prüfen, ob eine bestimmte Schaltfläche auf der Benutzeroberfläche erscheint.
Verfahren::
- Geben Sie den Befehl "Desktop auf Chrome-Symbol prüfen" ein.
- AI erfasst den Bildschirmzustand, analysiert, ob das Symbol vorhanden ist oder nicht, und gibt das Ergebnis zurück.
- Wenn der visuelle Modus aktiviert ist (
use_vision=True
), wird die KI in Verbindung mit der Bildanalyse ein genaueres Feedback liefern.
4. das Ausführen von PowerShell-Befehlen
Mit dem Shell-Tool können Benutzer PowerShell-Befehle ausführen. Zum Beispiel, um den Inhalt eines Ordners aufzulisten:
Beispiel für den Betrieb::
- Befehl: "Dateien im Stammverzeichnis des Laufwerks C auflisten".
- AI-Implementierung
dir C:\
der eine Liste von Dateien zurückgibt.
zur Kenntnis nehmen: PowerShell-Befehle sollten mit Vorsicht verwendet werden, um die Systemsicherheit nicht zu gefährden. Es wird empfohlen, in einer Testumgebung zu arbeiten.
5. die Dokumentennavigation und Anwendungssteuerung
Windows-MCP unterstützt Dateimanipulation und Anwendungsverwaltung. Zum Beispiel das Öffnen von bestimmten Ordnern oder das Starten von Programmen.
Beispiel für den Betrieb::
- Befehl: "Öffnen Sie den Ordner Dokumente auf dem Laufwerk D".
- AI ruft das Tool File Navigator auf, um den angegebenen Pfad zu öffnen.
- Der Benutzer kann weitere Befehle wie "Neue Textdatei" eingeben.
Featured Function Bedienung
Echtzeit-Interaktion mit niedriger Latenzzeit
Mit einem Aktionsintervall von nur 1,5 Sekunden ist Windows-MCP für schnelle Aufgaben geeignet. Der Benutzer kann kontinuierlich Befehle eingeben, die von der KI nacheinander ausgeführt werden. Beispiel:
- Anweisung 1: "Browser öffnen".
- Anweisung 2: "Suche nach KI-Tools".
Die KI führt die Vorgänge nacheinander aus, um einen reibungslosen Ablauf zu gewährleisten.
Open-Source-Erweiterungen
Der Benutzer kann den Code nach Bedarf ändern. Die Projektdokumentation enthält einen Leitfaden für Erweiterungen, der sich im AbschnittCONTRIBUTING
Dokumentation.
Verfahren::
- zeigen (eine Eintrittskarte)
tools
Verzeichnis, um benutzerdefinierte Skripte hinzuzufügen. - Update
agent.py
neue Werkzeuge zu integrieren. - Testen Sie Änderungen, um die Kompatibilität sicherzustellen.
Vorsichtsmaßnahmen für die Verwendung
- Stellen Sie die Stabilität des Netzes sicher, insbesondere bei der Nutzung des Online-LLM.
- Überprüfen Sie die Systemberechtigungen, einige Vorgänge erfordern Administratorrechte.
- Prüfen Sie das GitHub-Repository regelmäßig auf Updates, um die neuesten Funktionen zu erhalten.
Anwendungsszenario
- automatisierte Büroarbeit
Windows-MCP kann automatisch Bürosoftware öffnen, Daten eingeben oder Dateien organisieren. Zum Beispiel das stapelweise Umbenennen von Dateien oder das automatische Ausfüllen von Excel-Tabellen, geeignet für Administratoren oder Datenanalysten. - UI-Prüfung
Entwickler können Windows-MCP verwenden, um die Anwendungsschnittstelle zu testen, Benutzerklicks und -eingaben zu simulieren und zu überprüfen, ob die Funktionalität funktioniert. Geeignet für QA-Ingenieure. - Experimente zur AI-Entwicklung
KI-Enthusiasten können Windows-MCP verwenden, um die Leistung von LLM bei der Systemsteuerung zu testen und zu erforschen, wie KI mit dem Betriebssystem interagiert. - Vereinfachung der täglichen Aufgaben
Gewöhnliche Benutzer können komplexe Vorgänge wie das Verschieben von Dateien in großen Mengen oder das Einstellen von Systemparametern mit Hilfe von Befehlen in natürlicher Sprache durchführen, um den Schwierigkeitsgrad der Bedienung zu verringern.
QA
- Welche LLMs werden von Windows-MCP unterstützt?
Es unterstützt jedes LLM, wie z.B. Google Gemini, OpenAI GPT, usw. Benutzer müssen nur das entsprechende Modell und den API-Schlüssel im Code konfigurieren. - Benötigen Sie Kenntnisse im Bereich Computer Vision?
Windows-MCP vereinfacht den Einrichtungsprozess, indem es die Steuerung über die System-API und optionale Bildverarbeitungsmodi ermöglicht. - Wie kann ich einen sicheren Betrieb gewährleisten?
Es wird empfohlen, das Programm in einer Testumgebung auszuführen, um die direkte Ausführung von risikoreichen PowerShell-Befehlen zu vermeiden. Prüfen Sie, ob Code und Befehle klar sind. - Wie sieht es mit hohen Latenzzeiten aus?
Die Latenzzeit beträgt normalerweise 1,5-2,3 Sekunden. Ist sie zu hoch, sollten Sie die Systemlast oder die LLM-Inferenzgeschwindigkeit überprüfen und die Befehlsformulierung optimieren.