Windows-MCP：轻量级AI控制Windows系统的开源工具

2025-07-06

1.9 K 8

https://github.com/CursorTouch/Windows-MCP

复制

Windows-MCP是一个轻量级的开源项目，旨在让AI代理通过大型语言模型（LLM）直接控制Windows操作系统。它无需依赖传统计算机视觉技术或特定模型，简化了设置流程。用户可以通过简单的工具实现键盘、鼠标操作以及捕获窗口状态，适用于文件导航、应用控制和UI交互等任务。项目采用MIT许可证，代码公开，易于扩展，适合开发者和AI爱好者使用。它的低延迟特性（动作间隔约1.5-2.3秒）确保实时交互顺畅，系统资源占用少，适合本地运行。

功能列表

支持任意大型语言模型（LLM），无需特定模型或传统计算机视觉技术。
提供键盘和鼠标操作工具，可模拟用户输入。
捕获窗口和UI状态，获取屏幕内容以供AI分析。
执行PowerShell命令，实现系统级操作。
支持文件导航和应用程序控制，自动化日常任务。
提供低延迟实时交互，动作间隔约1.5-2.3秒。
开源且轻量，代码公开，依赖少，易于安装和扩展。

使用帮助

安装流程

Windows-MCP的安装过程简单，适合Windows系统用户。以下是详细步骤：

克隆仓库
打开终端或命令提示符，输入以下命令克隆项目仓库：
```
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP
```
安装依赖
项目依赖Python环境和少量库。确保已安装Python 3.8或以上版本。进入项目目录后，运行以下命令安装依赖：
```
pip install -r requirements.txt
```
配置环境
如果使用特定的LLM（如Google Gemini），需要配置API密钥。创建一个.env文件，添加你的API密钥，例如：
```
GOOGLE_API_KEY=your_api_key_here
```
可用load_dotenv()加载环境变量，具体参考项目文档。
运行项目
在项目目录中运行主脚本：
```
python main.py
```
项目启动后，会初始化AI代理，等待用户输入指令。

主要功能操作

Windows-MCP的核心功能是通过AI代理控制Windows系统。以下是主要功能的详细操作流程：

1. 使用LLM控制系统

Windows-MCP支持任意LLM，用户只需在代码中指定模型。例如，使用Google Gemini模型：

from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model='gemini-2.0-flash')
agent = Agent(llm=llm, use_vision=True)

用户通过输入自然语言指令（如“打开记事本”），AI代理会解析指令并执行相应操作。操作结果会返回文本或屏幕状态。
操作步骤：

在终端输入指令，例如“打开文件资源管理器”。
AI解析后调用系统API，自动打开指定应用。
检查返回结果，确认操作是否成功。

2. 键盘和鼠标操作

Windows-MCP提供工具模拟键盘输入和鼠标点击。例如，打开应用后，AI可以输入文本或点击按钮。
操作示例：

指令：“在记事本中输入Hello World”。
AI调用键盘工具，打开记事本并输入文本。
用户可通过日志查看操作详情，确保准确性。
注意：鼠标操作的延迟约为1.5-2.3秒，受系统负载影响。调整指令清晰度可提高成功率。

3. 捕获窗口和UI状态

Windows-MCP可以截取当前窗口或屏幕内容，供AI分析。例如，检查某个按钮是否出现在界面上。
操作步骤：

输入指令：“检查桌面是否有Chrome图标”。
AI捕获屏幕状态，分析图标是否存在，并返回结果。
如果启用视觉模式（use_vision=True），AI会结合图像分析提供更精确反馈。

4. 执行PowerShell命令

通过Shell-Tool，用户可以运行PowerShell命令。例如，列出文件夹内容：
操作示例：

指令：“列出C盘根目录文件”。
AI执行dir C:\命令，返回文件列表。
注意：PowerShell命令需谨慎使用，避免影响系统安全。建议在测试环境中操作。

5. 文件导航和应用控制

Windows-MCP支持文件操作和应用管理。例如，打开特定文件夹或启动程序。
操作示例：

指令：“打开D盘的文档文件夹”。
AI调用文件导航工具，打开指定路径。
用户可进一步输入指令，如“新建文本文件”。

特色功能操作

低延迟实时交互

Windows-MCP的动作间隔低至1.5秒，适合快速任务。用户可连续输入指令，AI会按顺序执行。例如：

指令1：“打开浏览器”。
指令2：“搜索AI工具”。
AI会依次完成操作，保持流畅体验。

开源扩展

用户可根据需要修改代码。例如，添加自定义工具或支持其他LLM。项目文档提供了扩展指南，位于CONTRIBUTING文件中。
操作步骤：

打开tools目录，添加自定义脚本。
更新agent.py以集成新工具。
测试修改，确保兼容性。

使用注意事项

确保网络稳定，尤其是使用在线LLM时。
检查系统权限，部分操作需管理员权限。
定期查看GitHub仓库更新，获取最新功能。

应用场景

自动化办公
Windows-MCP可自动打开办公软件、输入数据或整理文件。例如，批量重命名文件或自动填写Excel表格，适合行政人员或数据分析师。
UI测试
开发者可使用Windows-MCP测试应用程序界面，模拟用户点击和输入，验证功能是否正常。适合QA工程师。
AI开发实验
AI爱好者可利用Windows-MCP测试LLM在系统控制中的表现，探索AI与操作系统的交互方式。
日常任务简化
普通用户可通过自然语言指令完成复杂操作，如批量移动文件或设置系统参数，降低操作难度。

QA

Windows-MCP支持哪些LLM？
它支持任意LLM，如Google Gemini、OpenAI GPT等，用户只需在代码中配置对应模型和API密钥。
需要计算机视觉技术吗？
不需要。Windows-MCP通过系统API和可选视觉模式实现控制，简化设置流程。
如何确保操作安全？
建议在测试环境运行，避免直接执行高风险PowerShell命令。检查代码和指令明确性。
延迟高怎么办？
延迟通常为1.5-2.3秒。若过高，检查系统负载或LLM推理速度，优化指令表述。

AI开源项目 MCP服务

AI生产力工具 » Windows-MCP：轻量级AI控制Windows系统的开源工具发布于 2025-07-06，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞

Windows-MCP：轻量级AI控制Windows系统的开源工具

功能列表

使用帮助

安装流程

主要功能操作

1. 使用LLM控制系统

2. 键盘和鼠标操作

3. 捕获窗口和UI状态

4. 执行PowerShell命令

5. 文件导航和应用控制

特色功能操作

低延迟实时交互

开源扩展

使用注意事项

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

Windows-MCP：轻量级AI控制Windows系统的开源工具

功能列表

使用帮助

安装流程

主要功能操作

1. 使用LLM控制系统

2. 键盘和鼠标操作

3. 捕获窗口和UI状态

4. 执行PowerShell命令

5. 文件导航和应用控制

特色功能操作

低延迟实时交互

开源扩展

使用注意事项

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具