Windows-MCP是一个轻量级的开源项目,旨在让AI代理通过大型语言模型(LLM)直接控制Windows操作系统。它无需依赖传统计算机视觉技术或特定模型,简化了设置流程。用户可以通过简单的工具实现键盘、鼠标操作以及捕获窗口状态,适用于文件导航、应用控制和UI交互等任务。项目采用MIT许可证,代码公开,易于扩展,适合开发者和AI爱好者使用。它的低延迟特性(动作间隔约1.5-2.3秒)确保实时交互顺畅,系统资源占用少,适合本地运行。
功能列表
- 支持任意大型语言模型(LLM),无需特定模型或传统计算机视觉技术。
- 提供键盘和鼠标操作工具,可模拟用户输入。
- 捕获窗口和UI状态,获取屏幕内容以供AI分析。
- 执行PowerShell命令,实现系统级操作。
- 支持文件导航和应用程序控制,自动化日常任务。
- 提供低延迟实时交互,动作间隔约1.5-2.3秒。
- 开源且轻量,代码公开,依赖少,易于安装和扩展。
使用帮助
安装流程
Windows-MCP的安装过程简单,适合Windows系统用户。以下是详细步骤:
- 克隆仓库
打开终端或命令提示符,输入以下命令克隆项目仓库:git clone https://github.com/CursorTouch/Windows-MCP.git cd Windows-MCP
- 安装依赖
项目依赖Python环境和少量库。确保已安装Python 3.8或以上版本。进入项目目录后,运行以下命令安装依赖:pip install -r requirements.txt
- 配置环境
如果使用特定的LLM(如Google Gemini),需要配置API密钥。创建一个.env
文件,添加你的API密钥,例如:GOOGLE_API_KEY=your_api_key_here
可用
load_dotenv()
加载环境变量,具体参考项目文档。 - 运行项目
在项目目录中运行主脚本:python main.py
项目启动后,会初始化AI代理,等待用户输入指令。
主要功能操作
Windows-MCP的核心功能是通过AI代理控制Windows系统。以下是主要功能的详细操作流程:
1. 使用LLM控制系统
Windows-MCP支持任意LLM,用户只需在代码中指定模型。例如,使用Google Gemini模型:
from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model='gemini-2.0-flash')
agent = Agent(llm=llm, use_vision=True)
用户通过输入自然语言指令(如“打开记事本”),AI代理会解析指令并执行相应操作。操作结果会返回文本或屏幕状态。
操作步骤:
- 在终端输入指令,例如“打开文件资源管理器”。
- AI解析后调用系统API,自动打开指定应用。
- 检查返回结果,确认操作是否成功。
2. 键盘和鼠标操作
Windows-MCP提供工具模拟键盘输入和鼠标点击。例如,打开应用后,AI可以输入文本或点击按钮。
操作示例:
- 指令:“在记事本中输入Hello World”。
- AI调用键盘工具,打开记事本并输入文本。
- 用户可通过日志查看操作详情,确保准确性。
注意:鼠标操作的延迟约为1.5-2.3秒,受系统负载影响。调整指令清晰度可提高成功率。
3. 捕获窗口和UI状态
Windows-MCP可以截取当前窗口或屏幕内容,供AI分析。例如,检查某个按钮是否出现在界面上。
操作步骤:
- 输入指令:“检查桌面是否有Chrome图标”。
- AI捕获屏幕状态,分析图标是否存在,并返回结果。
- 如果启用视觉模式(
use_vision=True
),AI会结合图像分析提供更精确反馈。
4. 执行PowerShell命令
通过Shell-Tool,用户可以运行PowerShell命令。例如,列出文件夹内容:
操作示例:
- 指令:“列出C盘根目录文件”。
- AI执行
dir C:\
命令,返回文件列表。
注意:PowerShell命令需谨慎使用,避免影响系统安全。建议在测试环境中操作。
5. 文件导航和应用控制
Windows-MCP支持文件操作和应用管理。例如,打开特定文件夹或启动程序。
操作示例:
- 指令:“打开D盘的文档文件夹”。
- AI调用文件导航工具,打开指定路径。
- 用户可进一步输入指令,如“新建文本文件”。
特色功能操作
低延迟实时交互
Windows-MCP的动作间隔低至1.5秒,适合快速任务。用户可连续输入指令,AI会按顺序执行。例如:
- 指令1:“打开浏览器”。
- 指令2:“搜索AI工具”。
AI会依次完成操作,保持流畅体验。
开源扩展
用户可根据需要修改代码。例如,添加自定义工具或支持其他LLM。项目文档提供了扩展指南,位于CONTRIBUTING
文件中。
操作步骤:
- 打开
tools
目录,添加自定义脚本。 - 更新
agent.py
以集成新工具。 - 测试修改,确保兼容性。
使用注意事项
- 确保网络稳定,尤其是使用在线LLM时。
- 检查系统权限,部分操作需管理员权限。
- 定期查看GitHub仓库更新,获取最新功能。
应用场景
- 自动化办公
Windows-MCP可自动打开办公软件、输入数据或整理文件。例如,批量重命名文件或自动填写Excel表格,适合行政人员或数据分析师。 - UI测试
开发者可使用Windows-MCP测试应用程序界面,模拟用户点击和输入,验证功能是否正常。适合QA工程师。 - AI开发实验
AI爱好者可利用Windows-MCP测试LLM在系统控制中的表现,探索AI与操作系统的交互方式。 - 日常任务简化
普通用户可通过自然语言指令完成复杂操作,如批量移动文件或设置系统参数,降低操作难度。
QA
- Windows-MCP支持哪些LLM?
它支持任意LLM,如Google Gemini、OpenAI GPT等,用户只需在代码中配置对应模型和API密钥。 - 需要计算机视觉技术吗?
不需要。Windows-MCP通过系统API和可选视觉模式实现控制,简化设置流程。 - 如何确保操作安全?
建议在测试环境运行,避免直接执行高风险PowerShell命令。检查代码和指令明确性。 - 延迟高怎么办?
延迟通常为1.5-2.3秒。若过高,检查系统负载或LLM推理速度,优化指令表述。