海外访问:www.kdjingpai.com
Ctrl + D 收藏本站

Windows-MCP是一个轻量级的开源项目,旨在让AI代理通过大型语言模型(LLM)直接控制Windows操作系统。它无需依赖传统计算机视觉技术或特定模型,简化了设置流程。用户可以通过简单的工具实现键盘、鼠标操作以及捕获窗口状态,适用于文件导航、应用控制和UI交互等任务。项目采用MIT许可证,代码公开,易于扩展,适合开发者和AI爱好者使用。它的低延迟特性(动作间隔约1.5-2.3秒)确保实时交互顺畅,系统资源占用少,适合本地运行。

 

功能列表

  • 支持任意大型语言模型(LLM),无需特定模型或传统计算机视觉技术。
  • 提供键盘和鼠标操作工具,可模拟用户输入。
  • 捕获窗口和UI状态,获取屏幕内容以供AI分析。
  • 执行PowerShell命令,实现系统级操作。
  • 支持文件导航和应用程序控制,自动化日常任务。
  • 提供低延迟实时交互,动作间隔约1.5-2.3秒。
  • 开源且轻量,代码公开,依赖少,易于安装和扩展。

 

使用帮助

安装流程

Windows-MCP的安装过程简单,适合Windows系统用户。以下是详细步骤:

  1. 克隆仓库
    打开终端或命令提示符,输入以下命令克隆项目仓库:

    git clone https://github.com/CursorTouch/Windows-MCP.git
    cd Windows-MCP
    
  2. 安装依赖
    项目依赖Python环境和少量库。确保已安装Python 3.8或以上版本。进入项目目录后,运行以下命令安装依赖:

    pip install -r requirements.txt
    
  3. 配置环境
    如果使用特定的LLM(如Google Gemini),需要配置API密钥。创建一个.env文件,添加你的API密钥,例如:

    GOOGLE_API_KEY=your_api_key_here
    

    可用load_dotenv()加载环境变量,具体参考项目文档。

  4. 运行项目
    在项目目录中运行主脚本:

    python main.py
    

    项目启动后,会初始化AI代理,等待用户输入指令。

主要功能操作

Windows-MCP的核心功能是通过AI代理控制Windows系统。以下是主要功能的详细操作流程:

1. 使用LLM控制系统

Windows-MCP支持任意LLM,用户只需在代码中指定模型。例如,使用Google Gemini模型:

from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model='gemini-2.0-flash')
agent = Agent(llm=llm, use_vision=True)

用户通过输入自然语言指令(如“打开记事本”),AI代理会解析指令并执行相应操作。操作结果会返回文本或屏幕状态。
操作步骤

  • 在终端输入指令,例如“打开文件资源管理器”。
  • AI解析后调用系统API,自动打开指定应用。
  • 检查返回结果,确认操作是否成功。

2. 键盘和鼠标操作

Windows-MCP提供工具模拟键盘输入和鼠标点击。例如,打开应用后,AI可以输入文本或点击按钮。
操作示例

  • 指令:“在记事本中输入Hello World”。
  • AI调用键盘工具,打开记事本并输入文本。
  • 用户可通过日志查看操作详情,确保准确性。
    注意:鼠标操作的延迟约为1.5-2.3秒,受系统负载影响。调整指令清晰度可提高成功率。

3. 捕获窗口和UI状态

Windows-MCP可以截取当前窗口或屏幕内容,供AI分析。例如,检查某个按钮是否出现在界面上。
操作步骤

  • 输入指令:“检查桌面是否有Chrome图标”。
  • AI捕获屏幕状态,分析图标是否存在,并返回结果。
  • 如果启用视觉模式(use_vision=True),AI会结合图像分析提供更精确反馈。

4. 执行PowerShell命令

通过Shell-Tool,用户可以运行PowerShell命令。例如,列出文件夹内容:
操作示例

  • 指令:“列出C盘根目录文件”。
  • AI执行dir C:\命令,返回文件列表。
    注意:PowerShell命令需谨慎使用,避免影响系统安全。建议在测试环境中操作。

5. 文件导航和应用控制

Windows-MCP支持文件操作和应用管理。例如,打开特定文件夹或启动程序。
操作示例

  • 指令:“打开D盘的文档文件夹”。
  • AI调用文件导航工具,打开指定路径。
  • 用户可进一步输入指令,如“新建文本文件”。

特色功能操作

低延迟实时交互

Windows-MCP的动作间隔低至1.5秒,适合快速任务。用户可连续输入指令,AI会按顺序执行。例如:

  • 指令1:“打开浏览器”。
  • 指令2:“搜索AI工具”。
    AI会依次完成操作,保持流畅体验。

开源扩展

用户可根据需要修改代码。例如,添加自定义工具或支持其他LLM。项目文档提供了扩展指南,位于CONTRIBUTING文件中。
操作步骤

  • 打开tools目录,添加自定义脚本。
  • 更新agent.py以集成新工具。
  • 测试修改,确保兼容性。

使用注意事项

  • 确保网络稳定,尤其是使用在线LLM时。
  • 检查系统权限,部分操作需管理员权限。
  • 定期查看GitHub仓库更新,获取最新功能。

 

应用场景

  1. 自动化办公
    Windows-MCP可自动打开办公软件、输入数据或整理文件。例如,批量重命名文件或自动填写Excel表格,适合行政人员或数据分析师。
  2. UI测试
    开发者可使用Windows-MCP测试应用程序界面,模拟用户点击和输入,验证功能是否正常。适合QA工程师。
  3. AI开发实验
    AI爱好者可利用Windows-MCP测试LLM在系统控制中的表现,探索AI与操作系统的交互方式。
  4. 日常任务简化
    普通用户可通过自然语言指令完成复杂操作,如批量移动文件或设置系统参数,降低操作难度。

 

QA

  1. Windows-MCP支持哪些LLM?
    它支持任意LLM,如Google Gemini、OpenAI GPT等,用户只需在代码中配置对应模型和API密钥。
  2. 需要计算机视觉技术吗?
    不需要。Windows-MCP通过系统API和可选视觉模式实现控制,简化设置流程。
  3. 如何确保操作安全?
    建议在测试环境运行,避免直接执行高风险PowerShell命令。检查代码和指令明确性。
  4. 延迟高怎么办?
    延迟通常为1.5-2.3秒。若过高,检查系统负载或LLM推理速度,优化指令表述。
0已收藏
0已赞

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

邮箱

联系我们

回顶部

zh_CN简体中文