Windows-MCP是一个轻量级的开源项目,旨在通过大型语言模型(LLM)让AI代理直接控制Windows操作系统。它摒弃了传统计算机视觉技术的依赖,简化了设置流程,提供低延迟(1.5-2.3秒动作间隔)的实时交互能力。
其核心功能包括:
- 多模型支持:兼容任意LLM(如Google Gemini、OpenAI GPT),无需特定模型或API限制
- 输入模拟:提供键盘鼠标操作工具,可执行文本输入、按钮点击等任务
- 状态捕获:获取窗口/UI状态供AI分析,支持视觉模式增强识别精度
- 系统级控制:通过PowerShell执行深层操作,支持文件导航和应用管理
- 开源扩展:MIT许可证允许开发者自定义工具或集成新LLM
该项目特别适合本地运行,系统资源占用少,能自动化办公、UI测试等场景任务。
本答案来源于文章《Windows-MCP:轻量级AI控制Windows系统的开源工具》