Microsoft
正在通过一项名为 Copilot Actions
的实验性新功能,赋予其 AI 助手一项新能力:不再仅仅是提供信息和建议,而是直接在网络上为你执行任务。这项在 Copilot Labs
中测试的功能,旨在将 Copilot
从一个聊天机器人,转变为一个可以实现浏览器自动化的“AI 代理”(AI Agent)。
用户现在可以用简单的自然语言指令,让 Copilot
完成过去需要手动点击多次才能完成的任务。例如,你可以直接告诉它“使用 OpenTable.com
帮我预订一个两人位的餐厅”或“在 1800Flowers.com
上订一束鲜花”。目前,Copilot Actions
已向美国、英国、加拿大、澳大利亚、印度和新西兰的个人 Microsoft
账户登录用户开放测试。值得注意的是,这项功能目前对免费用户设有每日 2 到 3 次的使用限制。
工作原理:云端的一个“数字劳工”
Copilot Actions
的实现方式颇具新意。它并非通过复杂的 API 集成,而是更直接地在云端虚拟机中启动一个独立的 Edge
浏览器实例。 [1, 4] Copilot
会像人类用户一样,通过分析网页的视觉元素,模拟鼠标点击、页面滚动和键盘输入等操作来完成任务。 [1]
当任务进行到需要输入个人信息(如地址、支付方式)或需要做出关键决策时,Copilot
会暂停并请求用户介入。用户可以选择提供信息,或直接接管远程浏览器完成操作。 Microsoft
强调,Copilot Actions
无法访问用户本地浏览器保存的密码或个人数据,因为它在隔离的云环境中运行。
此外,为了确保透明和可控,Copilot
在执行任务时会捕获操作页面的屏幕截图,并与对话历史一同保存。用户可以随时查看 Copilot
的“工作记录”,也可以在任何时候暂停或彻底取消任务。
真正的“代理”还是高级“宏”?
Microsoft
此举正迎合了当前科技行业最热门的“AI 代理”趋势。AI 代理被认为是继大语言模型之后,AI 领域下一个重要突破点,其核心是让 AI 具备自主理解、规划并执行复杂任务的能力。 [1, 3]
通过 Copilot Actions
,Microsoft
展示了其实现路径:将 Copilot
定位为与各类专业 AI 代理互动的统一入口。 [1] 目前提供的旅行、订餐等服务只是初步尝试。未来,用户或许可以通过 Copilot Studio
这样的低代码平台,创建处理特定业务流程的专属代理,并在 Copilot
中调用它们,覆盖从个人助理到企业级自动化流程的广泛场景。 [2, 3, 5]
安全与隐私的权衡
将网页操作权限交给 AI,不可避免地引发了关于安全的担忧。Microsoft
在免责声明中坦言,该工具仍处于早期阶段,可能受到网络攻击和其他常见的安全风险影响。
这种模式的本质,是让 AI 读取并操作网页内容,这使得它在理论上面临着与人类用户同样的安全威胁。尽管 Microsoft
内置了强大的缓解措施,并禁止其访问包含冒犯性或有害内容的网站,但用户在使用时仍需保持警惕,尤其是在涉及登录凭据和个人敏感信息的网站上。这是一种在便利性与风险之间进行的权衡。
Copilot Actions
的推出,标志着主流 AI 助手正在从“知识的提供者”向“任务的执行者”演进。虽然目前功能和适用范围有限,但这清晰地预示了一个未来:你的 AI 助手不仅能告诉你怎么做,更能直接帮你把事情做完。