AppAgent
智能体/动作
AppAgent

智能手机用户的多模态代理

腾讯推出的 AppAgent,是一个多模态智能体,通过识别当前手机的界面和用户指令直接操作手机界面,能像真实用户一样操作手机!比如它可以操作图片编辑软件编辑图片、打开地图应用导航,购物等等操作

项目首页:https://appagent-official.github.io
论文链接:https://arxiv.org/abs/2312.13771

像真实智能手机用户一样操作手机的多模态智能体

论文摘要:

随着大语言模型(LLMs)的最新进展,人们创造出了能执行复杂任务的智能智能体。本文介绍了一个全新的、基于大语言模型的多模态智能体框架,专为操作智能手机应用而设计。我们的框架让智能体可以通过一个简化的操作空间来操控智能手机应用,这种方式仿佛是人类在进行点击和滑动操作。这种创新的方法避开了对系统后端的直接访问需求,使其能够适用于多种不同的应用程序。我们智能体功能的核心在于它的创新学习方式。智能体通过自我探索或者观察人类的示范来学习如何导航和使用新的应用程序。在这个过程中,它会构建起一个知识库,并依靠这个知识库来执行不同应用中的复杂任务。为了展示我们智能体的实用性,我们对它在 10 个不同应用中的 50 个任务进行了全面测试,这些应用包括社交媒体、电子邮件、地图、购物以及复杂的图像编辑工具。测试结果证明了我们的智能体在处理各种高级任务方面的高效能力。

相关导航

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注