AppAgent:作为智能手机用户的多模式Agent,能够模仿人类操作手机APP,可完成常见任务

人工智能与算法增长营销MySQL

近日,腾讯人工智能实验室动作频频,先是与悉尼大学联合发布了GPT4Video《统一多模态框架GPT4Video不仅能看懂视频也能生成视频(附视频demo) 》,现又联合德州大学达拉斯分校对外发布了一个新的研究进展AppAgent,它是一个基于LLM的智能手机用户的多模式Agent框架,旨在操作智能手机应用程序,通过自主学习和模仿人类的点击和滑动手势,这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。可以在社交媒体上发帖、帮你撰写和发送邮件 、使用地图、在线购物,甚至进行复杂的图像编辑等任务。AppAgent现已在50 个任务上进行了广泛测试,涵盖了10种不同的应用程序。

项目及演示: https://appagent-official.github.io/

论文: https://arxiv.org/abs/2312.13771

GitHub: https://github.com/mnotgod96/AppAgent

picture.image

基本方法:

App Agent 的运行分为两个阶段,分别称为探索阶段和部署阶段。在第一阶段,App Agent 观察不同应用程序用户界面的交互情况。通过充分观察,App Agent 就能熟练使用某个应用程序。这些知识会被精心整理成文档。学习阶段完成后,App Agent 就可以开始行动了。在第二阶段,App Agent 可以处理任何支持应用程序的高级任务。这种有条不紊的方法使 App Agent 能够高效地完成不同应用程序中的各种复杂任务。

picture.image

图中展示了框架的两阶段方法。在探索阶段,Agent与智能手机应用程序互动,并从它们的结果中学习,从而创建一个全面的参考文档。在这一阶段之后,Agent将利用该文档中的信息有效地操作和浏览应用程序。

picture.image

通过观察各种应用程序图形用户界面的变化,App Agent 可以学习它们的功能和运行逻辑。这种对图形用户界面元素的深刻理解对其与应用程序的智能交互至关重要。

picture.image

遇到新的用户界面时,App Agent 会参考文档中的知识库,了解界面的目的和用法。然后,它会制定完成既定任务的最佳方法,一步步进行正确的操作。

视频介绍:

对于个人Agent领域的思考,可阅读:

搜索、推荐之后,下一个打破信息差促进信息流动的历史性机会是什么?

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论