Mobile-Agent:具有视觉感知能力的自主多模态移动设备智能体

向量数据库内容安全与风控智能应用

          
论文题目:Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
          
论文链接:https://arxiv.org/pdf/2401.16158.pdf
          
代码已开源GitHub:https://github.com/X-PLUG/MobileAgent
      

论文提出了一个名为 Mobile-Agent 的自主多模态移动设备智能体,它基于多模态大型语言模型(MLLM)。 Mobile-Agent利用视觉感知工具来准确识别和定位应用程序前端界面中的可视和文本元素。 基于感知到的视觉上下文,它能够自主规划和分解复杂的操作任务,并逐步导航移动应用程序。 与依赖应用程序的XML文件或移动系统元数据的现有解决方案不同,Mobile-Agent以视觉为中心的方式提高了在多样化移动操作系统环境中的适应性,从而消除了对系统特定定制的需求。

Mobile-Agent系统框架

picture.image

为了评估Mobile-Agent的性能,作者引入了一个名为 Mobile-Eval 的基准测试,用于评估移动设备操作。Mobile-Eval包括10个常用应用程序和不同难度级别的指令。基于Mobile-Eval的全面评估表明,Mobile-Agent在准确性和完成率方面取得了显著成果。即使面对具有挑战性的指令,如多应用程序操作,Mobile-Agent也能够成功完成任务。

操作多个Apps去搜索游戏结果的案例

picture.image

使用无效和错误操作后的自我反思和错误纠正案例,其中操作“点击文本(添加评论)”导致错误的页面,操作“点击文本(发布)”是无效操作。无效和错误的操作以红色字体突出显示。

picture.image

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论