论文题目：Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
          
论文链接：https://arxiv.org/pdf/2401.16158.pdf
          
代码已开源GitHub：https://github.com/X-PLUG/MobileAgent

论文提出了一个名为 Mobile-Agent 的自主多模态移动设备智能体，它基于多模态大型语言模型（MLLM）。 Mobile-Agent利用视觉感知工具来准确识别和定位应用程序前端界面中的可视和文本元素。基于感知到的视觉上下文，它能够自主规划和分解复杂的操作任务，并逐步导航移动应用程序。与依赖应用程序的XML文件或移动系统元数据的现有解决方案不同，Mobile-Agent以视觉为中心的方式提高了在多样化移动操作系统环境中的适应性，从而消除了对系统特定定制的需求。

Mobile-Agent系统框架

picture.image

为了评估Mobile-Agent的性能，作者引入了一个名为 Mobile-Eval 的基准测试，用于评估移动设备操作。Mobile-Eval包括10个常用应用程序和不同难度级别的指令。基于Mobile-Eval的全面评估表明，Mobile-Agent在准确性和完成率方面取得了显著成果。即使面对具有挑战性的指令，如多应用程序操作，Mobile-Agent也能够成功完成任务。

操作多个Apps去搜索游戏结果的案例

picture.image

使用无效和错误操作后的自我反思和错误纠正案例，其中操作“点击文本（添加评论）”导致错误的页面，操作“点击文本（发布）”是无效操作。无效和错误的操作以红色字体突出显示。

picture.image