Awesome Mobile Agent：21个可以自动执行任务的移动端多模态Agent

发布时间：2024 年 11 月 04 日

多模态大模型

Foundations and Recent Trends in Multimodal Mobile Agents: A Survey

摘要：移动代理对于在复杂和动态的移动环境中自动执行任务至关重要。随着基础模型的发展，对能够实时适应和处理多模态数据的代理的需求不断增长。本调查对移动代理技术进行了全面审查，重点关注增强实时适应性和多模态交互的最新进展。最近已经开发了更好的评估基准来捕捉移动任务的静态和交互环境，为代理的性能提供更准确的评估。然后，我们将这些进展分为两种主要方法：基于提示的方法，利用大型语言模型（LLM）进行基于指令的任务执行；基于训练的方法，为移动特定应用微调多模态模型。此外，我们还探讨了增强代理性能的补充技术。通过讨论关键挑战并概述未来的研究方向，本调查为推进移动代理技术提供了有价值的见解。

开源地址：https://github.com/aialt/awesome-mobile-agents

https://arxiv.org/abs/2411.02006

picture.image

如遇无法添加，请+ vx: iamxxn886

添加请注明：MLLM

说个好消息：评论区送5本《 多模态大模型：算法、应用与微调 》

背景

移动端智能体（Mobile Agent）是指在移动端（手机）上能够实现在多种应用中自动化执行任务，且几乎无需人工介入的AI应用。这些智能体专为在动态环境中进行感知、规划和执行而设计，非常适合需要即时适应性的移动平台。

随着时间的推移，移动端智能体的研究有了显著的进步，从简单的基于规则 的系统发展到能够处理多模态和动态环境 中复杂任务的更复杂的模型。

在早期，移动端智能体主要集中于通过轻量级的、基于规则 的系统来执行预设的工作流程，这些系统专为移动设备上的特定任务量身定制。这些早期的智能体常常受限于硬件的计算和内存限制 ，严重依赖于基本的交互模式和静态流程。然而，移动技术的迅猛发展为更高级的智能体架构铺平了道路，使其能够执行更复杂的任务。

移动智能体研究的最新进展可以分为两大类：

基于提示的方法和基于训练的方法。

• 基于提示工程的方法 ：利用大型语言模型（LLMs），如ChatGPT 和GPT-4，通过指令提示和思维链（CoT）推理来处理复杂任务。如OmniAct 和AppAgent，已经展示了基于提示的系统在交互式移动环境中的潜力，尽管可扩展性和鲁棒性仍然有待提高。
• 基于训练的方法 ：为移动应用微调多模态模型，如LLaVA和Llama。这些模型能够处理丰富的多模态数据，通过整合视觉和文本输入，提高执行界面导航和任务执行等任务的能力。

Mobile Agent 核心组件

picture.image

如上图，移动端智能体的四大核心构件：感知（Perception）、规划（Planning）、行动（Action）和记忆（Memory）。这些组件协同工作，让智能体能在复杂多变的移动环境中进行感知、推理和执行，灵活调整行为以提升任务的效率和稳定性。

2.1 感知（Perception）

感知是移动端智能体搜集和解读周围多模态信息的过程，提取有助于规划和执行任务的关键信息。

早期对移动智能体的研究主要依赖于将图像或音频转换为文本描述的简单模型或工具。但这些方法往往产生不相关和冗余的信息 ，影响了任务规划和执行的效率，尤其是在信息量巨大的界面中。

此外，大型语言模型（LLMs）的输入长度限制进一步加剧了这些挑战，使得智能体在处理任务时难以筛选和排序信息。大多数预训练的视觉编码器对移动数据中的交互元素不够敏感。为应对这一问题，有的智能体引入了专门针对移动环境的数据集，增强了视觉编码器识别和处理关键交互元素（例如图标）的能力。

在可以访问API调用的情况下，Mind2Web提出了一种处理基于HTML信息的方法，该方法对HTML数据的关键元素进行排序并筛选重要细节，以提升LLM对交互组件的感知能力。同时，Octopus v2通过使用专门的功能标记来简化功能调用，显著提升了设备上语言模型的效率，并降低了计算负担。

2.2 规划（Planning）

规划是移动智能体的核心环节，让智能体能够基于任务目标和变化的环境制定行动策略。与静态环境中的智能体不同，移动智能体必须在处理多模态信息的同时适应不断变化的输入。

移动智能体的规划可以是程序化的，也可以采用自然语言。例如，AiTW Rawles et al. 中的程序化格式适合精确的系统执行。而自然语言格式，如CoCo-Agent 能够桥接任务指令和智能体的对话技能，使智能体更容易适应和泛化到不同领域的任务。

规划策略可分为动态规划和静态规划：

• 动态规划：智能体将任务分解为子目标，即使出现错误也不重新规划。
• 静态规划：根据实时反馈调整计划，使智能体能够回到早期状态并重新规划。

近期在提示工程领域的进步进一步提升了移动智能体的规划能力。OmniAct 利用基于提示的技术来构建多模态输入，提高推理能力。让智能体能够集成外部工具，并动态高效地调整输出格式。

2.3 行动（Action）

行动组件展示了智能体如何在移动环境中执行任务，主要通过屏幕交互、API调用和智能体 交互三个关键方面，在图形用户界面上点击、滑动或输入，模仿人类行为来导航应用。还通过API调用访问更深层次的系统功能，例如发出命令以自动化超出图形用户界面的任务。通过与其他智能体合作，它们增强了适应复杂任务的能力，确保在多样化环境中高效执行任务。

• 屏幕交互：在移动环境中，交互通常涉及点击、滑动或在虚拟界面上输入等动作。智能体，如AiTW、AITZ和AMEX 通过模仿人类交互执行基于GUI的动作，确保它们与原生应用的兼容性。这些动作不仅限于简单的手势，还包括需要智能体动态适应变化或新输入的复杂多步骤流程。
• API调用：对于移动智能体至关重要，因为需要与GUI交互并执行需要与移动操作系统深度集成的任务。除了API调用，智能体还可以利用HTML和XML数据来访问底层功能，修改设备设置，检索传感器数据，以及自动化应用导航，而不完全依赖于基于GUI的输入。通过结合这些方法，智能体可以高效完成任务，同时全面理解环境。
• 智能体交互：超越了基本的屏幕动作和API调用，涉及决策、环境适应和多任务处理。

2.4 记忆（Memory）

记忆机制对于移动智能体来说至关重要，使得智能体能够在不同任务间保持和利用信息。当前研究将情境学习与短期记忆和长期记忆相联系，并将其扩展至外部向量存储。

• 短期记忆：涉及信息的临时存储和推理，类似于人类的工作记忆，这使其能够有效地处理任务的连续性和适应性。最近的研究进展集中在提升移动智能体的记忆能力。例如，Auto-UI通过保留历史文本信息来增强决策制定，而UI-VLM则采用了基于图像的记忆存储方式。与单模态智能体相比，多模态智能体需要管理包括文本、图像和交互在内的多种数据类型的短期记忆，确保来自不同来源的重要信息得以保存。
• 长期记忆：外部向量存储器虽然能够检索过往经验，但其功能与结构化、高度互联的人类长期记忆相去甚远 。目前，结合参数记忆和向量数据库 可以模拟人类长期记忆，其中参数记忆负责存储隐性记忆和语义记忆，而向量数据库则保存更近期的语义记忆和情景记忆。为了提高记忆管理的效率，一些方法将多模态输入转换为统一的文本格式存储，简化了任务执行中的检索和整合过程。

移动端智能体的分类

picture.image

移动端智能体主要分为两大类：基于提示的方法和基于训练的方法。上图展示当前21个最新移动端智能体应用及其分类。

3.1 基于提示的方法

LLMs在开发能够自主操作图形用户界面的智能体方面展现出巨大潜力，特别是在需要遵循指令和思维链（CoT）提示的任务中。CoT提示特别有效，它使LLMs能够处理分步流程、做出决策和执行动作，这在涉及图形用户界面控制的任务中极为有用。

3.1.1 GUI工具

对于使LLMs与图形用户界面互动至关重要，因为这些模型主要处理自然语言而非视觉元素。

GUI工具将视觉元素转换为文本格式，以便LLMs能够理解。这种多模态集成显著提升了移动智能体在复杂环境中的效率和灵活性。图标识别和OCR技术用来解析GUI元素，并将这些元素转换为HTML布局。

但是，这种方法很大程度上依赖于外部工具和特定应用的API，这在推理过程中可能导致效率低下和错误。尽管已有研究探索了处理多种输入的多模态架构，但这些方法仍依赖于对环境的详细解析以实现最佳性能。鉴于准确的GUI基础的重要性，新的研究已经开始探索预训练方法，以提高智能体在GUI任务中的表现。

3.1.2 记忆机制

在提升基于提示方法的任务执行中扮演着关键角色。在AppAgent等智能体中，智能体利用记忆的探索阶段，通过存储先前的交互来学习和适应新应用。使智能体能够在无需额外训练数据的情况下保持知识。Mobile-Agent通过使用视觉工具分析屏幕截图来自动化移动应用操作，避免了对系统代码的依赖，并在操作期间使用自我反思机制规划任务和纠正错误。Omniact通过将图像转换为文本并创建多模态空间来增强感知，以更好地进行推理。

3.1.3 复杂推理

在智能体系统中，复杂推理指的是模型处理、分析和整合来自多个来源的信息以解决复杂任务的能力 。通过使智能体能够在不同数据输入之间建立联系、评估各种结果，并在动态环境中执行知情行动，增强了决策制定、规划和适应性。CoAT通过将语义信息整合到动作生成中，增强了GUI智能体的性能，它结合了屏幕描述、动作推理、下一个动作描述和预测结果，以提高决策的准确性和一致性。

3.2 基于训练的方法

相较于基于提示的方法，基于训练的方法包括了明确的模型优化过程 。通过对大型语言模型如Llama或多模态模型如LLaVA进行微调，通过收集多模态指令遵循数据或访问API获取指令信息，使模型能够作为推理和规划的核心“大脑”，并执行这些计划。

3.2.1 预训练大模型（VLMs）

像LLaVA和Qwen-VL这样的模型在大规模通用数据集上预训练，有效捕捉视觉和语言信息。

但是这些模型在移动领域的应用受限于对移动数据中交互元素的敏感度不足 。

为了提升预训练模型对移动数据中交互元素的响应能力：

• CogAgent收集了大规模移动数据集进行预训练表示，并整合视觉和文本输入，使用VLMs改善与复杂移动UI的互动。
• Spotlight是一个专注于移动UI任务的视觉-语言模型，仅依赖屏幕截图和特定区域，支持多任务和少样本学习。
• VUT采用双塔Transformer进行多任务UI建模，实现了模型数量更少、计算成本更低的竞争优势。

3.2.2 微调

预训练的VLMs，具备常识推理能力，已通过大规模移动数据集如AitW得到促进，通过视觉指令调整方法。移动数据结构化程度高且信息丰富，准确识别特定元素位置尤其具有挑战性。

• ScreenAI利用LLMs生成合成数据进行屏幕注释，识别UI元素类型和位置，为任务如问题回答和UI导航创建大型数据集。
• AMEX采用多级注释，包括GUI元素定位、功能描述和复杂自然语言指令，为移动AI智能体提供更详细的训练数据。

两种方法都通过使用构建的合成数据集进行微调来增强模型性能。

• Auto-GUI通过直接界面交互引入自主GUI控制，使用链式行动技术提高预测能力。
• UI-VLM利用多模态数据生成图像-文本序列以增强任务性能。
• COCO-Agent通过修改指令和元素布局简化定位任务。
• Octo-planner分离规划和执行
• AutoDroid通过将应用探索数据转化为可操作的知识自动化任务，通过微调和功能匹配增强自动化。

3.2.3 强化学习

为训练移动智能体提供了一种动态方法，允许从与真实环境的互动中学习。这种方法在智能体必须适应变化的上下文或根据奖励优化其行动的场景中特别有效。

• WoB平台通过允许智能体使用类似人类的行为与网站互动，实现真实网络环境中的强化学习。这项工作通过众包将网络任务转换为问答任务，提高不同环境间的任务泛化能力。
• MiniWoB 引入了工作流引导的探索，将专家工作流与特定任务的行动整合，加速学习并提高基于网络的任务效率。
• DigiRL结合离线和在线强化学习来训练设备控制智能体。它使用基于VLM的评估器扩展在线训练，支持与64个Android模拟器的实时互动，提高基于RL的智能体训练的效率。

测试基准数据集

移动智能体的基准测试为评估和比较移动智能体在静态和交互环境中的表现提供了标准化的测试环境，覆盖了用户界面自动化、任务完成和现实世界应用场景等领域。

目前，许多针对图形用户界面交互的基准测试依赖于静态数据集 ，这些数据集提供固定的真值注释，并通过比较模型的动作序列与预定义的解决方案来评估模型。

4.1 静态数据集

静态数据集提供了一个受控且预定义的任务集，带有注释的真值解决方案，使它们成为评估移动智能体在固定环境中性能的关键。这些数据集主要用于评估任务自动化，其中智能体需要遵循预定的动作或命令来完成特定任务。

早期的研究将引用表达式与屏幕上的UI元素联系起来，每个实例包含一个屏幕、一个低级命令和相应的UI元素。例如，RicoSCA数据集使用合成命令，而MiniWoB++包括多步任务的低级命令序列。

最近的研究转向了面向任务的指令，每个情节包含动作-观察对，包括屏幕截图和树状结构表示，如Android的视图层次结构或Web环境中的文档对象模型。例如：

• PixelHelp数据集包含来自Pixel手机帮助页面的187个高级任务目标和逐步指令
• UGIF数据集将类似的查询扩展到多种语言
• MoTIF包含了4.7k个任务演示，每个任务平均6.5步，276个独特的任务指令。
• AITW规模更大，包含715,142个情节和30,378个独特的提示，其中一些受到其他数据集的启发。

4.2 交互式环境

交互式环境提供了动态平台，智能体可以实时与环境互动，接收反馈并相应调整其动作。与静态数据集不同，这些环境允许连续的、适应性的互动，对于评估智能体在更复杂、不断演变的场景中至关重要。

在基于LLM的智能体出现之前，研究主要集中在基于强化学习（RL）的智能体上。一个突出的例子是Android-Env，它为RL智能体提供了一个与移动应用程序交互的环境，通过预定义的动作和奖励。然而，随着LLM的进步，研究的重点转向了能够使用自然语言理解和生成来执行更灵活、适应性任务的智能体。

4.2.1 封闭环境

当前基于LLM智能体研究的一个关键焦点，特别是在它们通过与环境的互动自主探索决策路径的能力上。在移动设置中，这些智能体旨在处理复杂的多步任务，并模拟人类行为以实现应用自动化。

Mobile-Env，用来来评估智能体在移动环境中管理多步交互的能力。

4.2.2 开放世界环境

为解决封闭强化学习设置的主要限制：无法完全捕捉现实世界互动的复杂性和可变性 。

受控环境对于训练和测试智能体很有用，但常常错过了现实世界场景的动态元素，其中像变化的内容、不可预测的用户行为和多样化的设备配置等因素至关重要。

为了解决这些问题，探索基于LLM的GUI智能体在开放、现实世界环境中的应用，使其能够学习并适应实时系统的复杂性和不断演变的情况。

然而，在开放世界环境中部署智能体也带来了多重风险，包括安全顾虑、结果的不可复现性，以及不公平比较的可能性。

为了缓解这些问题并确保评估的公正性和可复现性，采取一些策略：比如固定在线动态内容和在评估期间使用重放机制。这些方法有助于在更广泛的开放世界部署中，营造出一个更加可控的测试环境。

4.3 评估方法

过程评估与结果评估是两种核心方法。

过程评估着眼于智能体行为与既定路径的契合度。而结果评估则重视智能体是否达到了最终目标，关注成果而非过程细节。

4.3.1 过程评估

在最新的图形用户界面交互基准测试中得到了显著提升，重点在于步骤的评估，将预测行为与参考行为轨迹进行对比，以衡量智能体表现的有效性。

尽管这种方法在很多情况下行之有效，但任务完成往往存在多种有效解决方案，智能体可能会探索不同的路径，这些路径未必遵循预设轨迹 。为了增强这些评估的灵活性和鲁棒性，可以更多地关注最终成果，而非过程本身。

4.3.2 结果评估

通过判断智能体是否达到了预期的最终状态来衡量其成功，将任务目标视为隐藏状态的子集，不考虑达成它们的具体路径 。这些最终状态可以通过多种系统信号来识别。依赖单一信号类型可能无法捕捉所有相关的州转换，因为某些行为，如表单提交，可能仅在图形用户界面中可见，而不在系统日志或数据库中。转向基于结果的评估，并利用多种信号，可以使图形用户界面交互基准测试更加可靠和适应性强，让智能体在各种场景中充分展现其能力。

未来研究方向

• 安全与隐私：移动智能体在开放环境中的安全风险不容忽视。未来的研究需优先强化安全机制，防范恶意行为和数据泄露。同时，也需发展保护隐私的技术，确保智能体交互过程中敏感数据的安全。
• 适应动态环境：提升移动智能体适应动态和不可预测环境的能力极为关键。未来研究应探索实时行为调整的方法，以应对不断变化的条件和资源可用性。
• 多智能体协作：加强多个移动智能体之间的协作是一个主要挑战。未来研究应聚焦于高效的通信和协作机制，使智能体能够灵活组建联盟，更高效地完成任务。

picture.image

• 论文原文: https://arxiv.org/abs/2411.02006
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886
• 点击公众号菜单加入讨论

picture.image