点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
强化学习(RL)在提升大语言模型(LLM)方面已展现出显著成效,但主要集中于单轮任务,如解决数学问题。由于动态网络界面下长时程决策制定的复杂性,训练适用于多轮交互的有效网络 Agent 仍然具有挑战性。
在本工作中,作者提出了WEBAGENT-R1,一个简单而有效的端到端多轮RL框架,用于训练网络 Agent 。该框架通过异步生成多样化轨迹,直接从与网络环境的在线交互中学习,完全由基于任务成功与否的二进制 Reward 进行指导。
在WebArenaLite基准测试上的实验表明了WEBAGENT-R1的有效性,将Qwen-2.5-3B的任务成功率从6.1%提升至33.9%,将Llama-3.1-8B的任务成功率从8.5%提升至44.8%,显著优于现有的最先进方法及强大的专有模型,如OpenAI o3。深入分析揭示了基于思考的 Prompt 策略和通过增加交互进行测试时扩展对于网络任务的有效性。
作者进一步通过引入两个变体——WeBAGENTR1-ZERO和WEBAGENT-R1-COT——研究了不同的RL初始化策略,这些变体突出了预热训练阶段(即行为克隆)的重要性,并为在网络 Agent 中整合长链式思考(CoT)推理提供了见解。
unsetunset1 引言unsetunset
强化学习(RL)已成为训练大语言模型(LLMs)的一种有前景的方法,例如DeepSeek-R1最近的进展(Guo等人,2025年;团队等人,2025年;Yang等人,2025a)。然而,现有工作主要集中于单轮、非交互式任务,如数学推理(Shao等人,2024年;Zeng等人,2025年)。它们在多轮、交互式环境中的有效性——特别是在需要长时程决策和特定领域技能的复杂场景中,如网络浏览——仍然尚未得到充分探索。
与静态环境不同,网络任务的动态性和多样化的解决方案空间为大语言模型(LLM)Agent带来了独特的挑战。早期关于网络Agent的研究主要依赖于 Prompt 方法或行为克隆(BC),后者通过监督微调模仿示范轨迹(Yin等人,2024;Hong等人,2024;Lai等人,2024;He等人,2024b;Putta等人,2024)。尽管这些方法最初取得了成功,但它们缺乏探索多样化策略或从试错中学习的能力,限制了网络Agent的泛化能力。为解决这一问题,近期研究探索了应用强化学习(RL)进行更好的策略训练。然而,该领域的大部分研究严重依赖于离线或迭代离线策略RL解决方案(Peng等人,2019;Pan等人,2024;Qi等人,2025),这些方法破坏了网络Agent与环境的端到端交互,并引入了额外的复杂性,如轨迹过滤(Bai等人,2024)、结果 Reward 模型训练(Qi等人,2025)或迭代优化程序(Zhou等人,2024b)。这些限制阻碍了它们在实际应用中的部署。
与此同时,多项并发研究探索了在多轮交互场景(如模拟游戏和编程环境)中,使用基于策略的端到端强化学习来训练大语言模型Agent,例如模拟游戏和编程环境(Wang等人,2025;Cao等人,2025)。与基于离策略的强化学习不同,后者使用由Agent旧版本生成的数据进行训练,基于策略的强化学习直接从Agent当前行为中收集训练数据。这确保了学习过程与Agent最新动作更好地对齐,通常能带来更稳定和有效的学习(Schulman等人,2015,2017)。它还消除了基于离策略强化学习中的额外开销(例如,维护重放缓冲区和过滤过时的轨迹),并使Agent能够根据其自身过去的决策进行自适应行为——这是在早期决策可能显著影响下一步的交互环境中的关键优势。
这些优势在在线网络环境中尤为显著,因为环境动态变化往往导致任务之间存在复杂的相互作用。例如,考虑一个场景,Agent首先被要求退出用户账号,然后编辑用户资料。这些任务本质上相互依存:一旦Agent退出,它将失去对资料页面的访问权限。如果Agent使用从早期版本收集的离线策略数据进行训练,而该版本从未执行过退出操作,它将没有机会学习登录行为,并可能错误地假设持续访问权限,从而生成无效动作,最终导致任务失败。端到端强化学习通过允许Agent根据环境状态变化即时学习适当行为,帮助避免此类陷阱。
鉴于这一背景,作者提出了WeBAGENT-R1,一个用于训练网络 Agent 的端到端多轮强化学习框架。具体而言,作者的设计解决了该场景中的几个关键挑战。首先,在每个步骤中,环境观察(例如HTML内容)可以包含数千个token,导致在长时程内累积的上下文产生巨大的内存开销。为了缓解这一问题,作者引入了一种动态上下文压缩机制,该机制能够自适应地调整各轮次的上下文,确保可扩展性并防止内存溢出问题。其次,现有的针对LLM Agent 的强化学习解决方案并不适用于多轮场景。受群体相对策略优化(GRPO)(Shao等人,2024)的启发,作者将GRPO扩展到多轮设置(M-GRPO),并采用异步轨迹滚动策略,通过并行生成多个轨迹来进一步提高训练效率。这些设计使得强化学习训练效率得到提升,并在WebArena-Lite基准测试中取得了当前最佳性能,如图1所示。广泛的消融实验进一步验证了作者的关键设计选择,揭示了一种适用于网络任务的有效测试时扩展策略,并深入探讨了行为克隆和长CoT推理在基于强化学习的网络 Agent 训练中的作用。
作者的贡献总结如下:
- 作者实现了一个用于训练网络Agent的端到端多轮强化学习框架,通过动态上下文压缩和异步轨迹展开机制来提高训练效率。
- 基于所提出的M-GRPO算法,llm-WebAgent-R1_2505显著提升了网络 Agent 的任务成功率——将Qwen-2.5-3B从6.1%提升至33.9%,将Llama-3.1-8B从8.5%提升至44.8%——在WebArena-Lite基准测试中超越了先前最先进的结果。
- 深入的分析和消融研究强调了行为克隆的关键作用,验证了基于思维的 Prompt 和测试时扩展策略的有效性,并为在网页Agent中整合长上下文推理提供了可行的见解。
unsetunset2 WebAgent-R1unsetunset
2.1 问题公式化
作者将网络任务建模为部分可观察马尔可夫决策过程(POMDP),其定义为元组
。在每个时间步
,Agent首先从环境
中观察一个状态
,该状态表示当前网页的纯文本HTML内容。然后,Agent从预定义的动作空间
中生成一个动作
,该空间包含常用的网络操作。环境动态
表示网页在动作响应下的变化方式。Agent与环境交互,直到任务成功完成或达到最大步数限制。最终,Agent根据 Reward 函数
获得一个二元结果 Reward
。
基于先前工作(Qi等人,2025),作者采用WebArena(Zhou等人,2024a)作为网络环境,而未选择其他模拟或静态环境,如WebShop(Yao等人,2022)或Mind2Web(Deng等人,2023),以增强实用性——它为网络Agent提供了真实且可自部署的环境,并包含基于规则的评估标准,能够自动检测最终状态中的成功指标(例如确认消息或页面上的预期内容)。请注意,部分先前工作(Liu等人,2025;He等人,2024a)将网页截图作为额外的视觉输入,而作者的工作专注于基于文本的HTML决策。其他研究,如Yang等人(2025b)的工作,探索了在不进行模型微调的情况下优化动作空间或 Prompt 设计。
这些方向与作者所研究的问题在概念上是正交的,未来可以将其与llm-WebAgent-R1_2505进行概念性整合。
2.2 行为克隆
初始化网络Agent时,作者首先采用行为克隆(BC)方法,使用固定的专家演示数据集
进行初始化,其中
表示截至时间步
的完整交互历史,定义为
。策略
通过监督微调(SFT)方法进行训练,以模仿基于此历史记录的专家动作:
这个 Warm up 阶段使Agent能够获取动作空间中定义的基本网页交互技能。正如作者的消融研究
所示,这种基于行为克隆训练的策略为后续的强化学习优化提供了关键基础。
2.3 端到端多轮强化学习
如图2所示,作者的端到端多轮强化学习框架通过基于规则结果 Reward 的在线交互来训练网络Agent。为了实现高效和可扩展的训练,作者实现了两个关键机制:动态上下文压缩以减少内存开销,以及异步轨迹展开以提高采样效率。基于行为克隆训练的策略,作者进一步使用GRPO(Qi等人,2025)在多轮环境下的扩展版M-GRPO来微调Agent。作者的实现可被视为一种极简主义方法,它支持高效的多轮强化学习训练,同时保持通用性,并具有未来扩展的潜力(例如,为中间步骤引入细粒度 Reward 塑形机制)。
动态上下文压缩在网络任务中,每个观测值
通常包含数千个 Token 。在多轮交互中,累积的上下文迅速增长,导致内存使用过度和潜在的内存不足问题,使得训练变得不切实际。为此,作者提出了一种动态上下文压缩策略。当新的观测值到达时,较早的观测值被简化以减少上下文长度,同时保留完整的行动历史。令第
步的交互历史为
,其中每个
是一个简化模板(例如,“简化 HTmL”),代表先前的观测值。当 Agent 执行行动
并接收新的观测值
时,更新后的历史变为
,其中
被其简化版本
替换。这使得 Agent 能够维护一个紧凑且信息丰富的过去交互上下文。由于上下文是动态变化的,作者还相应地更新了损失 Mask ,以确保在 M-GRPO 优化过程中,损失仅在行动 Token 上正确计算。
受GRPO启发,作者将其标准形式扩展到多轮RL场景,并引入多轮组相对策略优化(M-GRPO)。具体而言,对于每个任务
,作者首先采样一组轨迹
,然后通过最小化以下损失来优化策略模型
:
其中
是第
条轨迹中生成的动作序列,
是轨迹
中动作
的第
个 Token 的优势,5
表示重要性采样项,
和
是超参数,且
是基于规则 Reward 函数生成的 Reward
计算的组相对优势。
异步轨迹展开生成一组轨迹需要与环境进行重复交互,这可能耗时较长。为此,作者引入了一种异步轨迹展开策略,其中实例化多个独立的浏览器实例
,每个实例维护其自身的上下文(例如,cookies)。对于每个任务,所有实例均以相同的起始页面初始化,但Agent独立地与之交互,从而产生多样化的历史记录和轨迹。这种异步设计使得M-GRPO能够高效地生成轨迹。
Reward 设计 作者在网页环境中使用默认的基于规则的 Reward 函数,这些函数根据特定任务标准(例如,达到目标页面)分配二元 Reward (成功时
,否则
)。这消除了对结果 Reward 模型的需求(Qi等人,2025年),确保了简单且可推广的训练设置。
unsetunset3 实验unsetunset
3.1 实验设置
网络环境与先前研究类似(Liu等人,2025;Qi等人,2025),作者专注于现实场景中的网络 Agent ,具体利用WebArena(Zhou等人,2024a),这是一个可自托管且逼真的网络环境,支持跨不同领域的实际任务:社交论坛(Reddit)、协作编程(GitLab)、电子商务内容管理系统(CMS)、开放街道地图(Map)和在线购物(Shopping)。
数据集与评估指标遵循Qi等人(2025)的方法,作者使用公开的9,460条轨迹进行行为克隆,并采用WebArena-Lite(WebArena的人验证版本)进行更可靠的评估。具体而言,作者使用165个验证任务进行评估,剩余的647个任务用于强化学习训练。任务成功率通过内置的基于规则的评分标准进行计算。
Baseline 模型 为了评估 Prompt Baseline ,作者提供了与开源和专有模型的全面比较,包括通用模型(例如Qwen2.5、Llama3.1、GPT-4)和推理专用模型(例如QwQ、OpenAI o3(OpenAI,2025)),涵盖了不同规模的模型。对于微调方法,作者采用Qwen2.5-3B和Llama3.1-8B作为 Backbone 模型。
关于环境和实现的更多细节请参见附录A和B。作者还提供了 Prompt 模板和定性示例,分别参见附录D和E。
3.2 主要结果
大多数大语言模型在通过 Prompt 进行网络任务时仍存在困难,这凸显了针对网络 Agent 进行微调的重要性。如表2所示,作者的实验揭示了现成模型在网络任务中的局限性。尽管这些模型具有强大的通用能力,但OpenAI的o3等最先进模型仅实现了39.4%的成功率。相比之下,一个经过简单行为克隆微调的3B模型达到了20%的成功率,超越了GPT-4o等专有模型。作者推测现成模型的性能不佳并非由于基础模型的大小或能力,而是由于对HTML结构和特定网络行为理解不足,这一点由3B和8B模型在行为克隆后取得相当性能的观察所证实。这些发现强调了在网页数据上进行特定领域训练以开发有效的基于LLM的网络 Agent 的必要性。
推理模型是更优秀的网络 Agent 。与通用大语言模型相比,具备明确推理能力的模型在处理网络任务时表现显著更佳,这可能是由于它们能够分解High-Level目标,并明确展示网络界面的动态变化。这种差距突显了推理在网络环境中的重要性,网络环境通常需要多轮决策和动态的上下文理解。基于这一观察,作者进一步通过 Prompt 设计
和训练策略
探索将推理机制融入网络 Agent ,这进一步证实了推理能力对网络 Agent 的优势。
强化学习能够提升网络Agent的性能。虽然通过监督微调(SFT)的行为克隆可以显著提高大语言模型(LLM)作为网络Agent的性能(例如,将Qwen2.5-3B的性能从6.1%提升至20%),但在SFT训练的策略基础上应用强化学习(RL)能带来额外的显著增益(例如,将Qwen2.5-3B的性能进一步从20%提升至33.9%)。作者将这些改进归因于强化学习优化长时程决策的能力,通过在动态网络交互中的试错探索超出SFT数据中可见的新策略。尽管现有的网络Agent强化学习解决方案(如DigiRL和WebRL)也展示了性能提升,但llm-WebAgent-R1_2505取得了更强的结果,突显了作者端到端多轮强化学习框架的有效性。
3.3 训练动态
为了理解所提出的端到端强化学习如何优化网络 Agent 的行为,作者通过三个指标分析训练动态: Reward 、轨迹长度(即所有多轮交互中模型响应中的token数量)以及交互次数。如图3所示,学习过程大致可分为三个不同阶段,这些阶段由垂直虚线分隔。
Reward 。第一阶段显示 Reward 迅速增加,表明Agent快速学习基本技能并开始在简单任务上取得成功。在第二阶段, Reward 增长趋于平稳并略有波动,表明Agent正在探索不同策略并优化其策略。在第三阶段, Reward 再次逐渐改善,表明正在利用策略并提高稳定性。
轨迹长度。在第一阶段,轨迹长度急剧增加,然后在第二阶段稳定。在第三阶段,观察到再次有适度增加。这一趋势表明,Agent最初学习生成更详细的输出,随后是一个巩固阶段,最后是细化阶段,以平衡冗长与任务效率。
交互次数。在第一阶段,随着Agent变得更加主动,交互轮次增加;随后在第二阶段,随着Agent学会更高效地交互,交互轮次减少。在第三阶段,交互次数稳定下来,表明Agent正收敛到一个更一致和有效的交互策略。
这些趋势凸显了在强化学习中常见的三阶段学习动态:(1) 初始技能获取,(2) 探索以优化策略,以及 (3) 最终策略稳定。有趣的是,Qwen2.5-3B和Llama3.1-8B都遵循相似的学习模式,表明作者的端到端多轮强化学习框架能够有效扩展至不同模型规模,并实现稳定的策略改进。
3.4 消融研究
为验证llm-WebAgent-R1_2505中的关键设计选择,作者使用Qwen2.5-3B作为 Backbone 模型进行了一系列消融研究。具体而言,作者引入了两个变体WEBAGENT-R1-ZERO和WEBAGENT-R1-CoT,以研究行为克隆和长CoT对网络 Agent 的影响。结果展示在图4中。
行为克隆对于使用强化学习训练网络 Agent 至关重要。WEBAGENT-R1-ZERO跳过了行为克隆阶段,直接从现成的模型开始强化学习,初始成功率仅为
。令人惊讶的是,模型在强化学习后的性能甚至略有下降。作者假设这是由于模型缺乏对网络任务的知识,因为模型倾向于产生不完整或形式不正确的动作(例如,缺少必要的参数),并且在强化学习期间很少获得正 Reward 。这严重阻碍了有效的探索和学习,突显了行为克隆对于初始化网络 Agent 和实现后续成功强化学习的重要性。
将长上下文推理数据整合到行为克隆中能够提升网络Agent的性能。作者首先通过一个强推理模型生成长上下文推理轨迹来增强行为克隆数据(详见附录C),然后应用监督微调技术得到长上下文推理监督微调模型(即RL之前的WEBAGENT-R1-CoT变体)。与在标准行为克隆数据上训练的监督微调模型相比,长上下文推理监督微调模型实现了显著更高的任务成功率(24.5% vs. 20%),证明了长上下文推理对于网络Agent的有效性。
RL对长CoT SFT模型增益有限。虽然RL对基础SFT模型和长CoT SFT模型均显示出显著的改进,但有趣的是后者增益明显较小。具体而言,WEBAGENT-R1的改进从20%提升至33.9%,而WEBAGENT-R1-CoT的改进则从24.5%仅提升至30.3%。作者推测这是因为长CoT BC学习过程中获得的确定性推理模式可能在RL阶段限制了模型的探索空间,从而削弱了其发现新策略的能力,相比之下,标准SFT模型具有更灵活的探索行为。
3.5 分析
采用思考格式 Prompt 能够释放LLM作为网络 Agent 的潜力。如表3所示,使用思考格式显著提高了各模型的任务成功率,尤其对于性能更强的模型(例如,o4-mini从15.9%提升至36.9%)。有趣的是,虽然平均单轮响应长度保持相似(例如,Qwen2.5-3B为139142个token),但采用思考格式后交互次数大幅增加(例如,达到617次)。这一观察结果表明了一种适用于网络任务的新测试时扩展策略——网络 Agent 可以通过进行更深层次的多轮交互来提升效率,而非生成更长的单轮响应。
通过增加交互次数的测试时缩放能够提升网络任务的性能。基于上述发现,作者进一步研究了增加网络 Agent 与环境之间的交互次数如何影响性能。如图5所示,允许更多交互回合能够持续提升基于 Prompt 、SFT和基于RL的方法的成功率。作者假设这种测试时缩放形式能够促进更深层次的探索,并产生更长的轨迹,从而可能使 Agent 通过扩展交互来迭代优化其动作并做出更明智的决策。
unsetunset4 相关工作unsetunset
4.1 基于大语言模型的Agent
大语言模型已展现出令人期待的 Agent 能力,例如将复杂任务分解为可管理的子目标,以及进行长期推理。基于这些能力,基于大语言模型的 Agent 已被应用于各种现实世界的交互任务,包括网页导航、通用计算机使用以及具身环境。具体而言,作者的工作聚焦于基于文本的网页 Agent ,这些 Agent 在基于浏览器的环境中纯粹基于HTML内容运行,这需要 Agent 能力,如工具使用、记忆以及在部分可观察性下的决策。
与此方向互补的是,图形用户界面 Agent 利用额外的多模态输入,如屏幕截图,实现视觉引导的环境交互。为获取全面概述,作者建议读者参考最近的综述。
4.2 强化学习用于大语言模型
近年来,DeepSeek-R1 等研究成果凸显了强化学习(RL)在提升大语言模型(LLM)方面的巨大潜力。然而,现有研究大多集中于单轮任务,如数学问题,在多轮场景中的探索有限(Zhou等人,2024b,2025)。尽管近期研究在这一方向取得了一定进展,例如训练LLMAgent反复使用搜索引擎,但通常将行为限制为简单的API调用,缺乏真实环境交互。
少数同步研究,如RAGEN ,将RL应用于模拟游戏和编程环境等更动态的场景(Jimenez等人,2024)。
然而,真实网络环境仍被广泛忽视。作者的研究通过提供一个实用框架,并为端到端RL训练网络Agent提供可操作的见解,填补了这一空白。
unsetunset参考unsetunset
[1]. WEBAGENT-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning
点击上方卡片,关注「AI视界引擎」公众号