RL系列 | 字节AgentGym-RL: 为复杂多轮决策Agent而生！ - 文章 - 开发者社区

简介

小伙伴们好，今天分享下Agent方向的前沿实践方案。尽管近两年 Agent（智能体）在学术界与开源社区中发展迅速，但在工业级落地 上依然存在不少关键痛点。比如任务可控性与稳定性不足、长程规划与多任务协调能力弱、缺乏高质量反馈信号与强化学习机制等问题。在小编的Agent落地探索经历中，LLM驱动的Agent最大的痛点便是行为不可预测、缺乏安全机制，这使得大众难以信任AI Agent的工作。即便是简单的function call任务，若遇到长程规划任务的话，Agent的成功到达率往往也无法得到完全保证。因而，今天这篇小作文将介绍一个相对较新的长程Agen训练框架：AgentGym-RL ，并尝试探索实践其有效性。

论文标题： AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

论文地址： https://arxiv.org/pdf/2509.08755

Github仓库地址： https://github.com/WooooDyy/AgentGym-RL.git

更多AI相关欢迎关注微信公众号"小窗幽记机器学习"：

AgentGym-RL框架：模块化、解耦与标准化平台

AgentGym-RL是一个为大语言模型（LLM）Agent设计的统一、模块化且灵活的端到端强化学习（RL）框架。该框架的目标在于系统性地解决长时程、多轮次交互决策任务中普遍存在的挑战，其战略定位清晰地指向摆脱对监督微调（Supervised Fine-Tuning, SFT）的依赖，致力于从零开始通过纯粹的强化学习来培养智能体的自主决策能力。这一框架并非简单的算法集合，而是一个完整的生态系统，旨在为研究人员提供一个公平、可复现且功能强大的基准测试平台，以推动LLM Agent在真实世界复杂场景中的发展。其完整框架流程，如下图1所示。

picture.image

AgentGym-RL框架最显著的特征是其精心设计的模块化与解耦架构，它将复杂的RL训练过程拆分为三个相互独立、高度可插拔的核心组件**：环境（Environment）、 Agent（Agent）和训练（Training）模块** 。这种设计哲学极大地提升了系统的灵活性、可扩展性和可靠性。

首先，环境模块 作为智能体与外部世界交互的唯一接口，被构建为一系列独立的HTTP服务。这种服务器-客户端架构不仅支持高效的并行轨迹执行，确保了大规模训练的可扩展性，还使得环境本身易于维护和更新，任何模块的改动都不会影响其他部分。该模块覆盖了五个精心挑选的真实世界场景类别，以保证训练的广度和深度： (1) 网页导航 (Web Navigation) ，例如使用真实的网站完成预订或信息提取等任务； (2) 深度搜索 (Deep Search) ，模拟用户进行多步骤查询以从网络中寻找答案； (3) 数字游戏 (Digital Games) ，如文本为基础的拼图或制作类游戏； (4) 具身任务 (Embodied Tasks) ，在虚拟网格世界中根据指令行动； (5) 科学任务 (Scientific Tasks) ，运行虚拟实验并进行推理。

这些环境均提供了标准化的API，包括重置、单步执行、观察获取和奖励计算等功能，从而保证了实验的规范性和可比性。

其次，Agent模块 扮演着“大脑”的角色，负责处理来自环境的观察信息，并据此选择下一步的动作。该模块被设计用于支持长时程的任务执行，具备规划、反思和自我修正等高级推理能力。虽然论文未详述其具体的神经网络架构，但明确指出其能够进行多步推理、工具使用和状态维护，这是实现复杂决策的基础。

最后，训练模块 是整个框架的引擎，它实现了多种主流的在线RL算法，如近端策略优化（PPO）、GRPO、REINFORCE++和RLOO。这些算法可以被视为调整 Agent行为的不同“教练风格”，它们根据 Agent在环境中获得的奖励信号来迭代优化策略参数。例如，PPO因其稳定性和剪裁优势而被广泛使用，GRPO则通过奖励组归一化来处理动作异质性的问题，而REINFORCE++则结合了PPO式的剪裁和KL惩罚，适用于高方差的任务。

ScalingInter-RL：基于交互长度的课程学习新范式

ScalingInter-RL是AgentGym-RL框架中最具突破性的组成部分之一，它是一种创新的训练策略，旨在从根本上解决强化学习中一个经典而又棘手的难题：探索（Exploration）与利用（Exploitation）之间的权衡。

传统的RL训练通常采用固定的交互时长（horizon），即每一轮试错都允许 Agent与环境互动固定次数。然而，这种方法往往导致两种极端情况：如果时长过短， Agent无法发现需要长距离依赖才能成功的策略，从而陷入局部最优；如果时长过长， Agent在早期阶段可能会因为面对过于复杂的任务而产生过多随机探索，导致策略崩溃（policy collapse），学习曲线极不稳定。ScalingInter-RL正是为了解决这些问题而设计的，它本质上是一种基于交互长度的课程学习（Curriculum Learning）方法 。

ScalingInter-RL的核心机制在于其动态和渐进的交互时长调度策略。训练过程并非从一开始就设定最长的交互步数，而是始于一个较短的初始时长

。在训练的早期阶段， Agent被严格限制在这个短时长内进行决策和行动。这种约束迫使 Agent将注意力集中在短期回报和基础技能的学习上，优先进行“利用”（exploitation），快速掌握那些能够立即产生正反馈的简单行为模式。通过这种方式，ScalingInter-RL有效地稳定了学习的初期阶段，帮助 Agent建立起一个可靠的、可行的基础政策，从而避免了因过早接触复杂问题而导致的灾难性失败。

随着训练的持续进行，这个交互时长会按照一个预设的单调递增 schedule 逐步增加。例如，每隔个训练步骤，最大交互步数

就会增加

。当交互时长逐渐拉长后， Agent被迫在更长的决策序列中进行思考和行动。此时，仅仅依靠之前学到的短期利用策略已经不足以获得高分， Agent必须开始尝试新的、可能风险更高但回报也更大的行为。这就自然地促进了“探索”（exploration），鼓励Agent去发现更深层次的交互模式，例如制定长远计划、进行战略性反思、识别错误并进行回溯等高级认知能力。因此，ScalingInter-RL通过一种精巧的方式，在训练的不同阶段自动调整探索与利用的平衡：早期侧重于利用以求稳定，后期转向探索以求突破。这种渐进式的复杂性提升，不仅防止了策略崩溃，还极大地增强了优化的稳定性，使得 Agent能够发现更丰富、更多样化的交互模式，并最终战胜那些简单的“捷径”行为。如下图2所示。

picture.image

实验验证与性能突破：超越商业模型的实证分析

为了全面评估AgentGym-RL框架及其核心训练策略ScalingInter-RL的有效性，研究团队在一系列多样化的任务和基准上进行了广泛的实验，涵盖了27个不同的任务。这些实验不仅验证了新方法的优越性，更揭示了一些颠覆传统认知的深刻洞见。实验的核心对比对象包括各种规模的开源模型（如Qwen-2.5-3B和Qwen-2.5-7B）以及业界领先的闭源商业模型（如OpenAI o3, GPT-4o, Gemini-2.5-Pro）。

实验结果令人瞩目，AgentGym-RL与ScalingInter-RL的结合在多个领域取得了卓越的成绩。特别是在网页导航（WebArena） 和深度搜索（Deep Search） 这两个相对开放和复杂的环境中，经过RL训练的7B参数模型展现出强大的竞争力。例如，在WebArena基准测试中，ScalingInter-RL-trained 7B模型取得了26.00%的总体成功率，显著超过了GPT-4o的16.00%，实现了超过10%的性能提升。在Deep Search任务上，该模型达到了38.25%的总体准确率，同样优于GPT-4o的26.75%，并在Natural Questions (NQ) 和 TriviaQA 子任务上达到了领先水平。这一系列成果强有力地证明，通过精心设计的RL后训练，中小型开源模型完全有能力在复杂的真实世界任务上媲美甚至超越庞大的商业模型。

在规则更为明确、反馈更清晰的模拟环境中，ScalingInter-RL的优势得到了更极致的体现。例如，在数字游戏TextCraft 中，该方法实现了91.00%的总体成功率，并且是少数能够在较长任务链（Depth 4）上取得非零表现的模型之一，这表明其训练出的 Agent具有强大的长时程推理和规划能力。

在具身任务BabyAI 中，模型得分高达96.67%，超越了OpenAI o3和GPT-4o 。而在科学推理任务SciWorld 中，ScalingInter-RL方法更是创造了新的SOTA记录，准确率达到57.00%。值得注意的是，即使是较小的7B RL模型，其在SciWorld上的表现（50.50%）也相当出色，再次凸显了有效RL训练的价值远超单纯的模型规模大小，如下图3所示。

picture.image

实践

该章节参考AgentGym内的ReadMe中的部署训练指南

0、Anaconda环境部署

  
echo "Preparing environment for agentgym-rl..."  
conda create -n agentgym-rl python==3.10 -y  
conda activate agentgym-rl  
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124  
# install flash-atten  
FLASH\_ATTENTION\_URL="https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.3/flash\_attn-2.7.3+cu12torch2.4cxx11abiFALSE-cp310-cp310-linux\_x86\_64.whl"  
FLASH\_ATTENTION\_NAME="flash\_attn-2.7.3+cu12torch2.4cxx11abiFALSE-cp310-cp310-linux\_x86\_64.whl"  
wget -q $FLASH\_ATTENTION\_URL -O $FLASH\_ATTENTION\_NAME  
pip3 install $FLASH\_ATTENTION\_NAME  
rm -f $FLASH\_ATTENTION\_NAME  
# for RL  
cd AgentGym-RL  
pip3 install -e .  
# for agentgym  
echo"Preparing environment for agentenv..."  
cd AgentGym/agentenv  
pip3 install -e .  
pip3 install transformers==4.51.3

1、下载AgentGym-RL的训练数据

  
git lfs install  
git clone https://huggingface.co/datasets/AgentGym/AgentGym-RL-Data-ID

2、执行训练，我们可以在AgentGym-RL和ScalingInter-RL的示例/训练中看到每个任务的训练示例脚本，如下图4所示。此外，可以参考在这些脚本中配置的训练参数。

  
bash webarena\_train.sh

picture.image

3、测评。官方提供了一个webarena的参考测评脚本。我们可以执行下方脚本进行测评。

  
bash webarena\_eval.sh

总结

尽管AgentGym-RL框架及其ScalingInter-RL策略取得了显著的成就，但研究者也清醒地认识到当前工作存在的一些局限性。例如，最优的交互时长调度schedule是如何确定的？是否存在一个通用的数学模型来指导这一过程？目前这些问题的答案仍然是开放的，缺乏严格的理论支撑。其次，尽管在选定的基准任务上表现出色，但这些方法的泛化能力仍有待检验。它们能否顺利迁移到训练数据之外的全新、更开放的世界任务中，其鲁棒性和适应性仍是一个未知数。

然而论文的结尾也阐述了，其未来的重点将可能放在以下几个方面：首先是增强泛化与迁移能力 ，研究如何让在特定环境下训练好的 Agent能够更好地适应新环境和新工具，实现知识的有效迁移。其次是拓展RL的应用边界 ，RL训练技术应用于更长时程、更物理真实的任务，例如机器人控制、自动驾驶等。最后推进多智能体强化学习（MARL） ，研究多个智能体之间如何通过交互和协作来共同解决问题，这将是构建更复杂、更智能的自动化系统的关键一步。