Agent智能体 | 漫谈阿里开源的4个Web智能体方案:WebShaper、WebSailor、WebDancer等

大模型向量数据库机器学习
目录
  • 引言
  • 4者的异同点
  • 迭代和演进关系
  • 总结
引言

清风明月本无价,近水远山皆有情。小伙伴们好,继续Agent智能体专题。之前已经陆续介绍阿里通义WebAgent项目下的4个Web智能体:WebWalkerWebDancerWebSailorWebShaper,并总结对比:阿里开源的3个Web智能体:WebSailor、WebDancer、WebWalker。今天这篇小作文将横向对比已经发布的这4篇论文成果:WebShaper、WebSailor、WebDancer、WebWalker。

WebWalker、WebDancer、WebSailor 和 WebShaper 这四个项目都是阿里巴巴在 Web Agent 领域的研究成果,它们在技术上存在继承与演进的关系,共同推动了信息搜索Agent(Information Seeking Agent)能力的提升。

阿里巴巴WebAgent项目:https://github.com/Alibaba-NLP/WebAgent

更多AI相关欢迎关注公众号"小窗幽记机器学习":

4者的异同点

这四个项目都致力于增强大型语言模型(LLMs)在复杂网络环境中进行信息检索和问题回答的能力。它们普遍采用 ReAct 框架 作为Agent的基本结构,即通过“思考-行动-观察”的循环来与环境交互。它们使用的核心工具通常包括搜索(Search)和访问(Visit/Click) 网页。

以下是它们各自的特点和相互间的异同点:

  • WebWalker (Web 遍历基准)
  • 核心目标 :WebWalkerQA 是一个 基准测试 ,旨在评估 LLMs 进行 网络遍历 的能力,即系统性地遍历网站子页面以提取高质量数据。它还提出了 WebWalker,一个 多Agent框架 (包含探索者Agent和评论家Agent),用于模拟人类网络导航行为。
  • 数据收集 :采用 LLM(GPT-4o)和人工结合的两阶段漏斗式标注策略,通过递归遍历官方网站收集信息并构建多源和单源的问答对。
  • 训练/方法 :WebWalker 框架通过整合检索增强生成(RAG)来处理信息查找问答任务,实现横向和纵向的协同。它验证了 RAG 与 WebWalker 结合的有效性,但即使是基于最强大的 LLMs,其在 WebWalkerQA 上的表现仍不尽如人意,凸显了任务的挑战性。
  • 局限性 :早期工作,主要关注“点击”动作来评估导航和信息搜寻能力。其数据收集方法可能导致问答对中的信息结构和推理结构不一致。
  • WebDancer (自主信息搜寻Agent)
  • 监督微调 (SFT) :用于“冷启动”,使模型适应Agent任务格式,并学习多步推理与行动的耦合。
  • 强化学习 (RL) :使用 DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 算法优化Agent的决策制定和泛化能力。
  • CRAWLQA :通过抓取网页构建深度查询问答对,类似于 WebWalker 的数据收集,但更系统化,以实现更长期的网络探索轨迹。
  • E2HQA :通过将简单问题逐步转化为复杂问题来激励Agent从弱到强的演进。
  • 此外,它还通过拒绝采样来生成高质量的 短思维链(Short-CoT)和长思维链(Long-CoT) 轨迹。
  • 核心目标 :提出一个 端到端的Agent式信息搜寻Agent构建范式 ,强调数据中心和训练阶段的视角。
  • 数据合成 :引入了两种高质量、细粒度的浏览数据构建策略:
  • 训练策略 :采用 两阶段训练方法
  • 改进 :在 WebWalkerQA 和 GAIA 等基准上取得了显著性能,证明了其训练范式的有效性。
  • WebSailor (导航超人类推理的 Web Agent)
  • 适度拒绝采样微调 (RFT) :作为“冷启动”阶段,用于赋予模型基本工具使用能力和遵循长期推理骨架。
  • 高效Agent式强化学习 (RL) :引入 DUPO (Duplicating Sampling Policy Optimization) 算法以提高训练效率。
  • 核心目标 :旨在 注入“系统性地降低极端不确定性” 这种专有Agent系统(如 DeepResearch)所具备的 超人类推理模式 。它识别出现有开源Agent在处理 BrowseComp 等复杂、不确定性高的任务时的性能差距。
  • 数据合成 :引入了 SailorFog-QA ,通过对真实世界网站的随机游走生成互联知识结构中的子图,并进行信息模糊化处理,从而生成具有 高不确定性和难以降低不确定性 的复杂任务。它还通过从 LRMs 的成功轨迹中 重建简洁、面向行动的推理链 ,来克服 LRM 原生输出冗长和风格污染的问题。
  • 训练策略 :同样采用 两阶段后训练方法
  • 进步 :在 BrowseComp-en/zh 等极具挑战性的基准上显著优于所有开源Agent,并能与专有Agent性能相媲美,显著缩小了能力差距。
  • WebShaper (Agent式数据合成通过信息搜寻形式化)
  • 从基础的种子任务开始,并通过一个 Agent式扩展器(Agentic Expander) 进行多步扩展。
  • 扩展器能够理解 KP 表示的任务形式化,并采用 分层扩展策略(Layer-wise Expansion Strategy) ,以减少冗余和推理捷径。它还具备自主检索知识和验证生成问答对的能力。
  • 核心目标 :提出一个 形式化驱动(Formalization-Driven)的信息搜寻数据合成框架 ,以克服现有“信息驱动”方法(如 WebWalker 和 WebDancer 的 CRAWLQA 部分)在信息结构与推理结构一致性以及问答对一致性方面的局限性。
  • 数据合成 :其核心是基于 集合论 构建的 知识投影(Knowledge Projections, KP) 概念,实现了对推理结构的精确控制。
  • 训练策略 :同样采用 SFT 后接 RL(使用 GRPO 算法)。
  • 优势 :通过形式化驱动的设计,WebShaper 能够: 拓宽任务覆盖范围、提高任务可控性、确保结构和答案的一致性 。其合成的数据在复杂推理链管理、多跳推理轨迹比例上表现出统计学上的显著优势。在 GAIA 和 WebWalkerQA 等基准测试中,WebShaper 在开源 IS Agent中达到了最先进的性能,甚至接近专有系统。
迭代和演进关系

这四篇论文代表了阿里巴巴在构建强大 Web Agent 方面的一个循序渐进、螺旋上升的迭代和演进过程

  1. WebWalker (奠定基石与提出挑战)
  • 作为 开端 ,WebWalker 首次系统性地提出了“Web 遍历”这一信息搜索任务 ,并构建了 WebWalkerQA 这一 基准测试 来衡量 LLMs 在此任务上的表现。
  • 它通过其多Agent框架(探索者+评论家)证明了 RAG 结合垂直探索的潜力
  • WebWalker 指出了现有 LLMs 和传统搜索引擎在处理深度、多层信息时的局限性, 明确了后续研究需要攻克的难点
  • WebDancer (系统化训练范式与数据多样性)
  • WebDancer 响应了 WebWalker 提出的挑战 ,不再仅仅是基准测试,而是着重于构建 端到端的、可训练的 Web Agent
  • 首次系统地提出了“数据中心”和“训练阶段”相结合的构建范式 ,特别是 SFT + RL 的训练流程,为后续的工作奠定了基础。
  • 在数据方面,WebDancer 改进了 WebWalker 相对简单的数据收集方式,引入了 CRAWLQA 和 E2HQA ,旨在合成 更丰富、更具挑战性 的问答对,以训练Agent的 多轮信息搜寻能力 。这标志着从简单问答到复杂多步推理的数据合成方向的转变。
  • WebSailor (攻克极端不确定性与超人类推理)
  • WebSailor 进一步深化了对任务复杂度的理解 ,特别是识别出“极端不确定性”是当前开源Agent与专有系统之间的主要差距。
  • 它在数据合成上进行了 创新 ,提出了 SailorFog-QA ,通过 图结构采样和信息模糊化 来刻意制造难以降低不确定性的 “Level 3”任务 。这是对 WebDancer 现有数据合成方法在捕捉最高难度任务复杂性方面的 补充和提升
  • 在训练上,WebSailor 优化了 RL 算法(DUPO)并强调了 RFT 冷启动的重要性,旨在 更有效地训练出能处理这种“超人类推理”模式的Agent 。这代表了模型能力从“有效信息搜索”向“在高度不确定性下进行策略性搜索和推理”的跃迁。
  • WebShaper (形式化驱动的数据合成与精确控制)
  • WebShaper 是对数据合成方法的又一次 根本性创新 ,它 批判性地审视了之前“信息驱动”的合成范式 (包括 WebWalker 和 WebDancer 的 CRAWLQA 部分),认为其可能导致结构和答案的不一致性。
  • 它提出了 “形式化驱动”的范式 ,并基于 集合论 定义了信息搜寻任务的 “知识投影(KP)”形式化 。这使得数据生成过程具有 前所未有的精确控制力 ,能够系统性地生成具有特定推理结构和复杂度的任务,从而解决了冗余和推理捷径的问题。
  • WebShaper 的目标是生成 更高质量、更一致、更具可控性的训练数据 ,以更有效地 激活和提升 LLM 的深度信息搜寻能力 ,最终在各项基准上超越了 WebDancer 和 WebSailor,并接近了顶尖的专有系统。
总结
  • WebWalker 提出了 Web 遍历和深度信息搜索的 挑战 ,并建立了初步的基准和框架。
  • WebDancer 提供了构建可训练 Web Agent 的 系统化训练流程 ,并扩展了数据合成的 多样性
  • WebSailor 专注于处理 极端不确定性 和实现 超人类推理能力 ,通过创新的数据合成方式提升了模型在最复杂任务上的表现。
  • WebShaper 则代表了 数据合成范式的根本性转变 ,通过 形式化设计 实现了对任务结构和复杂度的 精确控制 ,旨在生成最优化、最有效率的训练数据,进一步推动了 Web Agent 性能的边界。

这四项工作共同展现了阿里巴巴在 Web Agent 领域从提出问题、构建基准、到系统化训练、再到攻克难点和创新数据合成方法的持续投入和技术演进

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论