Agent智能体 | 漫谈阿里开源的4个Web智能体方案：WebShaper、WebSailor、WebDancer等 - 文章 - 开发者社区

引言
4者的异同点
迭代和演进关系
总结

引言

清风明月本无价，近水远山皆有情。小伙伴们好，继续Agent智能体专题。之前已经陆续介绍阿里通义WebAgent项目下的4个Web智能体：WebWalker、WebDancer、WebSailor、WebShaper，并总结对比：阿里开源的3个Web智能体：WebSailor、WebDancer、WebWalker。今天这篇小作文将横向对比已经发布的这4篇论文成果：WebShaper、WebSailor、WebDancer、WebWalker。

WebWalker、WebDancer、WebSailor 和 WebShaper 这四个项目都是阿里巴巴在 Web Agent 领域的研究成果，它们在技术上存在继承与演进的关系，共同推动了信息搜索Agent（Information Seeking Agent）能力的提升。

阿里巴巴WebAgent项目：https://github.com/Alibaba-NLP/WebAgent

更多AI相关欢迎关注公众号"小窗幽记机器学习"：

4者的异同点

这四个项目都致力于增强大型语言模型（LLMs）在复杂网络环境中进行信息检索和问题回答的能力。它们普遍采用 ReAct 框架 作为Agent的基本结构，即通过“思考-行动-观察”的循环来与环境交互。它们使用的核心工具通常包括搜索（Search）和访问（Visit/Click） 网页。

以下是它们各自的特点和相互间的异同点：

WebWalker (Web 遍历基准)

核心目标 ：WebWalkerQA 是一个 基准测试 ，旨在评估 LLMs 进行 网络遍历 的能力，即系统性地遍历网站子页面以提取高质量数据。它还提出了 WebWalker，一个 多Agent框架 （包含探索者Agent和评论家Agent），用于模拟人类网络导航行为。
数据收集 ：采用 LLM（GPT-4o）和人工结合的两阶段漏斗式标注策略，通过递归遍历官方网站收集信息并构建多源和单源的问答对。
训练/方法 ：WebWalker 框架通过整合检索增强生成（RAG）来处理信息查找问答任务，实现横向和纵向的协同。它验证了 RAG 与 WebWalker 结合的有效性，但即使是基于最强大的 LLMs，其在 WebWalkerQA 上的表现仍不尽如人意，凸显了任务的挑战性。
局限性 ：早期工作，主要关注“点击”动作来评估导航和信息搜寻能力。其数据收集方法可能导致问答对中的信息结构和推理结构不一致。

WebDancer (自主信息搜寻Agent)

监督微调 (SFT) ：用于“冷启动”，使模型适应Agent任务格式，并学习多步推理与行动的耦合。
强化学习 (RL) ：使用 DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 算法优化Agent的决策制定和泛化能力。
CRAWLQA ：通过抓取网页构建深度查询问答对，类似于 WebWalker 的数据收集，但更系统化，以实现更长期的网络探索轨迹。
E2HQA ：通过将简单问题逐步转化为复杂问题来激励Agent从弱到强的演进。
此外，它还通过拒绝采样来生成高质量的 短思维链（Short-CoT）和长思维链（Long-CoT） 轨迹。
核心目标 ：提出一个 端到端的Agent式信息搜寻Agent构建范式 ，强调数据中心和训练阶段的视角。
数据合成 ：引入了两种高质量、细粒度的浏览数据构建策略：
训练策略 ：采用 两阶段训练方法 ：
改进：在 WebWalkerQA 和 GAIA 等基准上取得了显著性能，证明了其训练范式的有效性。

WebSailor (导航超人类推理的 Web Agent)

适度拒绝采样微调 (RFT) ：作为“冷启动”阶段，用于赋予模型基本工具使用能力和遵循长期推理骨架。
高效Agent式强化学习 (RL) ：引入 DUPO (Duplicating Sampling Policy Optimization) 算法以提高训练效率。
核心目标 ：旨在 注入“系统性地降低极端不确定性” 这种专有Agent系统（如 DeepResearch）所具备的 超人类推理模式 。它识别出现有开源Agent在处理 BrowseComp 等复杂、不确定性高的任务时的性能差距。
数据合成 ：引入了 SailorFog-QA ，通过对真实世界网站的随机游走生成互联知识结构中的子图，并进行信息模糊化处理，从而生成具有 高不确定性和难以降低不确定性 的复杂任务。它还通过从 LRMs 的成功轨迹中 重建简洁、面向行动的推理链 ，来克服 LRM 原生输出冗长和风格污染的问题。
训练策略 ：同样采用 两阶段后训练方法 ：
进步：在 BrowseComp-en/zh 等极具挑战性的基准上显著优于所有开源Agent，并能与专有Agent性能相媲美，显著缩小了能力差距。

WebShaper (Agent式数据合成通过信息搜寻形式化)

从基础的种子任务开始，并通过一个 Agent式扩展器（Agentic Expander） 进行多步扩展。
扩展器能够理解 KP 表示的任务形式化，并采用 分层扩展策略（Layer-wise Expansion Strategy） ，以减少冗余和推理捷径。它还具备自主检索知识和验证生成问答对的能力。
核心目标 ：提出一个 形式化驱动（Formalization-Driven）的信息搜寻数据合成框架 ，以克服现有“信息驱动”方法（如 WebWalker 和 WebDancer 的 CRAWLQA 部分）在信息结构与推理结构一致性以及问答对一致性方面的局限性。
数据合成 ：其核心是基于 集合论 构建的 知识投影（Knowledge Projections, KP） 概念，实现了对推理结构的精确控制。
训练策略 ：同样采用 SFT 后接 RL（使用 GRPO 算法）。
优势：通过形式化驱动的设计，WebShaper 能够： 拓宽任务覆盖范围、提高任务可控性、确保结构和答案的一致性 。其合成的数据在复杂推理链管理、多跳推理轨迹比例上表现出统计学上的显著优势。在 GAIA 和 WebWalkerQA 等基准测试中，WebShaper 在开源 IS Agent中达到了最先进的性能，甚至接近专有系统。

迭代和演进关系

这四篇论文代表了阿里巴巴在构建强大 Web Agent 方面的一个循序渐进、螺旋上升的迭代和演进过程 ：

WebWalker (奠定基石与提出挑战) ：

作为开端，WebWalker 首次系统性地提出了“Web 遍历”这一信息搜索任务 ，并构建了 WebWalkerQA 这一 基准测试 来衡量 LLMs 在此任务上的表现。
它通过其多Agent框架（探索者+评论家）证明了 RAG 结合垂直探索的潜力 。
WebWalker 指出了现有 LLMs 和传统搜索引擎在处理深度、多层信息时的局限性， 明确了后续研究需要攻克的难点 。

WebDancer (系统化训练范式与数据多样性) ：

WebDancer 响应了 WebWalker 提出的挑战 ，不再仅仅是基准测试，而是着重于构建 端到端的、可训练的 Web Agent 。
它 首次系统地提出了“数据中心”和“训练阶段”相结合的构建范式 ，特别是 SFT + RL 的训练流程，为后续的工作奠定了基础。
在数据方面，WebDancer 改进了 WebWalker 相对简单的数据收集方式，引入了 CRAWLQA 和 E2HQA ，旨在合成 更丰富、更具挑战性 的问答对，以训练Agent的 多轮信息搜寻能力 。这标志着从简单问答到复杂多步推理的数据合成方向的转变。

WebSailor (攻克极端不确定性与超人类推理) ：

WebSailor 进一步深化了对任务复杂度的理解 ，特别是识别出“极端不确定性”是当前开源Agent与专有系统之间的主要差距。
它在数据合成上进行了创新，提出了 SailorFog-QA ，通过 图结构采样和信息模糊化 来刻意制造难以降低不确定性的 “Level 3”任务 。这是对 WebDancer 现有数据合成方法在捕捉最高难度任务复杂性方面的 补充和提升 。
在训练上，WebSailor 优化了 RL 算法（DUPO）并强调了 RFT 冷启动的重要性，旨在 更有效地训练出能处理这种“超人类推理”模式的Agent 。这代表了模型能力从“有效信息搜索”向“在高度不确定性下进行策略性搜索和推理”的跃迁。

WebShaper (形式化驱动的数据合成与精确控制) ：

WebShaper 是对数据合成方法的又一次 根本性创新 ，它 批判性地审视了之前“信息驱动”的合成范式 （包括 WebWalker 和 WebDancer 的 CRAWLQA 部分），认为其可能导致结构和答案的不一致性。
它提出了 “形式化驱动”的范式 ，并基于 集合论 定义了信息搜寻任务的 “知识投影（KP）”形式化 。这使得数据生成过程具有 前所未有的精确控制力 ，能够系统性地生成具有特定推理结构和复杂度的任务，从而解决了冗余和推理捷径的问题。
WebShaper 的目标是生成 更高质量、更一致、更具可控性的训练数据 ，以更有效地 激活和提升 LLM 的深度信息搜寻能力 ，最终在各项基准上超越了 WebDancer 和 WebSailor，并接近了顶尖的专有系统。

总结

WebWalker 提出了 Web 遍历和深度信息搜索的挑战，并建立了初步的基准和框架。
WebDancer 提供了构建可训练 Web Agent 的 系统化训练流程 ，并扩展了数据合成的 多样性 。
WebSailor 专注于处理 极端不确定性 和实现 超人类推理能力 ，通过创新的数据合成方式提升了模型在最复杂任务上的表现。
WebShaper 则代表了 数据合成范式的根本性转变 ，通过 形式化设计 实现了对任务结构和复杂度的 精确控制 ，旨在生成最优化、最有效率的训练数据，进一步推动了 Web Agent 性能的边界。

这四项工作共同展现了阿里巴巴在 Web Agent 领域从提出问题、构建基准、到系统化训练、再到攻克难点和创新数据合成方法的持续投入和技术演进 。