Agent智能体 | 对比阿里开源的3个Web智能体：WebSailor、WebDancer、WebWalker - 文章 - 开发者社区

引言

小伙伴们好，之前陆续介绍了阿里通义在Web Agent项目下发布的3个Web智能体：WebWalker、WebDancer和WebSailor。这三个项目都专注于提升大型语言模型（LLMs）在网页环境中的信息获取能力，但它们在技术侧重和演进路径上存在显著的异同点。今天这篇小作文主要是横向对比这3者的技术差异。后续会补充WebAgent项目发布的最新成果：WebShaper，感兴趣的小伙伴可以留意下。更多Agent智能体相关欢迎关注公众号"小窗幽记机器学习"：

三者的技术异同点

共同点：

基于ReAct框架 ：WebWalker、WebDancer和WebSailor都采用了ReAct（Thought-Action-Observation）框架，该框架将LLM的推理（Thought）与外部环境交互（Action）以及接收观察（Observation）紧密结合，以实现多步骤任务解决。这使得LLMs能够像人类一样进行多轮次的思考、行动和观察，以逐步完成信息检索任务。
聚焦信息检索任务 ：三者都致力于解决LLMs在从网页中获取信息方面的挑战，特别是针对传统搜索引无法有效处理的深层、多层信息。
使用"点击"（click）和"搜索"（search）工具 ：虽然描述略有不同，但它们都围绕智能体与网页的互动，例如点击链接进行网页遍历，以及利用搜索引擎进行信息检索。

不同点：

技术范式和训练策略 ：

WebWalker ：主要是一个 基准测试（benchmark） 项目，旨在评估LLMs在网页遍历方面的能力。其自身提出的WebWalker智能体是一个 多智能体框架（探索者Agent和评论员Agent） ，通过提示工程（prompting）来模拟人类网页导航。它没有涉及模型自身的微调或强化学习。
WebDancer ：提出了一个 数据驱动和训练阶段 的端到端范式，用于构建自主信息检索智能体。它包含四个关键阶段： 浏览数据构建、轨迹采样、监督微调（SFT）和强化学习（RL） 。这代表了从仅依赖提示到模型训练的重大转变。
WebSailor ：在WebDancer的基础上进一步发展，侧重于注入 超人类推理能力 ，以系统性地降低 极端不确定性 。它结合了 新颖的高不确定性任务生成（SailorFog-QA）、RFT冷启动和高效的Agentic RL训练算法（DUPO） 。WebSailor还强调了对推理轨迹的重建，以生成简洁、面向行动的思考，避免了LRM冗长的思考带来的上下文过载问题。

数据构建和任务难度 ：

WebWalker ：创建了WebWalkerQA基准测试数据集，包含680个问答对，重点评估LLM处理复杂、多步骤网页交互的能力。数据集区分了单源和多源问题，以及基于页面深度定义的难度级别（easy, medium, hard）。
WebDancer ：意识到现有数据集（包括WebWalkerQA）规模小且相对简单，提出了两种数据合成策略： CRAWLQA （通过爬取网页构建深度查询）和 E2HQA （通过将简单问题逐步转化为复杂问题）。目标是生成更长的网页探索轨迹。
WebSailor ：进一步将信息检索任务分为三个级别，并专注于解决 Level 3任务 ，即那些具有高不确定性且难以还原的复杂问题。它通过 子图采样和信息模糊化 来生成SailorFog-QA数据集，这些问题甚至比BrowseComp基准测试更复杂，需要更精密的推理。

评估基准 ：

WebWalker ：主要在 WebWalkerQA 上进行评估，并探索了与RAG的结合。
WebDancer ：在 GAIA 和 WebWalkerQA 这两个具有挑战性的信息检索基准上进行评估。
WebSailor ：在更具挑战性的基准如 BrowseComp-en/zh 和 Xbench-DeepSearch 上进行评估，也显示了在 GAIA 和 SimpleQA 等较简单任务上的兼容性。它特别强调了在BrowseComp上的表现，该基准被认为是衡量超人类推理能力的关键。

迭代和演进

这三个项目展示了清晰的迭代和演进关系，后续项目旨在解决前一个项目的不足，并形成互补：

WebWalker (发现问题与初步尝试) :

不足 : WebWalkerQA的引入揭示了LLMs在处理深层、多步网页信息检索时的挑战，即使是强大的LLM（如GPT-4o）在WebWalkerQA上的表现也远非最佳（低于40%的准确率）。这表明仅仅依靠提示工程（prompting）的智能体（如WebWalker）可能不足以解决此类复杂问题。它主要是一个评估工具，而不是一个完整的训练解决方案。
演进作用 : WebWalker作为第一个专门评估LLMs网页遍历能力的基准测试，为后续研究指明了方向，提出了垂直探索的重要性。

WebDancer (系统性训练的初步方案) :

解决WebWalker的不足 : WebDancer通过引入 数据构建和多阶段训练（SFT + RL） 的端到端管道，系统性地解决了WebWalker仅依赖提示的局限性。它认识到需要更高质量、更大规模的训练数据来提升智能体的性能，因此提出了CRAWLQA和E2HQA数据集来生成更长的探索轨迹。
互补性 : WebDancer在WebWalkerQA基准上的评估结果，以及它相对于仅使用ReAct和Reflexion等基线方法的显著性能提升，证明了其训练范式的有效性。它将WebWalker发现的挑战转化为可训练、可优化的智能体系统。

WebSailor (迈向超人类推理的高级方案) :

更深层次的任务复杂度 ：WebSailor明确指出WebDancer等现有开源智能体在BrowseComp等“Level 3”极端复杂任务上表现不佳，因为它们的数据集（如WebDancerQA）仍偏向简单。WebSailor通过 SailorFog-QA 引入了结构化复杂且信息模糊化的任务，旨在训练模型处理“极端不确定性”和超人类推理。这直接弥补了WebDancer在最高难度任务上的局限。
优化推理链 ：WebDancer尝试使用“Long CoT”来增强推理，但WebSailor指出LRMs（如QwQ-Plus）生成的冗长思考过程可能导致“风格污染”和“上下文过载”。WebSailor通过 重建简洁、面向行动的思考 来解决这一问题，从而更有效地进行微调。
更高效的RL训练 ：WebSailor提出了 DUPO 算法，它在DAPO（WebDancer中使用）的基础上，通过动态采样策略进一步提高了RL训练的效率，解决了智能体RL训练速度慢的问题。
解决WebDancer及其他开源智能体的不足
形成互补和超越 : WebSailor不仅显著超越了包括WebDancer在内的所有开源智能体在复杂信息检索任务上的表现，而且达到了与GroK-3、Doubao等专有系统相媲美的水平。这表明WebSailor成功地将开源模型提升到了一个此前只有闭源系统才能达到的能力水平。同时，WebSailor也证明了其在较简单任务上的向下兼容性，显示出其方法的通用性。

小结

总结来说，WebWalker是最初的挑战定义者和基准测试创建者。WebDancer在此基础上，为LLM智能体的信息检索能力提供了一个系统的训练和数据生成管道。而WebSailor则是在WebDancer的训练范式上进一步迭代和精进，专注于解决最顶级的、超人类难度的网页信息检索任务，通过创新数据合成和训练优化，成功缩小了开源智能体与顶尖专有系统之间的能力差距。它们之间的关系是递进和互补的，每个后续项目都吸收了前一个项目的经验教训，并针对其不足之处提出了更高级的解决方案。