- 引言
- 简介
- 方法
- 信息搜索形式化
- 数据合成流程
- 实验结果
- 总结
- 引言 =====
之前已经陆续介绍阿里WebAgent项目下的3个Web智能体:WebWalker、WebDancer和WebSailor及其总结对比:阿里开源的3个Web智能体:WebSailor、WebDancer、WebWalker。今天继续介绍WebAgent项目下的最新成果:WebShaper。剧透下:WebShaper的核心贡献是数据合成方案,而非模型。纵观各类先进的前沿技术方案,数据的自动化合成实际上占据着举足轻重的地位。
LLM 驱动的agent已彻底改变了人工智能领域,它们通过模仿人类的web信息搜索(information-seeking, IS)能力,为解决复杂的、开放式任务提供了革命性的方案。这种能力不仅支撑了agent在开放任务中的适应性,也驱动了OpenAI的Deep Research、Google的Gemini和Perplexity等强大的商业系统。然而,高质量训练数据的稀缺性 一直是制约IS类 agent发展的重要瓶颈。传统的agent开发流程通常依赖于构建任务特定的问答轨迹,然后通过监督微调(SFT)和策略强化学习(RL)来获取并泛化agent的技能。因此,构建高质量的训练数据成为开发有效IS类agent的基石。
论文: https://arxiv.org/abs/2507.15061
GitHub: https://github.com/Alibaba-NLP/WebAgent
数据集: https://huggingface.co/datasets/Alibaba-NLP/WebShaper
- 简介 =====
阿里巴巴这篇论文提出了一种名为WebShaper 的形式化驱动(formalization-driven)信息搜索(IS)数据合成框架 ,旨在解决当前LLM驱动的agent在信息搜索能力发展中面临的高质量训练数据稀缺性问题。
该框架系统性地利用集合论 对IS任务进行形式化,其核心是知识投影(Knowledge Projections, KP) 的概念,通过KP操作组合实现对推理结构的精确控制。在数据合成过程中,WebShaper首先创建种子任务 ,然后通过一个多步扩展过程 进行迭代。在每一步中,一个具备自主能力的agentic Expander 模块会根据形式化定义,利用检索和验证工具 将当前形式化问题扩展得更加复杂。通过在合成数据集上训练模型,实验结果表明WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS agent中取得了最先进的性能(SOTA) 。
赶时间的小伙伴可以通过以下QA问答形式快速了解WebShaper的核心:
Q1: WebShaper想要解决什么问题?
A1: 文章旨在解决以下几个核心问题:
- 信息搜索agent高质量训练数据稀缺 的问题。现有的数据集往往规模有限或过于简化。
- 现有数据合成方法(通常是信息驱动型)存在局限性,即信息结构与推理结构之间存在不一致性 ,以及问题与对应答案之间存在不一致性 。这导致LLM在理解信息结构时可能出现偏差,生成不连贯的问题或错误的答案。
- 现有方法进行无序的信息检索会导致数据处理量过大,并收集到冗余的同质信息结构 ,从而限制了信息结构的多样性,降低了知识覆盖范围。
Q2: WebShaper如何解决这些问题?
A2: 文章提出了WebShaper 框架来解决上述问题,其创新点主要体现在:
- 引入了形式化驱动的数据合成范式 。与以往先收集信息再生成问题(信息驱动)不同,WebShaper首先形式化信息搜索任务 ,然后系统地指导数据合成过程。这是该领域首次基于集合论推导出IS任务的形式化定义。
- 核心是知识投影(Knowledge Projections, KP) 的概念。 KP是信息搜索任务中的基本单位,通过KP操作(R-Union ∪ 和 Intersection ∩)的组合 ,实现对推理结构的精确控制和系统化的任务生成。
- 设计了一个agentic Expander模块 。该Expander模块能够自主地根据形式化要求进行基于互联网的知识收集 、新形式化问题的构建和验证 ,以及最终问题的生成 。
- 提出并实现了分层扩展策略(Layer-wise Expansion Strategy) 。通过图表示,该策略可以避免现有方法中可能出现的信息冗余 (如无关常数连接)和推理捷径 (如常数直接连接目标变量)问题。
Q3: 所提出方法的效果如何?
A3: WebShaper方法在多个基准测试中展现出卓越性能:
- 在GAIA和WebWalkerQA基准测试中,WebShaper战胜所有开源IS agent系统,取得了最先进的性能 。例如,WebShaper-72B在GAIA上的表现优于第二名WebSailor 4.7分,并且已接近SOTA的闭源系统OpenAI DR 。
- 在所有模型骨干(Qwen-2.5-32B, Qwen-2.5-72B, QwQ-32B)上,WebShaper均能提升训练agent的性能 ,证明了其合成数据对不同模型的通用性。
- 强化学习(RL)训练 显著提升了模型性能,在GAIA上,32B模型提升了+7.8分,72B模型提升了+13.5分,这表明RL在激活LLM高级信息搜索能力方面的关键作用。
- 形式化语言(FL)合成的数据集始终优于自然语言(NL)合成的数据集 ,这表明形式化能有效减少合成过程中的错误传播,提高问题和答案的一致性和精确性。
- 分层扩展策略 被证明能有效缓解冗余和推理捷径,进一步提升了最终性能。
- 工具调用分析 显示,WebShaper生成的任务需要更多的搜索和访问操作,展现出更复杂的推理链和知识导航能力。
Q4: 文章所提方法还有哪些不足?
A4: 尽管WebShaper取得了显著进步,但仍存在一些潜在的改进空间:
- 与顶级闭源agent的差距: 尽管WebShaper在开源agent中表现最佳,并且已经接近OpenAI DR等闭源SOTA系统,但仍存在一定的性能差距。这可能意味着在数据规模、模型架构优化或更复杂的agent推理能力激发方面仍有提升空间。
- 形式化表示的普适性: 当前的IS任务形式化是基于集合论推导的。虽然这提供了强大的控制和系统性,但并非所有现实世界中的信息搜索任务都能被完全或高效地通过简单的集合操作来表达。未来可以探索更丰富的形式化语言或结合其他逻辑系统,以覆盖更广泛、更细致的IS场景。
- 种子问题构造的效率: 种子问题的过滤过程仍需对每个问题进行多次(5次)rollout并验证至少一次正确回答,这虽然确保了质量,但也可能增加生成开销。未来研究可以探索更高效或更智能的种子问题生成和筛选机制。
- 对外部工具的依赖: WebShaper的agentic Expander和数据构造agent都依赖于外部工具(如Google Search和Jina),这意味着其性能受限于这些外部工具的能力和它们所能访问的实时web内容。
更多Agent智能体相关可以留意公众号"小窗幽记机器学习":
- 方法 =====
WebShaper的核心在于其形式化驱动的信息搜索(IS)任务数据合成范式 。
2.1 信息搜索形式化
WebShaper首次基于集合论 对信息搜索任务进行了形式化。一个IS任务 q(T)
的目标是搜索给定事实引导的知识和信息,以找到目标实体集合 T
。示例如Figure 3 所示(图中2999写错了,应该是1999):
q(T) =Which player of a team in the 2004-05 season, who was born in 90s?
This team is founded in 1966 and is an East German football team.
为了解决这个问题,首先需要查找相关信息:该球队成立于1966年,是一支东德足球队,由此可以得知该队是柏林迪纳摩足球俱乐部(Berliner FC Dynamo)。接下来,需要分别查找2004年和2005年柏林迪纳摩队的球员名单,并筛选出出生于90年代的球员,然后推理得出答案 T = {Robert Rudwaleit, Danny Kukulies, ...}
。
设
表示实体的全集(例如,球员、球队、年份)。设
表示实体对的一个子空间,其中实体对之间存在某种关系。例如,如果关系是bornIn
,那么 R 表示所有(person, year)
对,其中person
出生于该year
。
对于一个子集
和一个子空间 R,定义一个知识投影(Knowledge Projection,简称KP):
例如,当 R 表示关系为 bornIn 的实体对时,R({90s})
代表所有在90年代出生的人的集合。KP(知识投影)是在一个特定关系下与其他实体相关的实体集合,它是信息检索任务中的基本单元。KP 有两种操作:
- -Union
:在信息检索(IS)中,由于目标的不确定性,问题可能会寻求一个更广泛的条件。例如,只知道目标球员在2000-2010年之间打球,而不是预先知道确切的年份。这个条件不能比一个年份范围更具体。因此,给定实体集
、
和关系 R,那么:
,表示实体与 S1
、S2
...Sm
中任一实体有关系。如果 R 代表关系playAt
,那么在2000-2010年间效力的球员集合是:
- Intersection
:用于表示目标必须同时满足多个条件的情况。例如,
表示实体同时满足与不同关系
相关的条件。例如,如果 R1 是关于 playAt(效力于),R2 是关于 bornIn(出生于),那么
代表在2000年打球并且出生在90年代的球员。基于 R-并集和交集操作,引入信息检索(IS)任务的形式化定义。首先,将 T 定义为一个目标集:
表示实体集,
可以通过将
替换为其他目标集来递归导出,如下所示:
再次强调下,KP是实体在与某些其他实体存在特定关系下的集合,是IS任务的基本单位。IS任务定义 :目标集合
可以由KP操作递归地推导出来。一个IS任务
就是找到
包含哪些实体,表示为:
论文提供了一个详细的足球队球员搜索例子,并展示了其形式化表示。
2.2 数据合成流程
数据合成从构建种子任务开始,然后通过多步扩展进行,并由形式化定义指导。
2.2.1 种子问题构建
- 首先通过下载所有Wikipedia文章URL并保留超链接构建一个 离线Wikipedia数据库 。
- 通过这些链接进行 随机漫步 ,聚合文章内容。
- 利用LLM从聚合内容中生成 问答对 ,确保问题完全基于收集到的内容,不依赖外部知识。
- 为确保质量,采用过滤流程:使用WebDancer框架和QwQ模型对种子问题进行5次rollout,并保留至少有一次正确回答的问题,最终构建了1.8万个种子问题。
2.2.2 Agentic 扩展(Agentic Expansion) 种子问题通过一个agentic Expander 逐步扩展为更复杂的问题,扩展过程由任务形式化方法引导,其过程可以形式为
。
上述IS 任务形式化较为复杂。递归的本质以及多种操作的组合,使得模型在合成过程中难以理解。此外,由于合成过程依赖于在线检索新知识,还涉及知识筛选与选择等多个中间环节。因此,建立了 Agentic Expansion 方法。首先,引入 KP 表示法,以便于清晰理解 IS 任务形式化。随后,提出分层扩展策略(Layer-wise Expansion Strategy),以缓解冗余和推理捷径带来的局限性。扩展的核心在于 Expander,其本身是一个智能体,能够自主检索信息并验证生成结果。
1、KP表示(KP Representation) :为了让Expander agent更好地理解复杂的IS形式化,引入了KP表示。该表示法的关键在于:1)能够表示一个 KP 单元;2)能够处理 R-Union 和 Intersection 操作;3)能够处理 KP 的递归。
- 常量(Constant) :通过元素明确定义的
子集,例如
、
。
- 变量(Variable) :元素未明确给定的
子集,作为符号占位符。
- 三元组表示 :一个KP
被表示为 [X, r, S]
,其中 r
是关系名,X
是变量,S
可以是变量或常量。变量使用 V@
前缀,常量使用 C@
前缀。例如,
表示为 [@V, bornIn, 90s]
。
- 操作表示 :Intersection 自然地表示为三元组列表
。R-Union 通过合并集合表示,利用分配律
。对证明过程感兴趣的小伙伴可以查阅原始论文。KP 的 R-Union 可通过合并集合
来表示。在实际操作中,集合的并集可以通过归纳的方式表达。这样,最终的表示只包含三元组之间的交集。
- 递归处理 :通过将递归的KP(如
)扁平化为KP的交集来处理,例如
。最终,一个 IS 任务
可以用三元组列表来表示。例如,最开始示例中的问题可以表示为:
2、分层扩展策略(Layer-wise Expansion Strategy) : 在表示完
之后,接下来详细说明每次迭代中的扩展过程。扩展策略是数据合成的关键。与以往在自然语言层面合成或扩展问题的方法相比,IS 任务的形式化能够系统性地分析结构化问题的特征。
- 将KP表示视为一个图结构,节点为变量和常量,边为关系。上述示例问题可以如Figure 4 中图结构表示。
Figure 4:不同扩展范式下的结构示意图。(a)随机结构 表示通过随机添加常量进行扩展。(b)顺序结构 是在推理链上顺序扩展。(c)分层结构 则是分层遍历叶子常量,并将其替换为变量。“Target”表示目标变量,“Variable”表示中间变量,“Constant”是 KP 表示法中的常量。
- 现有随机或序列扩展方法会导致冗余 (常数连接其他常数,不增加推理链)和推理捷径 (常数直接连接目标,模型可能直接猜测答案)。
- 提出分层扩展:层层遍历图以找到所有叶子常量 。Expander每次选择一个叶子常量,将其转换为一个与新节点连接的变量节点。然后将由此形成的新子问题合并到当前问题中。这种策略确保了扩展后的问题具有相同的答案,并避免了冗余和推理捷径问题。扩展层数是一个超参数,用于控制任务覆盖和难度。
3、Expander Agent :
- 一个基于ReAct框架(Thought-Action-Observation循环) 的自主agent,用于迭代式优化问题生成。
- 配备的工具:
- Search
:进行Google搜索,通过查询常量
c
获取相关文档,支持时间过滤,返回URL和摘要。 - Summarize :访问多个URL,汇总内容以获得一个联合常量集,用于R-Union操作。
- Validate
:验证派生的子问题是否与常量
C
一致(类型匹配)以及是否过于简单(LLM能否直接回答)。
2.2.3 轨迹构建
- 在扩展问题生成完成后,构建完成任务的轨迹。使用基于QwQ且结构上与Expander对齐的agent框架,采用ReAct范式。
- agent配备 Search 和 Visit 两种外部工具。Search用于Google搜索,Visit用于提取指定网页信息。
- 对每个输入问题执行5次rollout。
- 设计过滤策略确保轨迹质量: 正确性 (通过judge LLM检查最终答案,移除工具调用错误)和 质量 (过滤掉幻觉或严重重复的轨迹)。
- 最终获得5000条轨迹用于后续的SFT和RL训练。
2.2.4 Agent训练
- agent的训练分为两阶段: 监督微调(SFT) 和 强化学习(RL) 。
- SFT
:给定轨迹
T
,通过掩盖观测(observation)部分的loss来训练模型。 - RL :在SFT基础上,使用 GRPO算法 进一步优化策略模型。
- 实验结果 =======
WebShaper在GAIA和WebWalkerQA两个信息搜索基准测试上进行了广泛实验。评估使用Pass@1指标,并采用LLM-as-Judges范式。
1、主要结果 (Table 1, Figure 1):
- WebShaper在所有开源IS agent中表现最佳 。在GAIA上,基于Qwen-2.5-72B的WebShaper实现了 60.1% 的平均得分,明显领先于其他开源方法,并接近最先进的闭源系统OpenAI DR(67.4%)。
- 在WebWalkerQA上,WebShaper也取得了 52.2% 的最高得分。
- 实验结果表明,WebShaper在不同骨干模型上都展现出优异的性能,证明了合成数据的通用性。
Figure 1:在 GAIA 信息检索子集上的前沿 Deep Research 模型或系统的结果。带 * 号表示使用了两种浏览工具(通过函数调用 API 实现)的结果。
2、讨论 :
- 数据统计 (Figure 5):WebShaper数据集的 领域分布广泛而全面 ,覆盖体育、学术、政治、娱乐、文学、文化、经济、技术、历史和医学等多个主题领域。这种平衡的设计确保了数据集的显著多样性,避免了对单一领域的过度依赖,适合训练领域无关的信息搜索agent。
- 数据对比 (Table 2):与WebWalkerQA、E2HQA和MHQA等基线数据集相比, WebShaper数据集在所有骨干架构上(Qwen-2.5-32B, Qwen-2.5-72B, QwQ-32B)均表现出卓越的SFT性能 。这验证了形式化驱动数据合成作为IS任务训练数据解决方案的有效性。
- RL效果 (Figure 6):实验结果表明,在RL训练后,Qwen2.5-32B和Qwen2.5-72B模型在GAIA和WebWalkerQA上的性能均有显著提升(例如,GAIA上32B模型提升7.8分,72B模型提升13.5分)。这强调了RL在激活LLM高级信息搜索能力方面的关键作用,WebShaper引入的任务复杂性也刺激了RL过程中的动态IS策略。
- 形式化验证 (Figure 7a):使用形式化语言(FL)进行数据合成的模型在所有骨干模型中均优于使用自然语言(NL)的变体 。这表明形式化语言能够缓解自然语言带来的局限性,合成更多形式的任务,并减少合成过程中的错误传播,从而产生更一致和精确的问答对。
- 分层扩展策略验证 (Figure 7b):分层扩展策略在所有基线模型中均优于顺序扩展结构 。这证明了该方法有效缓解了冗余和推理捷径等缺点,并通过可控的结构提升了最终性能。
- 工具调用分析 (Figure 8):
- 搜索复杂度 :WebShaper在需要超过3次搜索操作的任务中表现出显著的长尾分布,这是其他数据集的3-4倍,表明其对需要迭代细化的信息密集型查询有卓越处理能力。
- 知识导航 :访问操作分布显示,WebShaper在超过3步的轨迹中保持高比例,而其他数据集在10步后急剧下降,反映了其在IS任务中增强的导航智能。
- 复合推理 :在总工具调用方面,WebShaper的调用次数超过3次的比例翻倍,并能维持高达30次工具调用的非零比例,展示了对高度复杂复合推理任务的可扩展性。
- 案例研究 (Figure 9, Figure 10):案例分析展示了WebShaper合成数据如何避免冗余信息和推理捷径,确保模型必须严格地进行信息搜索和推理才能找到答案。R-Union的有效应用也增加了数据解决变量的难度。
- 总结 =====
本研究提出了一种范式转换的框架WebShaper ,通过形式化驱动的设计 来合成信息搜索(IS)agent的训练数据。通过建立基于集合论 的IS任务数学形式化,WebShaper成功解决了现有信息驱动方法中结构不一致、任务不可控、多样性和覆盖率不足等关键局限。论文所提出的知识投影(KP)及其操作组合 ,能够精确地工程化推理结构和复杂性。此外,agentic Expander模块 与分层扩展范式 相结合,通过自主知识检索和严格验证,确保了形式化任务的系统性扩展,同时最大限度地减少了冗余并防止了推理捷径。
实验结果有力地证明,WebShaper不仅在GAIA和WebWalkerQA基准测试上取得了最先进的性能 ,而且引入了对任务设计的可控性 ,从而能够有意识地为IS agent工程化认知挑战。这种形式化驱动的范式将重心从被动的信息组织转向主动的任务规范 ,为推动agent能力的发展开辟了新途径。
未来可改进的方向或要点包括:
-
深化形式化语言的表达能力 :虽然当前基于集合论的形式化取得了成功,但可以探索结合更多数学或逻辑概念,以表示更复杂、更开放的信息搜索场景,进一步缩小与人类复杂推理的差距。
-
提升数据生成效率与规模 :优化种子问题构造和agentic Expander的内部机制,以在保证数据质量的同时,提高数据合成的速度和规模,满足更大规模LLM训练的需求。
-
强化agent的自我迭代与泛化能力 :除了依赖合成数据进行训练,可以进一步研究如何让agent在真实环境中进行更深层次的自我学习和适应,例如通过更复杂的在线强化学习范式或持续学习机制,使其能更好地应对动态变化的web信息。
-
多模态信息搜索的融合 :将当前的信息搜索形式化扩展到包含图像、视频等多模态信息的搜索任务中,使agent能够处理和理解更丰富的数据形式。