- 引言
- 简介
- 方法
- WebWalkerQA基准测试
- WebWalker多agent框架
- 实验结果
- 总结
- 引言 =====
水天清话,院静人销夏。小伙伴们好,今天继续Agent智能体专题。前文已经介绍阿里通义实验室WebAgent项目中的两项成果:WebSailor和WebDancer。今天继续追踪其之前的工作成果:WebWalker。
随着大语言模型(LLMs)在自然语言处理任务中展现出令人瞩目的能力,如何将其知识库与外部动态信息相结合,成为了一个关键的研究方向。传统上,检索增强生成(RAG)通过集成外部搜索引擎来获取最新信息,但这种水平搜索(horizontal search) 往往难以触及网站内深层、多层次的内容。这限制了LLMs在需要深度信息获取和复杂交互场景中的效用。为解决这一挑战,阿里通义实验室提出了一个全新的Web Traversal(网络遍历) 任务,并引入了WebWalkerQA 基准测试和WebWalker 多agent框架,旨在评估和提升LLMs在复杂网络环境中的信息获取能力。
论文: https://arxiv.org/abs/2501.07572
GitHub仓库: https://github.com/Alibaba-NLP/WebAgent/
另外,最近(7月20日)WebAgent项目发布了最新成果:WebShaper,后续会补充解读,感兴趣的小伙伴可以留意下公众号"小窗幽记机器学习":
- 简介 =====
WebWalker这篇论文是WebAgent项目中最早的论文,该文章探讨了LLMs在网页遍历方面的能力,以解决传统搜索方法难以获取深层多层次信息的问题。它提出了一个用于评估LLMs网络遍历能力的基准——WebWalkerQA ,并引入了一个模拟人类网页导航的多agent框架WebWalker ,该框架通过探索-批判(explore-critic)范式进行工作。实验结果表明,WebWalkerQA极具挑战性,并且结合RAG与WebWalker在真实场景中的水平与垂直整合,显著提升了信息获取的有效性。
赶时间的小伙伴可以通过以下问答方式快速了解WebWalker这篇论文的核心:
Q1: 这篇文章想要解决什么问题? A1 : 该研究旨在解决LLMs及其RAG系统在获取和利用网站深层、多层次信息方面的不足 。
- 传统搜索机制在为大语言模型(LLMs)提供信息时存在局限性 。虽然检索增强生成(RAG)技术允许LLMs通过集成外部搜索引擎获取最新信息,但传统的在线搜索引擎(如Google或Bing)主要执行横向搜索,可能无法有效追踪网站内部的深层内容。这意味着LLMs难以处理复杂、多层次的信息,因为它们只能检索到浅层内容。
- 现有网络交互基准测试未能充分捕捉真实世界场景的复杂性 。之前的网络页面相关工作主要关注基于动作的请求(例如Mind2Web和WebArena),但这些HTML指令-动作基准面临信息过于嘈杂和输入过长等挑战,这会因长上下文理解的限制而严重影响性能。此外,它们未能捕捉到相关信息深埋在网页中并需要多层交互的真实世界场景的复杂性。
- LLMs在系统性地遍历网页以挖掘深层信息方面的能力不足 。
Q2: 这篇文章如何解决这些问题?
A2 : 文章提出了以下创新方法和框架。
- WebWalkerQA基准测试:一个专门用于评估LLMs在给定根网站上处理复杂、多步骤网页交互中嵌入查询的能力的基准测试。WebWalkerQA专注于基于文本的推理能力 ,并将action限制为“click”,以评估agent的导航和信息寻找能力。
- WebWalker多Agent框架:这是一个模仿人类网页导航的强大baseline,旨在通过垂直探索(vertical exploration) 模拟人类的网络导航行为。该框架由一个explorer agent(探索agent) 和一个critic agent(批判agent) 组成。
- Explorer agent :基于ReAct框架构建,利用thought-action-observation范式来导航和与网页交互。它通过与HTML按钮交互来探索子页面,每次接收网页当前信息和可点击子链接的观察,并选择一个URL进行探索。
- Critic agent :负责维护memory并根据explorer agent的探索生成响应。它在explorer agent每次执行后操作,接收查询和explorer的当前观察和action作为输入,然后更新memory,评估收集到的信息是否足以回答查询,并在信息足够时提供答案
- WebWalker与RAG系统结合:论文提出将WebWalker整合到标准RAG系统中,以获取深层信息并增强问题解决能力。这使得水平搜索(RAG)和垂直探索(WebWalker)相结合。
Q3: 文章所提出方法的效果如何?
- WebWalkerQA的挑战性 :实验结果表明WebWalkerQA是具有挑战性的。即使以GPT-4o作为backbone的最强WebWalker模型,其在WebWalkerQA上的整体准确率也未超过40%,进一步验证了WebWalkerQA的挑战性。随着深度增加或所需信息源数量增加,获取信息解决查询的难度增加,导致准确率下降。
- WebWalker的性能表现 :
- 在性能和效率方面, 闭源LLMs普遍优于开源LLMs 。
- 对于开源模型, 性能和效率随模型尺寸的增加而提高 。
- 所提出的 WebWalker框架整体优于Reflexion,而Reflexion又优于ReAct 。
- 当模型尺寸增大或引入对每个action过程的reflection时,能够解决需要多步骤的web traversal任务。
- 结合RAG系统的效果 :
- 增加action次数K的值 可以提高性能,验证了在一定范围内垂直扩展的可行性。
- 然而, WebWalker与RAG系统结合后,性能在所有难度级别上都有所提升,尤其是在多源类别中 。这证明了WebWalker作为Agentic RAG系统中模块的有效性,实现了垂直探索。
- 标准RAG系统在处理需要有效网页遍历的关键挑战时表现不佳。即使是性能最好的商业RAG系统(Tongyi),其准确率也仅达到40%。多源查询对搜索引擎而言更具挑战性。
Q4: 文章所提方法还有哪些不足?
- 数据集规模有限 :WebWalkerQA目前包含680对高质量的QA对,尽管与其他类似基准相比规模适中,但论文指出还拥有约14k未经人工验证的“银(silver)”QA对,这为未来作为补充训练数据提升agent性能留下了空间。
- 缺乏多模态环境支持 :当前工作仅利用HTML-DOM解析可点击按钮,但未利用截图等 视觉模态 作为感知输入,这可能提供更直观的帮助。
- agent调优不足 :WebWalker目前仅通过prompting驱动,未进行额外的训练。通过 agent tuning (如使用黄金轨迹进行微调)可以帮助LLMs更好地学习网络遍历行为。
- 与RAG系统集成有待深化 :尽管已展示了结合效果,但更佳的集成方式可以是首先在RAG系统内重写查询以优化搜索,将其指向可能包含相关信息的官方网站,然后由WebWalker提取有用信息,并将RAG检索到的知识和WebWalker挖掘的信息结合起来作为增强检索知识进行生成,以达到更好的结果。
- 推理能力仍需提升 :在一些案例中,即使agent找到了正确的页面,但由于无法正确处理时间计算或进行复杂推理,仍可能导致错误,这凸显了在某些情况下对页面信息进行推理的挑战。
- “不耐烦”现象 :较小参数的模型在使用ReAct框架时,在探索深度信息方面能力不足,在经过几次action迭代后,无论是否找到相关信息,都倾向于“放弃”并表现出“不耐烦”的特性。这表明长上下文中的噪音干扰和模型本身的固有能力限制了其表现。
- 方法 =====
论文主要围绕Web Traversal任务 及其解决方案:WebWalkerQA基准测试 和WebWalker多agent框架 展开。
- Web Traversal任务定义
- 给定一个初始网站URL
Uroot
和一个需要通过探索网站来回答的查询Q
。 - 任务目标是通过
页面遍历(page traversal)
收集足够的信息,最终回答查询
Q
。 - 核心在于导航网站以寻找相应信息。
WebWalkerQA基准测试
- 设计目的与特点 :WebWalkerQA专门设计用于评估LLMs处理复杂、多步骤网络交互中嵌入查询的能力。它强调基于文本的推理能力,并将agent的action限制为“click”,以更好地评估其导航和信息寻找能力,并与实际应用场景更吻合。
- 数据构成 :该基准测试包含了多源(multi-source) 和单源(single-source) 两种类型的QA对。
- 单源QA :模拟用户深入探索网页中隐藏的某一段信息。
- 多源QA :模拟用户需要依赖多个页面来解决查询的场景,这种查询通常难以被搜索引擎的快捷方式所利用。
- “多源”特指需要来自多个不同网页的信息。
- 领域与语言 :WebWalkerQA涵盖了会议(conference)、组织(organization)、教育(education)和游戏(game)四个真实世界领域。这些领域之所以被选择,是因为它们提供了相关领域的权威信息,并且其页面包含丰富的可点击内容,提供了可观的探索深度。此外,WebWalkerQA还是一个双语数据集 ,包含中文和英文内容。
- 难度级别 :问题被分为简单、中等和困难三个难度级别,根据查询所需信息的深度(
i
值)或关联子页面深度的总和来界定。例如,单源2、单源3和单源4分别对应简单、中等和困难;多源2-4、多源4-6和多源6-8也对应相应的难度级别。
- 数据收集流程 :采用两阶段的“漏斗式”标注策略,结合了LLM辅助和人工标注,以确保数据质量和效率。
- 步骤1 :递归遍历官方网站,收集可访问子链接及其对应页面的信息。
- 步骤2 :基于提供的页面信息和特定角色(例如关注单个页面或同时考虑多个页面)构建查询。
- 步骤3 :验证并过滤不符合自然人类语言习惯的查询,仅保留答案为实体的短答案QA对。
- 第一阶段(LLM-based Annotation) :利用GPT-4o进行初步标注。
- 第二阶段(Human Annotation) :人工标注者对LLM生成的合成查询进行改写和校准,确保QA对的正确性和一致性。
Figure 2:WebWalkerQA 的数据生成流程如下:首先在会议、组织、教育和游戏等领域收集官方网站的主页。然后,通过系统性地点击主页上的子链接,模仿人类的浏览行为,收集可访问的子页面。接着,利用预设规则,借助 GPT-4o 基于收集到的信息生成合成的问答对,并通过人工审核以确保其准确性和相关性。
- 总规模 :最终数据集包含 680个 高质量的QA对,来自 超过1373个 网页。
WebWalkerQA的评估从性能和效率两个方面进行:
- 性能指标 :采用 问答准确率(acc.) 。
- 效率指标 :采用 成功Agent执行的action计数(A.C.) 。
由于生成文本长度的变化,精确匹配评估具有挑战性,即使答案被控制为短答案。该研究使用GPT-4作为评估器 ,通过CoT(Chain-of-Thought)prompting策略比较预测答案与真实答案的正确性。
WebWalker多agent框架
WebWalker是一个多agent框架 ,由explorer agent 和critic agent 组成。它通过“思考-行动-观察”(Thought-Action-Observation, T,A,O)范式模拟人类的网页导航行为。 WebWalker框架如Figure 4所示。
- Explorer Agent(探索agent) :
- 功能 :主要负责通过与网页上的HTML按钮进行交互来探索子页面。
- 输入
:在每个时间步
t
,explorer agent从网络环境接收一个**观察(Observation)O_t
**,该观察包括当前页面的信息p_t
和一系列可点击的子链接l_t
(每个链接包含HTML按钮信息和相关URL)。 - 行动(Action)
:行动
A_t
涉及选择一个子页面的URL进行探索,不包括直接回答问题。论文利用 Beautiful Soup 提取的网页markdown内容和可点击的HTML按钮(及相应URL)作为当前页面的观察。 - 上下文(Context)
:
H_t
代表了当前步骤t
之前的所有观察和行动序列。 - 探索过程 :这个探索过程会持续进行,直到critic agent决定回答查询,或者达到最大行动步数(实验中限制为15步)。
- Critic Agent(批判agent) :
- 功能 :在explorer agent每次执行后进行操作。
- 输入
:接收查询
Q
以及explorer agent当前的观察O_t
和行动A_t
。 - 记忆管理(Memory Management)
:初始化并
增量式地累积相关信息
到其记忆
M
中。这是其在处理长上下文任务中有效记忆管理的关键。 - 决策与响应
:评估所收集的信息是否足以完整回答查询。一旦认为所需信息充足,它就会提供答案。引入critic agent旨在解决探索agent策略的隐式性以及
H_t
可能过大带来的挑战。
- 实验结果 =======
通过在WebWalkerQA基准上对所提出的WebWalker框架进行广泛实验,并与现有SOTA agent框架进行对比,验证了其有效性和WebWalkerQA的挑战性。
- 实验设置
- 基线模型 :选择ReAct(一种结合LLMs推理和行动的通用范式)和Reflexion(一种通过反馈强化语言agent的单agent框架)作为基线。
- backbone LLMs :选择了9个具有至少128K上下文窗口和7B参数的模型,包括闭源LLMs(GPT-4o、Qwen-Plus)和开源LLMs(Qwen2.5系列模型:Qwen2.5-{7,14,32,72}B-Instruct)。
- 实现细节 :所有模型在 zero-shot 设置下运行,explorer agent的最大行动步数(K)限制为15。
- 评估指标 :使用 问答准确率(acc.) 作为性能指标, 成功agentic执行的行动计数(A.C.) 作为效率指标。GPT-4被用作评估器来判断回答的正确性。
- 主要结果(表3,图5)
- WebWalker表现优异 :WebWalker框架在整体表现上 优于Reflexion,而Reflexion又优于ReAct 。这表明其多agent协作和垂直探索机制的有效性。
- 闭源LLMs性能领先 :GPT-4o和Qwen-Plus等 闭源LLMs 在准确率和效率方面均 优于开源LLMs 。
- 模型规模效应 :对于开源模型,随着模型尺寸的增加,性能和效率也随之提升,这表明 更大的LLMs具有更强的长距离信息寻找能力 。图5清晰展示了随着模型增大,准确率和行动计数(即有效探索的持续时间)的提升。
- WebWalkerQA的挑战性 :即使是使用GPT-4o作为backbone的最佳WebWalker模型,其整体准确率也未能超过40%。这凸显了WebWalkerQA作为一个基准的巨大挑战性。
- 信息深度与准确率 :随着所需信息深度或来源数量的增加(例如从单源到多源,或难度从易到难),获取信息以解决查询的难度也随之增大,导致准确率下降。
- 跨领域与语言的结果(图6)
- 领域表现 :在 会议(conference)领域 ,WebWalker框架表现相对优异,这可能归因于该领域网页中按钮信息的 明确性和指导性 ,从而更容易进行推断。
- 语言表现 :该框架在 中文和英文 网页上的表现相似,这得益于所使用的backbone模型在双语环境下进行了预训练和监督微调。
- 错误评估(图7)
- 错误类型包括:拒绝回答或定位错误、推理错误、超出最大步数K。
- “不耐烦”现象 :参数量相对较小的模型,特别是使用ReAct框架时,缺乏探索深层信息的能力,往往在仅几次action迭代后就做出判断,无论是否找到相关信息,表现出“放弃”或“不耐烦”的特性。这证实了长上下文中的噪音信息干扰和模型固有能力的局限性。
- 推理错误 :某些情况下,即使模型已访问到包含答案信息的页面,但仍因推理错误而导致答案不正确。这强调了在复杂场景下对页面信息进行推理的挑战。
- RAG系统在WebWalkerQA上的性能(表4)
- 静态知识的局限 :在“Close Book”(无检索)设置下,即使是GPT-4o和Gemini-1.5-Pro等最强模型也表现非常差。这是因为WebWalkerQA构建于动态更新信息的官方网站上,而预训练模型依赖于静态的、有截止日期的知识。
- RAG系统挑战 :商业和开源RAG系统在WebWalkerQA上表现相对较差,最佳结果来自Tongyi,但也仅达到40%的准确率。
- 水平搜索的不足 :多源查询的准确率低于单源查询,这进一步验证了WebWalkerQA的挑战性,因为传统搜索引擎难以通过单次或几次水平搜索检索到所有相关信息。性能也随着信息深度的增加而下降。
- 发现(一) :RAG系统在处理需要有效网络遍历的核心挑战上存在不足。
- WebWalker与RAG系统结合的性能(图8)
- WebWalker可无缝集成到标准RAG系统中,以获取深层信息并增强问题解决能力。
- 将WebWalker(基于Qwen-2.5-Plus)集成到Naive RAG系统后, 性能在所有难度级别上都有所提升 ,特别是在多源类别中表现更为显著。
- 发现(二) :WebWalker可以作为agentic RAG系统中的一个模块,实现 垂直探索 。
- Action计数K的扩展性研究(图9)
- 通过改变最大行动步数K的值(从5到25),研究了其在推理阶段追踪源信息的影响。
- 结果显示, K值越大,性能越好 ,这验证了在一定范围内垂直扩展的可行性。
- 发现(三) :通过深入链接进行“挖掘”的过程,代表了RAG系统中垂直探索的一个潜在方向。
- 总结 =====
WebWalker这篇论文引入了WebWalkerQA ,这是一个用于评估LLMs在复杂、多步骤信息寻找任务中网络遍历能力的挑战性基准测试。同时,提出了WebWalker ,一个通过探索-批判(explore-critic)范式模拟人类网络导航的多agent框架 。实验证明,WebWalkerQA有效地挑战了LLMs和RAG系统,并且将RAG与WebWalker结合 显著提高了网络导航的性能。文章中强调了在基于网络的任务中进行深度、垂直探索的重要性 ,为更具可扩展性和可靠性的基于LLM的信息检索与RAG集成铺平了道路。
结合论文中指出的不足和实验发现,未来可以从以下几个方面进行改进和探索:
-
数据集扩展与质量提升 :在现有高质量QA对的基础上,进一步利用14k“银”QA对,通过更细致的人工验证和校准,扩充数据集规模,为agent的训练提供更丰富的数据。
-
引入多模态信息 :当前WebWalker主要基于HTML-DOM解析可点击按钮。未来的研究可以探索整合 视觉模态 (如网页截图),使agent能够利用视觉信息进行更直观和准确的导航和理解。
-
agent调优与学习 :目前WebWalker以 zero-shot 方式驱动。可以通过 agent tuning ,例如使用“黄金轨迹(golden trajectories)”对LLMs进行微调,使其学习更有效的行动策略,从而在信息寻找任务中表现更佳。
-
RAG系统深度集成 :进一步优化WebWalker与RAG系统的集成方式。例如,在RAG系统内部首先对查询进行重写,以更精准地定位到可能包含相关信息的官方根URL,然后调用WebWalker进行深度信息提取,并将RAG检索到的知识和WebWalker挖掘的信息结合起来,作为增强的检索知识进行生成,以获得更优结果。
-
强化推理能力 :针对实验中发现的“推理错误”问题,未来工作应专注于提升agent的复杂推理能力,例如处理时间计算或跨页面信息整合的逻辑推理。
-
优化agent行为 :解决较小模型在面对长上下文时表现出的“不耐烦”和过早“放弃”的问题,通过改进agent的memory管理机制或引入更鲁棒的探索策略,确保其能更彻底地探索信息深度。
-
垂直扩展规律探索 :继续深入研究action计数K对性能的影响,探索LLMs在 垂直探索 中的 缩放法则(scaling laws) ,为未来构建更高效、可扩展的RAG系统提供理论和实践指导。