发布时间:2024 年 12 月 20 日
Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents
大型语言模型(LLMs)推动了人工智能网络搜索代理的发展,与传统搜索引擎相比,基于 LLMs 的 AI 搜索代理能够更深入地理解和回应复杂查询,实现更精准的操作和更好的上下文识别。然而,中文网络搜索却未得到应有的关注,开源模型的能力未能得到统一和公平的评估。这一问题的难点在于缺乏统一的代理框架、准确标注的数据集以及合适的评估指标。为此,我们提出了一种基于层次感知导航的通用无训练网络搜索代理——Level-Navi Agent,并附带了一个标注良好的数据集(Web24)和一个合适的评估指标。Level-Navi Agent 能够通过复杂用户问题进行思考,并在互联网上跨多个层次进行搜索以收集信息。同时,我们在公平的设置下对最先进的 LLMs 进行了全面评估。为了进一步促进未来研究,源代码可在 Github 上获取。
https://arxiv.org/abs/2502.15690
添加请注明LLM
如遇无法添加,请+ vx: iamxxn886
一、为什么需要 Level-Navi Agent 技术?
1.1 从传统搜索引擎到 AI 搜索智能体的代际跃迁
在 2000 年代,传统搜索引擎如 Google 主要依赖关键词匹配来提供搜索结果。这种方式虽然简单直接,但无法理解复杂的查询意图。例如,如果你搜索“今年第 1500 亿个包裹的快递员所在公司的总部在哪里?”,传统搜索引擎可能无法给出准确的答案,因为它无法理解这个多跳问题(Multi-hop Questions)的逻辑链条。
到了 2020 年代,随着大语言模型(LLMs, Large Language Models)的出现,AI 搜索代理开始崭露头角。LLMs 能够理解自然语言,处理复杂的查询,并提供更准确的答案。然而,现有的 LLM 驱动的搜索代理通常需要微调或依赖高性能的闭源模型,这导致成本高昂,且难以大规模部署。
2023 年,Level-Navi Agent 应运而生。它通过层次化导航(Level-aware Navigation)技术,无需训练即可部署,能够高效解决复杂查询问题。例如,面对“今年第 1500 亿个包裹的快递员所在公司的总部在哪里?”这样的问题,Level-Navi Agent 能够逐步分解问题,通过多层次的搜索和推理,最终给出准确的答案。
1.2 解决行业难题
案例 1:传统搜索引擎无法处理多跳问题
传统搜索引擎在处理多跳问题时显得力不从心。例如,“今年第 1500 亿个包裹的快递员所在公司的总部在哪里?”这个问题需要先找到第 1500 亿个包裹的快递员,再找到其所在公司,最后确定公司总部的位置。传统搜索引擎无法理解这种复杂的逻辑链条,而 Level-Navi Agent 通过层次化导航,能够逐步分解并解决这类问题。
案例 2:现有 LLM 驱动的搜索代理成本高昂
现有的 LLM 驱动的搜索代理通常需要微调或依赖高性能的闭源模型,这导致成本高昂。例如,OpenAI 的 GPT-4 虽然性能强大,但其高昂的使用成本使得许多研究者和企业难以承受。Level-Navi Agent 无需训练即可部署,大大降低了使用成本。
案例 3:中文网络搜索缺乏统一的评估框架
中文网络搜索领域缺乏统一的评估框架和标注数据集,导致开源模型的能力未被公平评估。例如,现有的中文评估数据集如 CMMLU 和 AlignBench 虽然提供了一定的评估标准,但在网络搜索任务中仍显不足。Level-Navi Agent 提供了一个新的中文网络搜索数据集(Web24)和评估指标,能够更全面地评估 LLM 在中文网络搜索任务中的表现。
通过这些案例可以看出,Level-Navi Agent 不仅解决了传统搜索引擎和现有 LLM 驱动搜索代理的痛点,还为中文网络搜索领域提供了一个统一的评估框架,推动了该领域的发展。
二、Level-Navi Agent 技术解析
2.1 核心原理:层次化导航
想象一下,Level-Navi Agent 就像一个聪明的图书管理员。当你提出一个复杂的问题时,它不会直接冲向书架,而是先把问题拆解成多个小问题,然后逐层搜索,最终汇总出一个完整的答案。这种层次化的导航方式,不仅提高了搜索效率,还减少了不必要的计算成本。
技术架构
Level-Navi Agent 的核心由两个关键组件构成: Planning Agent 和 Level-Info Agent 。
- • Planning Agent :这个组件通过链式思维(Chain of Thought, CoT)来分解问题。当你提出一个问题时,Planning Agent 会像拆解拼图一样,把问题分解成一系列子问题。比如,如果你问“如何制作一个蛋糕?”,它可能会先问“需要哪些材料?”、“烤箱温度是多少?”等等。这种逐步分解的方式,确保了每个子问题都能被有效地处理。
- • Level-Info Agent :这个组件则负责动态模拟人类的信息获取过程。它不会一次性调用大量的 API,而是根据子问题的需要,进行多层次的搜索。比如,当 Planning Agent 提出“需要哪些材料?”时,Level-Info Agent 会先尝试从已有的知识库中获取答案,如果找不到,才会调用搜索引擎 API。这种策略不仅减少了 API 调用次数,还提高了搜索的灵活性。
2.2 开源地址
Level-Navi Agent 的源代码已经开源,你可以在 https://github.com/chuanruihu/Level-Navi-Agent-Search 上找到它。
三、Level-Navi Agent 应用评估
3.1 在 Web24 数据集上的实验结果
使用了 14 种不同的模型来运行 Level-Navi Agent,包括开源和闭源模型,其中,Qwen2.5-72B 和 Deepseek-V2.5 表现最佳。
3.1.1. 模型参数的边际递减效应
在同一个系列的模型中,参数越大,最终得分越高。但随着参数的增加,性能提升的幅度逐渐减小。例如,Qwen 系列模型从 3B 到 14B,参数增加了五倍,性能提升了约 6 分;而从 14B 到 72B,参数同样增加了五倍,性能仅提升了 3 分。单纯增加模型参数并不能线性提升性能,研究人员应更关注如何获取更高质量的信息源。
3.1.2. 少样本提示提升通过率
采用零样本、一样本和三样本提示方法:三样本提示方法显著提高了 Agent 的通过率。
对于某些模型,如 Qwen 系列模型中参数超过 7B 的模型,即使在零样本条件下,通过率也接近 1,这反映了模型本身的优越性能。因此建议在执行 Agent 任务时提供少样本提示,这种方法不仅简单且成本低,还能提升模型在各个方面的表现。
3.1.3. 中文原生模型在中文任务中的优势
Llama 系列的表现并不理想。这是因为 Agent 框架和数据集是围绕中文文本构建的。对于主要应用场景为英文的 LLMs,如 Llama,这可能导致性能损失。一定程度上证明了中文原生模型在中文场景中的真实能力和优势。
3.2 与其他产品的对比
比较了 Level-Navi Agent 与市场上的成熟产品。选择了两个知名的中文 LLM 服务提供商:Moonshot AI 的 Kimi 和字节跳动的 Doubao,同时还包括了 OpenAI 的 GPT-4o。所有上述产品都具备进行网络搜索的能力。从 Web24 数据集中随机选取了 100 个例子,在产品网站上获取答案,并使用 Qwen2.5-72b 作为执行模型。
如上图所示,使用圆形图比较了四个对象在正确性、相关性和语义相似性得分上的表现。
三个 LLM 服务供应商提供的产品之间差异不大。Kimi 在三个指标上略优于其他产品,但没有显著差距。Level-Navi Agent 在这三个指标上达到了与商业产品相同的水平,这足以证明 Level-Navi Agent 的良好性能。同时,任何用户都可以根据自己的情况随时切换使用的模型,使其更加灵活和成本效益高。
3.3 指标分析
3.3.1. 传统指标的局限性
上表展示了使用传统方法评估模型响应的结果。
使用中文分词器对模型的响应和真实答案进行分词,然后使用统计方法计算召回率和 F1 分数。通过比较和分析不同参数大小的 LLMs 在同一任务上的表现,发现了一个反直觉的现象: 模型参数的增加并不普遍导致 F1 分数的提高 ,相反,在某些情况下, F1 分数还会下降。同时,召回分数随着模型参数的增加呈现出明显的上升趋势。
网络搜索是一项复杂且开放的任务。尽管标注的答案已经包含了正确的关键信息,但 LLM 可能会根据上下文生成更多与问题相关的综合信息。对于 LLM 来说,这样做丰富了答案的深度和可信度。
然而,就 F1 分数而言, 较长的文本更容易导致分数与原始答案不匹配,从而导致分数下降 。从召回评估的角度来看,LLM 生成的相关文本越长,分数就越高,假设真实答案保持不变。
同样,对于 ROUGE 分数评估,上述原因也使得无法从分数中准确反映 LLM 的能力。这些现象都证明了传统指标的局限性。
3.3.2 新指标的有效性
从前面几个表可以看出,使用新指标,各种模型的性能分布与经验知识和常识一致。在正确性分数方面,模型参数大小带来的优势得到了清晰展示。同时,语义相似性分数和相关性分数一致反映了模型之间的能力差异。通过整体分数,任何人都可以直观地辨别模型之间的性能差异。这些发现有力地验证了我们指标的有效性。
因此,传统的基于 token 的评估方法在处理涉及总结多样化信息的网络搜索问答任务时,无法准确反映模型响应的质量。目前看来,使用人工评估或 LLM 评估可以更好地评估包含丰富相关材料和不同语义表达的模型响应。
3.4 错误分析与讨论
将通过实验数据进行错误分析,找出模型表现不佳的原因,并提供相应的改进建议。
3.4.1. 网络搜索功能使用中的过度自信现象
在上表中,GLM-4-9B 的得分低于预期。通过计算每个任务调用的平均搜索次数和实际的网络搜索功能调用次数,发现了这一现象的原因。
上图中,比较了 GLM-4 和 Qwen2.5-7B 在上述指标上的差距。Qwen2.5-7B 的功能调用率达到了 Agent 调用次数的约 90%,而 GLM-4-9B 的比率从 30% 下降到个位数百分比。鉴于数据集中 70% 的答案来自新闻来源,GLM-4-9B 不可能在不调用网络搜索的情况下正确回答。将这种现象称为“过度自信”。
LLMs 在训练过程中可能高估了自己的问答能力,忽视了在某些情况下需要外部资源。为了解决这种过度自信,建议开发者在训练数据集中平衡正例和负例,以提高 LLMs 的功能调用能力。
3.4.2 执行中文任务时的任务保真度低
在评估 LLM 代理时,优先考虑模型是否理解并遵循指令来回答问题。称之为“任务保真度”,它反映了模型在执行指令时的忠实度。相关性分数没有考虑模型响应的正确性,因此它可以反映端到端的任务保真度。
Llama3.1-8B 的相关性分数与其他模型相比表现不佳;相反,它们波动很大。在检查 Llama 3.1 系列模型的输出时,发现相当一部分响应没有完全遵循指令,有些错误地将给定的指令与答案混合在一起。
上表反映了这种不合规的响应。少样本方法的引入并没有改善 Llama3.1-8B 的这一问题,只有 Llama3.1-70B 有所改善。
将不合规的响应视为任务保真度低的表现。LLM 在冗长的中文上下文中难以把握指令的意图,这会极大地影响任务性能。开发者应确保较小的 LLMs 保持与较大模型相同的多语言能力。
- • 论文原文: https://arxiv.org/abs/2502.15690
- • 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- • 加入社群,+v: iamxxn886
- • 点击公众号菜单加入讨论