InfoDeepSeek：面向动态Agent信息获取的新型基准测试与评估框架！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

检索增强生成（RAG）通过结合检索到的信息来提升大语言模型（LLM）的响应质量。作为一种新兴范式，AgentRAG通过将自主LLMAgent引入信息获取过程，进一步优化了这一流程。然而，现有的基准测试在评估此类系统时存在不足，因为它们局限于静态的检索环境，采用固定且有限的数据集以及简单的 Query ，无法激发Agent的行为。

此外，它们的评估协议通过预定义的文档黄金集来衡量信息获取的有效性，这使得它们不适用于开放且动态的现实世界网络环境。

为弥补这一差距，作者提出了InfoDeepSeek，这是一个包含挑战性问题的全新基准测试，旨在评估现实世界动态网络环境中的Agent信息获取能力。作者提出了一种系统化方法来构建满足确定性、难度和多样性标准的挑战性 Query 。

基于此，作者开发了首个针对动态Agent信息获取的评估框架，其中包括关于信息获取结果准确度、效用性和紧凑性的细粒度指标。通过在LLM、搜索引擎和不同问题类型上的广泛实验，InfoDeepSeek揭示了Agent行为的细微差异，并为未来研究提供了可行的见解。

1 引言

尽管在各种领域展现出卓越的能力，大语言模型（LLMs）仍然存在事实性幻觉[16, 28]、知识过时[12]以及实时信息获取受限[40]等问题。为应对这些挑战，检索增强生成（RAG）[4, 5, 62]已成为一种有前景的解决方案，使LLMs能够通过检索外部信息来增强其响应。RAG通常包含三个阶段：检索、增强和生成[42, 5]。前两个阶段——检索相关文档和选择有用证据——构成了信息获取过程。传统RAG系统依赖静态工作流程，而近期在 Agent 式RAG[42, 39, 37, 14]方面的进展将自主LLM Agent 集成到RAG流程中，允许动态规划、搜索和反思以支持更灵活和稳健的证据获取。该范式已应用于实际系统，包括OpenAI[33]、Gemini[9]和Perplexity[44]中的深度研究功能，其中 Agent 会迭代地从实时网络中搜索和综合信息。

Agent 的引入主要转变了RAG的信息检索过程，而生成步骤基本保持不变，即基于外部信息进行响应。

因此，评估Agentic RAG的一个核心目标应该是评估 Agent 式信息检索的有效性。严格的基准测试和评估对于量化这些改进、识别潜在弱点以及指导更强大的 Agent 式系统的开发至关重要。然而，现有的RAG基准测试在这方面是不充分的，如图1所示。首先，大多数基准测试局限于静态环境[58, 2, 27, 43]，具有固定且有限的知识库。这种设置无法反映真实世界网络环境的规模和动态性，其特征是文档量巨大、内容漂移、URL衰减以及搜索引擎结果的频繁波动。因此，这些基准测试与 Agent 式RAG系统在部署中必须管理的操作复杂性不一致。此外，静态基准测试依赖于预先定义的ground-truth文档和传统指标，如NDCG[58]。相比之下，网络的开放性使得预先确定黄金证据集变得困难，从而使得这些指标不适用。这为评估动态环境中信息检索的质量提出了重大挑战。其次，现有的基准测试在问题复杂性方面往往存在不足。它们中的许多 Query 相对简单，可以直接由具有参数化知识或单轮搜索的LLM回答[48, 20, 43]。这些问题无法引出核心的 Agent 式行为，例如规划、多轮工具使用以及跨越多份证据的推理，因此它们无法有效地评估 Agent 式信息检索的有效性。

picture.image

为解决上述局限性，作者提出了InfoDeepSeek，这是一个针对真实网络环境下Agent信息检索的基准，包含具有挑战性的问题和新颖的评价指标。首先，作者介绍了一套构建具有挑战性 Query 的标准和系统化方法，旨在评估Agent信息检索。作者手动策划并验证了245个高质量问题，每个问题都经过精心设计，以展示以下特性：

确定性：每个问题都有一个清晰、唯一且时间上稳定的答案。

难度：这些问题有意设计得对大语言模型（LLMs）具有挑战性，即使使用单轮网络搜索也无法轻易解决。这突显了多轮 Agent 信息搜索能力的需求。

多样性：问题涵盖了各种领域、主要语言和属性，例如多跳、长尾、新鲜度、时效性、干扰信息和错误前提。

基于此，作者开发了一个智能信息检索系统，该系统整合了多种搜索和浏览工具，应用于实时网络环境。面对这样一个嘈杂且动态的环境，作者提出了一套细粒度的评估指标和协议，用于动态评估信息检索的有效性。作者的评估指标包括答案准确率、信息准确率、信息紧凑度和有效证据利用，为Agent的信息检索能力提供了全面的视角。作者进一步在多个维度上进行了实证评估，包括不同的LLM、搜索引擎和问题类型，揭示了Agent在复杂和动态环境下的行为。作者的主要贡献如下：

作者介绍了一套构建具有挑战性的 Query 的标准和系统化方法，并提出了一个新的基准测试InfoDeepSeek，用于在现实环境中评估Agent信息搜索。作者相信这些原则和方法可以迁移并有助于RAG基准测试AIAgent的研究社区。

作者提出了一种 Agent 式检索增强生成（Agentic RAG）框架，并配套了首个细粒度评估指标和协议，用于评估动态环境中的信息获取有效性。作者对不同大语言模型（LLMs）、搜索引擎和问题类型下的 Agent 进行了全面比较，识别了它们的局限性，并指明了未来研究的方向。

2 相关工作

自主式RAG。RAG已成为提升LLM事实准确性和时效性的关键技术[4, 5, 62, 22, 38, 52, 49, 63]。为克服传统RAG系统（依赖静态工作流且常难以处理复杂任务[42]）的局限性，自主式RAG范式将Agent引入RAG流程[42, 39, 37, 14, 21, 61]。这些Agent支持多轮、深入且动态的信息检索，增强了系统在复杂场景中的性能与适应性。值得注意的是，该范式已开始在实践应用中日益普及[33, 9, 44]，例如OpenAI的Deep Research[33]、Gemini[9]和Perplexity[44]均采用Agent辅助用户完成多步骤信息检索任务。

RAG基准测试。早期的RAG研究依赖于问答基准测试，例如NQ [20]、TriviaQA [18]和MS MARCO [30]进行评估。随着LLM知识的快速进步，最近的用于事实性问答的RAG基准测试开始转向更具挑战性的场景和任务，例如多源信息[2, 58]、噪声[2]、多跳推理[43, 15, 47]、长尾知识[58, 13]、长文档[36]以及随时间变化的答案[48, 2]。然而，如表1所示，大多数基准测试仍然依赖于静态环境，具有有限的数据集或有限的问题复杂性和多样性[58, 2, 43, 20]。相比之下，作者的工作专注于在动态、真实世界的环境中评估 Agent 的信息获取能力，并针对具有挑战性的问题进行评估。

picture.image

RAG的评估涉及信息检索和生成阶段[38]。大多数基准测试包括评估生成质量，即答案准确性[51, 58, 2, 54, 48, 43, 64]。部分研究评估信息检索质量，但它们都采用检索指标在静态环境下进行评估，且预设了已知真实文档[43, 27, 38]，这在没有固定已知真实文档的动态环境中并不适用。因此，作者提出了一种新的动态环境下的信息检索质量评估框架，该框架包含了相关性、效用性和紧凑性等维度。

3 问题表述与AgentRAG框架

给定用户 Query

，Agentic RAG的目标是通过在开放环境中迭代搜索和浏览，获取长度为

的证据集

，并生成一个近似真实答案

的响应

。遵循RAG[42]的三阶段框架，即检索、增强和生成，作者实现了一个针对真实世界网络环境的定制化Agentic RAG系统。需要注意的是，作者主要关注信息获取过程的基准测试（即检索和增强阶段），因为这是LLM Agent 引入RAG流程时主要发生转变的组成部分。

检索阶段。在接收到输入 Query

后，Agent启动一个关于如何从网络中获取信息的规划过程

。然后，Agent发起一个最多包含

步的信息获取轨迹。在每一步

，Agent都会根据当前观察

及其记忆（即之前的轨迹）

来更新其计划

。基于该计划，Agent选择工具（例如搜索引擎、浏览器、时间相关工具或终止操作），并执行一个产生下一个观察的动作：

，例如从网络中获取信息。这里作者支持一些主流搜索引擎，如Google、Bing、Yahoo、DuckDuckGo，以及基于Selenium的网页浏览。这个信息获取循环会持续进行，直到Agent获取到足够的信息可以终止操作，或者达到步数限制

。这个阶段生成一个观察序列。

，代表从网络中检索到的内容。

增强阶段。鉴于前一阶段检索到的内容可能存在大量和噪声， Agent 执行内容过滤和蒸馏。它选择并总结最相关的文档，生成一个集中的证据集

。 Agent 将确定集合

的大小

并按重要性对

中的证据进行排序。通常，作者仅规定

不得超过一个最大数

，通常根据先前工作 [34] 设定

。

生成阶段。最后， Agent 基于精选内容

和 Query

生成响应

，即

Generate

。关于llm-InfoDeepSeek_2505的更多细节在附录A中提供。

4 数据集构建

本节概述了作者用于构建用于评估Agent信息获取能力的具有挑战性的数据集的标准和方法。更多详情请参见附录B。

4.1 Query 标准

确定性与可验证性。与具有固定语料库和信息的静态RAG设置不同，现实世界环境中的信息在不断变化。因此，在这种情况下，问题必须保持稳定性和可验证性，以允许一致和可靠的评估。为此，作者收集具有明确、无歧义且时间不变的答案的事实性问题，这些答案可以通过公开可用的网络资源进行验证。这确保了即使在动态环境中也能进行稳健的评估。

难度。如果一个问题可以通过LLM的内部知识或单轮搜索的LLM解决，那么它未能激活 Agent 的真实能力。因此，作者专注于那些LLM无法通过单轮搜索回答的问题。为了实施这一约束，作者应用了难度过滤，排除了主流LLM（例如GPT-4o [17]和DeepSeek-R1 [10]）能够通过单轮搜索正确回答的问题。此外，作者结合了各种难度属性，并在表2中展示了它们的定义和比例。请注意，一个问题可以包含多个属性，因此它们的比例之和并不等于1。

picture.image

属性、领域和主要语言的多样性。每个 Query 都设计为捕捉表2中至少两种属性的组合，以确保涵盖现实世界的信息检索挑战。作者还确保领域多样性，包括但不限于体育、政治、科学、历史、地理、音乐、文学、艺术、电影、游戏和新闻。此外，作者考虑主要语言，在特定语言中准确信息更容易获取的情况。虽然作者数据集中的所有问题都提供英文和中文两种版本，但作者包含那些答案主要用其他语言（如日语、法语、韩语、意大利语或冰岛语）记录的 Query 。这鼓励 Agent 表现出更现实、语言感知的搜索行为，并由于网络的多元语言特性而创造了额外的挑战。

4.2 数据集构建方法

为了实现上述标准，作者开发了一套用于问题生成的实用启发式方法和工作流程，如图2所示。作者首先从网络资源中提取知识，基于这些知识生成草拟问题。然后，这些草拟问题会经过两个关键的过滤阶段：确定性检查和难度检查。通过这两个过滤器的问题将被保留为候选问题，并随后进入多阶段验证过程。通过迭代标注和细化，作者开发了一套实用的方法和指南，这些方法和指南生成的问题符合作者的标准。更多细节请参见附录B。

picture.image

基于事实的 Query 草拟。为确保每个问题都有可验证的答案，标注行人被鼓励采用逆向构建策略——从权威且多样化的网络资源中的已知知识出发，构建一个具有唯一答案的问题。标注行人必须参考可信的网络内容，例如官方网站、学术出版物或多语言维基百科条目，以验证事实准确性和答案唯一性。

从 Anchor 知识扩展。在数据收集过程中，作者观察到许多看似复杂的问题，涉及多跳推理、涌现事实、时间敏感性或错误前提，仍然可以通过基于其知识或单轮搜索的大语言模型（LLMs）来解决。为此，作者识别出 Anchor 知识，通常是指长尾知识和干扰信息，这些知识对于LLMs来说，如果没有更深入的搜索很难正确回答。许多此类 Anchor 知识可以源自低资源或非主流语言来源。一旦作者找到一个或多个困难的 Anchor 知识，作者通过将其与更普通的知识组合，或通过将它们与额外的难度属性链接起来，进一步增加其复杂性。通过这种方式，这些问题不仅需要更深入的检索，还要求在嘈杂或模糊的内容中进行规划、消除歧义和推理。

多样性。为增强数据集的覆盖范围，作者采取主动策略来多样化 Query 。标注行人被引导贡献针对较少覆盖的属性、领域或主要语言的提问。此外，从 Anchor 知识出发，作者可以引入多跳推理，将其与新的属性、领域或语言联系起来。例如，给定关于萨拉托夫国立农业大学创始人的长尾事实，作者可以探索创始人的其他身份（例如，农学家、政治领袖），将其与不同领域联系起来。这种组合方法使作者能够系统地增加数据集的复杂性和多样性。

确定性筛选与难度筛选。在确定性检查中，每个草稿问题都会与多个独立来源进行交叉引用，以验证答案的正确性。标注员确保：(1) 答案在给定 Query 的情况下是唯一正确的，(2) 答案不是时效性的或容易随时间变化的。对于难度检查，作者使用GPT-4o和DeepSeek-R1在支持网络的单轮搜索环境中评估每个草稿问题。如果两个模型都能正确回答问题，作者会丢弃该问题。这确保了只有那些需要更深层次信息检索行为的挑战性问题被保留用于基准测试。

多阶段验证用于可靠性。为确保数据质量并符合作者的标准，每个问题都经过两阶段审核流程。每个 Query 由两位标注员独立验证，他们评估其正确性、确定性、难度和规范性。然后由第三位仲裁者就问题是否合格进行最终决定。

对于每个经过验证的问题

，作者记录其真实答案

、支持性来源网页

以及标注的元数据，例如难度属性、领域和主要语言。通过七位标注者的努力，作者收集了245个经过验证的数据条目，涵盖了14个领域和19种主要语言。关于数据统计的更多详细信息在附录B.4中提供。

5 评价指标与评估

本节介绍了作者的评估框架，更多细节请参见附录C。

5.1 指标

在此，作者定义了四个核心指标，不仅评估最终答案的准确性，还评估Agent的信息。

信息检索能力以从嘈杂的来源中搜索、提取和优先排序相关信息。

作者将答案生成阶段记为

，通常由大语言模型（LLM）实现。

回答准确率（ACC）指的是基于所有观测值

生成的答案是否与真实答案

相符，即

，其中

是指示函数，用于判断

和

是否相同，由第5.2节中的裁判大语言模型实现。这是一种不考虑增强阶段的粗粒度正确性指标。

信息准确性

衡量信息获取过程中获得的证据质量。在开放网络环境中，由于内容易变性和来源多样性，预先定义真实文档是不可行的，而多跳问题可能涉及不同的信息来源。相反，作者通过动态评估增强阶段中问题的前

项证据

是否足以回答问题来评估证据质量。具体而言，作者从前

项证据

生成答案，即

，并计算

。更高的

意味着更好的证据相关性。

有效证据利用（EEU）衡量Agent从噪声观测值

中提取相关信息并形成证据集

的能力。它定义为所有前

子集（

）中最佳可实现的准确率与所有观测值的答案准确率之间的比值，即

EEU显著低于I表明Agent的证据选择次优，关键信息可能被隐藏或遗漏。

信息紧密度（IC）量化证据集

的信息密度。理想的Agent应收集简洁、高质量的证据，并尽量减少噪声或冗余。作者首先定义每个 Query 的信息紧密度

为：

其中

表示证据集的长度（最多为

），

是用于回答 Query 的人工标注的标准源网页集合，

是惩罚常数（通常对于回答失败，

）。使用

，IC 可以定义为

。当

时，表明Agent找到了紧凑的来源（覆盖多个跳）或成功利用了先验知识来减少证据依赖。当 $\mathbf { I C }

1$ 时，意味着过度检索或证据过滤不佳，即使它们正确回答了问题，也包含了冗余或不相关的内容。

5.2 评估

作者提出的指标高度依赖于判断LLM生成的答案

和

在语义和事实上是否与真实答案

一致。已有研究表明，基于LLM的评估器可以在事实性问答中紧密逼近人类判断[58, 57]。基于这些发现，作者采用人工评估（human-eval）和基于LLM的自动评估（auto-eval）来评估答案的一致性。具体而言，作者主要采用两个LLM评估器，DeepSeek-V3（deepseek-chat）[3]和Gemini-2.0-Flash（gemini-2.0-f1ash-preview-04-07）[6]，以减少ego偏好偏差[35]，遵循[58]的方法。如果两个评估器产生矛盾的判断，作者将诉诸第三个仲裁者，GPT-4o-mini（gpt-4o-mini-2024-07-18）[31]或人工标注员，并报告多数投票决策。

基于LLM的评估通常具有可靠性，但在错误前提问题中，作者观察到一种常见的失效模式，即LLM评估者往往无法识别 Query 中的错误假设。为缓解这一问题，作者明确标注此类真实答案

，并添加类似“此问题包含错误前提：..”的声明，使前提违规变得明确。此外，作者为错误前提问题和其他问题设计了独立的评估 Prompt ，以鼓励评估者适当调整其判断。在作者的实验中，与人工评估相比，该策略将LLM的评估准确率从

提升至

。更多细节请参见附录C.2。

6 基准测试 Agent 信息获取

6.1 实验设置

作者在作者的Agentic RAG框架下评估了一系列闭源和开源的大语言模型（LLMs），包括GPT-4o（gpt-4o-2024-08-06）[17]、o3-mini（o3-mini-2025-01-31）[32]、Claude-3.7-Sonnet（c1aude-3-7-sonnet-20250219）[1]、DeepSeek-V3（deepseek-chat）[26]、DeepSeekR1（deepseek-reasoner）[10]、Gemini-2.5-Flash（gemini-2.5-flash-preview-04-17）[7]、Gemini-2.5-Pro（gemini-2.5-pro-exp-03-25）[8]、Llama-4-Maverick-17B-128E-Instruct [29]和Qwen3-32B [45]。对于Qwen3-32B，作者测试了其思考模式（Qwen3-32B w/ think）和非思考模式（Qwen3-32B w/o think）。除非另有说明，检索阶段的最大步数

为5，增强阶段中证据集

的最大长度为5

，因为支持性源网页

的长度通常在1到3之间。默认搜索引擎为DuckDuckGo，因其具有开放的可访问性。更多详情请参见附录D.1。

在作者的实验中，在评估特定的LLM时，作者会在所有阶段使用该LLM，包括检索、增强和答案生成，以计算ACC和

，即

。作者还探索了不同答案LLM对

的影响，其中信息寻求和生成使用不同的LLM。这些结果在附录D.6中提供。

6.2 在不同的大语言模型、搜索引擎和问题属性上的基准测试

不同的LLM。表3展示了基于不同LLM的Agent在作者的基准测试InfoDeepSeek上的性能，突出了其对智能信息搜索任务的挑战性。首先，SOTA LLM在智能信息搜索任务上的表现并不理想。表现最佳的模型Gemini-2.5-Pro在ACC指标上仅达到22.45%，在IA@5指标上仅达到21.63%。这一结果凸显了任务的复杂性，即使是性能最强的模型也难以在具有挑战性的 Query 中提供准确的答案。其次，针对推理和信息检索进行优化的LLM表现优于其他模型。DeepSeek-R1的性能优于DeepSeek-V3，O3-mini的性能优于GPT-4o，这表明推理模型在智能信息搜索任务中往往表现更佳。此外，专门针对搜索和深度研究场景进行优化的Gemini-2.5-Flash和Gemini-2.5-Pro与其他模型相比，展现出更好的性能。

picture.image

在信息质量

方面，大多数模型在

上的表现不佳，因为许多 Query 需要多个来源才能提供正确答案。单个文档通常不足以完全回答问题。随着

的增加，作者观察到一种初始改善随后下降的趋势。这可能是由于后期检索来源中无关或分散注意力的信息的影响，突出了在选取相关证据时有效增强的重要性。

有效证据利用（EEU）大多低于1，表明大多数大语言模型（LLMs）难以从检索阶段检索的大量信息中提取有用证据。关于信息紧凑性（IC），大多数模型在其响应中表现出显著冗余。这主要是由于检索成功率低以及对不相关信息依赖度增加所致。成功率较高的模型通常冗余度较低，这表明通过更好的信息提取减少不相关证据对于提升性能至关重要。

不同搜索引擎。为更好地理解不同搜索引擎对信息获取性能的影响，作者通过固定Agent并改变搜索引擎进行控制实验。具体而言，表4展示了在四个搜索引擎（DuckDuckGo、Google、Bing和Yahoo）下，两个代表性大语言模型（LLM）DeepSeek-V3和Gemini2.5-Flash的信息获取性能结果。首先，搜索引擎显著影响Agent信息获取的性能。Google和Yahoo始终优于Bing和DuckDuckGo，而DuckDuckGo得分最低。这突显了搜索引擎质量在支持高效Agent信息获取中的重要性。通用型搜索引擎（如Google和Yahoo）提供更广泛的覆盖范围和更高质量的结果，更适合作为AgentRAG系统的信息入口。其次，良好的搜索引擎可以部分弥补模型局限性。虽然DeepSeek-V3在信息获取任务中通常表现不如Gemini-2.5-Flash，但与Google结合使用时，其性能显著提升，准确率（ACC）达到28.57%，缩小了与Gemini的差距。这表明获取高质量检索结果对推理能力较弱的模型尤为有益。有趣的是，使用DuckDuckGo时EEU往往更高。然而，这可能是检索质量差的副作用：当大多数检索内容无关时，识别少量有用内容也可能导致更高的利用率。这进一步强调了选择强有力的证据来源以支持稳健答案生成的重要性。

picture.image

不同问题的属性。为了进一步了解Agent在哪些方面表现成功或遇到困难，作者分析了不同问题属性下的性能表现。图3(a)和(b)展示了在不同搜索引擎下不同大语言模型的表现，而图3(c)呈现了DeepSeek-V3在不同搜索引擎下的结果。更多结果可在附录D.2中找到。首先，大语言模型和搜索引擎在较简单的问题属性上表现更佳，例如错误前提、时间敏感性和新鲜度，而在多跳、长尾和干扰信息问题上的表现较差。这与作者在数据收集过程中的观察相符，长尾和干扰性问题通常包含难以理解的实体，这些实体本质上就难以通过 Agent 进行信息搜索。作者的基准测试中的多跳问题通常是组合性的，经常结合长尾和干扰性信息，从而增加了其难度。其次，推理增强型大语言模型在基础模型上表现出明显优势，但这些优势主要在较简单的问题属性上有所体现。在多跳或长尾等较难的问题属性上，大语言模型（例如DeepSeek-R1和Gemini-Pro）的性能提升有限。这表明当前的大语言模型，即使经过推理优化，仍然严重受检索质量和网络信息噪音的限制，尤其是在面对Sparse或误导性信息时。最后，谷歌在各个属性上带来了更均衡和稳健的性能，表明谷歌具有更高的信息覆盖率和相关性。综合来看，这些发现表明，虽然大语言模型和Agent的能力至关重要，但检索源质量仍然是解决复杂信息搜索任务中的主导因素。

picture.image

6.3 深入分析

测试时缩放用于 Agent 信息搜索。 Agent 的一个关键特征是其性能随着测试时可用计算量的增加而提升。为了研究这一点，作者通过改变检索阶段的最大步数

从 1 到 20 来分配不同 Level 的计算资源给 Agent ，并将结果展示在图4 中。如图所示，随着

的增加，两个模型在 ACC、

和 IC 方面均表现出显著提升，表明存在明显的缩放效应。这表明通过增加信息搜索的测试时计算量可以提升 Agent 的性能，使其能够优化搜索并收集更多证据，随着额外计算资源的分配。更多细节请参见附录 D.3。

picture.image

检索干扰。在作者的实验中，作者观察到一种显著现象：某些问题可以通过大语言模型的参数化知识正确回答，但在执行基于网络的检索后，同一模型却无法回答这些问题。作者将这种行为称为检索干扰，即外部信息引入了混淆或使模型偏离其原有的正确推理。为了量化这种效应，作者定义了一个名为干扰率的指标，该指标是模型在未检索时正确回答的问题比例，但在检索后回答错误的问题比例，相对于模型最初未检索时正确回答的问题总数的归一化值。图5(a)展示了DeepSeek-V3和Gemini-2.5-Flash在不同搜索引擎上的干扰率。作者发现检索干扰现象普遍存在，这表明低质量或边缘相关的网络内容往往可以覆盖或稀释模型的内部置信度，导致性能下降。为了缓解这一问题，未来的系统应探索保留模型对准确内部知识置信度的方法，并开发更精确的检索策略以避免引入误导性信息。更多结果和潜在解决方案参见附录D.4。

picture.image

语言影响。作者还研究了语言对自主信息检索过程的影响。对于中文和英文，作者采用了中文和英文版本的 Prompt 和 Query 。作者的实验表明，LLM用于 Query 搜索工具的搜索关键词与输入语言高度一致。对于主要语言，作者在直接将 Prompt 和 Query 转换为相应语言版本时面临挑战。因此，作者采用了一种语言感知 Prompt ，明确指示 Agent 在检索阶段使用主要语言（附录D.5）。图5(b)中的结果展示了几个重要趋势。首先，在大多数指标上，英语始终优于中文。这可能是由于英语内容覆盖范围更广以及英语搜索工具的广泛性。其次，主要语言 Prompt 产生了最佳结果。这表明利用语言感知检索策略可以提高 Agent 获取和利用高质量、领域相关内容的能力。

7 结论与局限性

本工作介绍了InfoDeepSeek，一个用于评估动态网络环境中 Agent 式信息搜索的新型基准，解决了现有基准局限于静态环境和简单 Query 的限制。作者提出了一种构建满足确定性、难度和多样性标准的挑战性 Query 的方法。

此外，作者设计了针对动态环境下 Agent 式信息搜索的综合评估的细粒度评估指标。然而，作者当前的数据集依赖于手动构建，成本高且耗时。在未来的工作中，作者计划探索一种结合自动数据收集和人工验证的方法，以降低成本并扩展数据集。

InfoDeepSeek：面向动态Agent信息获取的新型基准测试与评估框架 ！

1 引言

2 相关工作

3 问题表述与AgentRAG框架

4 数据集构建

4.1 Query 标准

4.2 数据集构建方法

5 评价指标与评估

5.1 指标

5.2 评估

6 基准测试 Agent 信息获取

6.1 实验设置

6.2 在不同的大语言模型、搜索引擎和问题属性上的基准测试

6.3 深入分析

7 结论与局限性