深度研究智能体离真正实用还有多远?OPPO团队揭示14种核心失败模式
笔者读了下这个篇论文,确实非常细致地总结了当前DeepResearch常见的问题,如果不想读论文,小编整理了一个表格(DeepResear失败模式的分类体系),下面是省流版,
DEFT (Deep rEsearch Failure Taxonomy)
| 核心维度
(Level 1) | 代码 | 细分模式名称
(Level 2) | 现象定义与描述 | 典型特征 | | --- | --- | --- | --- | --- | | 一、推理层
(Reasoning)
大脑与规划
| 1-1-FUR | 需求理解失败
Failure to Understand Requirements
| 智能体未能正确解读用户的核心意图或上下文需求,仅关注表面关键词,导致产出偏离目标。 | 审题不清
答非所问 | |
| 1-2-LAD | 分析深度不足
Lack of Analytical Depth
| 未能探究复杂问题的底层机制或结构性约束,仅依赖浅层逻辑或简化框架,分析缺乏严谨性。 | 浮于表面
缺乏洞察 | |
| 1-3-LAS | 分析范围局限
Limited Analytical Scope
| 面对多维任务时认知视野受限,分析局限于部分维度,无法捕捉整体结构或跨维度的关系。 | 视野狭窄
盲人摸象 | |
| 1-4-RPS | 规划策略僵化
Rigid Planning Strategy
| 坚持固定的线性执行计划,无法根据中间检索结果或反馈动态调整策略,导致错误传导。 | 不知变通
一条道走到黑 | | 二、检索层
(Retrieval)
手眼与获取
| 2-1-IIA | 外部信息获取不足
Insufficient Info Acquisition
| 未能主动获取必要的外部信息,过度依赖模型内部训练知识(幻觉高发区),导致内容过时或缺乏实证。 | 搜不到/懒得搜
吃老本 | |
| 2-2-IHD | 信息处理缺陷
Information Handling Deficiency
| 即使搜到了信息,也未能正确提取、筛选或利用关键信息来满足细节要求。 | 抓不住重点
信息遗漏 | |
| 2-3-IIF | 信息整合失败
Information Integration Failure
| 在处理多源信息时,未能解决事实冲突或逻辑矛盾,导致输出包含不一致的数据或观点。 | 逻辑打架
前后矛盾 | |
| 2-4-IRM | 信息表征错位
Info Representation Misalignment
| 未能根据需求区分信息的权威性,例如用低质量信源(营销号)支撑专业论点。 | 信源引用不当
权威性缺失 | |
| 2-5-VMF | 验证机制缺失
Verification Mechanism Failure
| 在生成前未对关键信息进行交叉核对,导致直接采纳了错误的检索结果或幻觉。 | 不查证
轻信错误信息 | | 三、生成层
(Generation)
表达与输出
| 3-1-RCP | 冗余内容堆砌
Redundant Content Piling
| 缺乏实质性内容时,通过堆砌重复信息或车轱辘话来填补篇幅,制造"详尽"的假象。 | 注水严重
废话连篇 | |
| 3-2-SOD | 结构组织混乱
Structural Organization Dysfunction
| 缺乏整体协调性,章节之间割裂,未能平衡各维度的覆盖面,输出碎片化。 | 逻辑混乱
结构松散 | |
| 3-3-CSD | 内容规范偏差
Content Specification Deviation
| 输出不符合特定的行业标准、文风、格式或语气要求(如将学术报告写成博客)。 | 格式不对
不专业 | |
| 3-4-DAR | 缺乏分析严谨性
Deficient Analytical Rigor
| 忽视任务可行性,省略不确定性说明,使用模糊语言,或在无证据支持下过度自信。 | 盲目自信
缺乏严谨度 | |
| 3-5-SCF | 策略性内容捏造
Strategic Content Fabrication
高危模式
| 为了营造"学术/专业"的假象,编造看似合理但不存在的术语、方法论、数据或参考文献。 | 一本正经胡说八道
伪造证据 |
一、研究背景:深度研究智能体的理想与现实
任务定义
深度研究智能体(Deep Research Agents, DRAs) 旨在自动化生成分析师级别的研究报告,通过迭代式的信息检索和综合分析来完成复杂的研究任务。这类系统需要具备网络规模的信息搜索、数据检索和内容合成能力,能够产出传统上需要数小时人工劳动才能完成的综合性报告。
研究动机
尽管深度研究智能体在学术研究、商业情报和知识管理等领域展现出巨大应用潜力,但它们在实际报告生成任务中仍然表现不佳 。主要问题包括:
- 现有基准测试的局限性 :大多数基准测试都是针对问答(QA)任务设计的,无法充分捕捉实际深度研究场景中对报告质量、准确性、深度和逻辑连贯性的严格要求
- 任务复杂度不足 :许多开放式基准的任务来自大语言模型驱动的采样或合成,导致与人类实际需求存在偏差,复杂度不够
- 评估指标主观性强 :由于研究报告的动态特性,现有基准采用基于作者经验或领域知识的主观评估指标,不同基准使用不同的度量标准,缺乏统一标准
核心贡献
为解决这些问题,OPPO AI智能体团队提出了两大创新工具:
- FINDER(Fine-grained DEepResearch bench) :一个细粒度基准测试,包含100个专家精心策划的研究任务和419个结构化检查清单项,标准化了报告结构、分析深度和事实依据
- DEFT(Deep rEsearch Failure Taxonomy) :首个 针对深度研究智能体的失败分类法,包含14种细粒度失败模式,涵盖推理、检索和生成三个核心维度
如图1所示,FINDER通过明确的指导实现了更结构化和可复现的评估。
二、相关工作:从封闭式问答到开放式报告生成
封闭式评估的局限
早期深度研究智能体的工作主要采用面向通用人工智能(AGI)的数据集作为评估基准,最具代表性的包括GAIA和HLE。随着领域发展,研究者提出了各种专门化基准测试。
然而,这些数据集虽然具有挑战性,但都属于封闭式评估 ,具有标准答案。它们忽视了报告生成的评估,与深度研究的实际需求不匹配。
开放式基准的探索
相比之下,开放式基准将深度研究视为没有唯一解决方案的任务:
- DeepResearch Bench :包含100个博士级问题,涵盖22个领域,引入了RACE(报告质量)和FACT(检索有效性)评估框架
- Mind2Web 2 :包含130个时变的日常任务,提出"智能体即裁判"框架
- DeepResearchGym :提供沙盒环境和可复现的搜索API
- DeepScholar-Bench :通过内容覆盖度、引用准确性和组织质量自动评估研究综合能力
- DRBench :聚焦企业场景,评估长篇分析报告
现有问题
尽管这些基准取得了进展,但由于研究报告的动态特性,它们都采用主观评估指标 ,缺乏统一标准,这限制了生成报告的实用性。
三、核心方法:FINDER基准与DEFT分类法
3.1 FINDER:细粒度深度研究基准
FINDER基于DeepResearch Bench进行改进,主要包含两个关键创新:
(1)提示词精炼(Prompt Refinement)
为解决原始DeepResearch Bench中查询过于简短的问题,团队邀请七位领域专家 扩展查询内容,明确规定了:
- 报告长度
- 学科范围
- 呈现格式
- 其他具体要求
如图A.1所示,精炼后的查询更长,意味着更高的任务规范性和研究复杂度。
(2)检查清单构建(Checklist Construction)
专家为每个查询创建3-5个检查清单项 ,这些清单有两个目的:
- 组织和构建查询中的现有信息
- 补充未明确提及但与查询相关的内容要求和约束
团队使用Gemini 2.5 Flash对初始检查清单进行迭代优化,消除语义不完整、表达模糊或与报告无关的项目。
最终结果 :为100个查询生成了419个检查清单项 ,每个查询包含3-5个清单。
3.2 DEFT:失败分类法的系统构建
DEFT是首个专门针对深度研究智能体的失败分类法,采用人类-AI协作框架 ,基于扎根理论(Grounded Theory)方法论构建。
构建流程三阶段
阶段一:开放式编码(Open Coding)
- 概念类别生成 :选择5个不同模型家族的大语言模型(Claude Opus 4.1、Gemini 2.5 Pro、Grok 4、DeepSeek-V3.1、Qwen3-Max-Preview)作为编码器
- 动态编码本 :维护一个动态更新的概念清单
,其中
表示概念名称,
表示其简要描述
- 概念优化 :使用Seed1.5-Embedding识别余弦相似度 ≥ 0.6 的概念对并进行合并,最终产生 51个概念
阶段二:主轴编码(Axial Coding)
- 基于编码者间信度(ICR)评估进行三轮编码
- 采用Krippendorff's Alpha系数衡量编码一致性:
其中
表示观察到的不一致性,
表示预期的随机不一致性
- 邀请 三位领域专家 独立标注样本,每轮标注后进行约5小时的讨论以解决分歧
- 最终确定 14个主轴类别
阶段三:选择性编码(Selective Coding)
综合前两个阶段的概念和类别,建立三个核心类别 :
- 推理(Reasoning)
- 检索(Retrieval)
- 生成(Generation)
这三个核心类别在功能上形成完整闭环,在时间上交织递进,共同支撑对智能体失败机制的系统理解。
正向分类法指标
为建立统一的、面向成功的评估框架,团队引入正向性能指标,将错误计数转换为有界、可解释的分数:
其中:
- 表示类别
中观察到的错误数量
- 表示数据集总大小
- 当
时,模型获得最大分数
- 随着错误增加,
单调递减趋近于0
四、实验效果:揭示深度研究智能体的真实能力
4.1 评估对象
团队评估了三类代表性系统:
- 专有API :Gemini-2.5-Pro Deep Research、O3 Deep Research、O4-Mini Deep Research、Perplexity Deep Research
- 开源模型 :MiroThinker、WebThinker、AFM
- 智能体框架 :OWL、OpenManus、MiroFlow(英文和中文版本)
4.2 FINDER性能分析
RACE和FACT框架表现
RACE框架 (报告质量评估):
- Gemini 2.5 Pro Deep Research 表现最佳,总分50.95
- Kimi K2(48.28)和O3 Deep Research(46.25)紧随其后
- 开源模型和智能体框架中,WebThinker和MiroFlow在指令遵循方面表现突出
FACT框架 (检索有效性评估):
- O3 Deep Research 表现卓越,事实精确度65.98,引用可靠性76.58
- Gemini 2.5 Pro Deep Research是有力的竞争者
- 其他模型得分较低,可能源于升级后的提示词要求更密集的推理和更严格的引用验证
正向分类法指标洞察
- Gemini 在推理、检索和生成三个维度上都取得了持续高分,显示出良好的任务理解和综合协调能力
- Kimi K2和O4-Mini 展现出卓越的推理能力(超过Gemini)和强大的检索性能,但在 生成阶段急剧下降
- MiroFlow 等开放框架显示出中等稳定性,但同样在最终生成阶段面临瓶颈
关键发现 :优秀系统在理解、证据收集和综合之间保持平衡,而非过度优化单一阶段。
检查清单准确性
- MiroFlow-English 得分最高(72.19%)
- Tongyi-DeepResearch(67.54%)、Kimi K2(66.59%)和Gemini 2.5 Pro(63.01%)形成竞争性集群
- 这表明 系统化的推理规范 (无论通过框架设计还是内在模型能力)决定了研究可靠性
4.3 DRB vs FINDER对比
RACE框架 :FINDER下的总分与DRB基本一致,因为两者共享相同的基于参考的评估流程
FACT模块 :显示出更明显的差异
- 大多数系统在引用准确性(C.Acc.)和有效性(E.Cit.)上都有所下降
- 这反映了FINDER修订后的提示词设计增加了难度,施加了更严格的事实性和引用验证要求
结论 :FINDER对推理透明度和来源可靠性实施了更强的约束,暴露了在DRB原始配置下不太明显的模型弱点。
4.4 DEFT失败分类法深度分析
一级和二级类别结构
| 一级类别(核心) | 二级类别(主轴) | 占比 | | --- | --- | --- | | 推理(Reasoning) | 1-1-FUR 需求理解失败 | 10.6% | |
| 1-2-LAD 分析深度不足 | 11.1% | |
| 1-3-LAS 分析范围受限 | 0.9% | |
| 1-4-RPS 规划策略僵化 | 5.6% | | 检索(Retrieval) | 2-1-IIA 外部信息获取不足 | 16.3% | |
| 2-2-IHD 信息处理缺陷 | 2.3% | |
| 2-3-IIF 信息整合失败 | 2.9% | |
| 2-4-IRM 信息表示不一致 | 2.9% | |
| 2-5-VMF 验证机制失败 | 8.7% | | 生成(Generation) | 3-1-RCP 冗余内容堆砌 | 2.5% | |
| 3-2-SOD 结构组织失调 | 2.3% | |
| 3-3-CSD 内容规范偏离 | 10.7% | |
| 3-4-DAR 分析严谨性不足 | 4.3% | |
| 3-5-SCF 策略性内容捏造 | 19.0% |
三大核心洞察
洞察1:推理韧性而非推理强度是关键
推理类别的失败比例相对较低(28.14%),表明大多数DRAs能够继承底层大模型在语义理解和基本推理方面的优势。但是:
- 1-4-RPS(规划策略僵化) 表明智能体在动态任务调度和自适应推理方面仍有局限
- 线性执行逻辑往往无法有效响应任务演化或中间反馈
团队提出推理韧性(Reasoning Resilience) 概念:
- 推理韧性 :智能体在动态任务环境中维持和调整推理状态的能力
- 推理强度 :理想条件下的分析或推理能力上限
深度研究任务常伴随反馈、演化和噪声。只有具备推理韧性的系统才能持续检测偏差、重新校准推理路径、调整策略,从而在深度、广度、准确性和一致性之间取得平衡。
洞察2:检索不是简单的请求-接收,而是闭环流程
检索类别的失败(33.10%)沿着任务工作流展现出阶段特定的相关性:
- 初始阶段 :2-1-IIA(信息获取不足)占16.3%,反映智能体无法有效启动或执行信息搜索
- 中间阶段 :2-2-IHD、2-3-IIF、2-4-IRM发生在初步检索成功后,对应信息利用、整合和表示的失败
- 终端阶段 :2-5-VMF(验证机制失败)占8.7%,智能体在遇到关键或冲突信息时未能进行交叉检查
解决方案 :增强智能体的连贯知识管理能力
- 初始检索阶段:建立明确的决策框架(何时检索、检索什么、如何使用)
- 中间阶段:实施显式机制监控信息状态并动态调整检索策略
- 最终阶段:激活强制验证机制对关键事实进行交叉检查
洞察3:加强生成过程的约束和验证至关重要
生成类别展现出最高的失败比例(38.76%) ,特别是:
- 3-5-SCF(策略性内容捏造) 占19.0%,智能体倾向于生成看似专业但实际上缺乏事实支持的术语、方法或引用,以营造学术严谨的假象
- 3-1-RCP(冗余内容堆砌) 与3-5-SCF在结果上相似,都导致输出冗长、结构松散、缺乏实质性见解
建议 :预约束和后验证应扩展到生成维度,包括文本组织、语言结构和格式标准。
4.5 DEFT有效性验证
(1)编码者间信度(ICR)评估
团队计算了人类标注与Gemini 2.5-Flash评估之间的Krippendorff's alpha系数:
- OpenManus平均系数:0.8203
- WebThinker平均系数:0.8526
- 检查清单准确性系数:0.8025-0.8708
结果表明DEFT框架和检查清单评估具有强稳定性和客观可复现性 。
(2)失败分布平衡
三个主要维度的失败频率分布相对平衡:
- 推理:28.14%
- 检索:33.10%
- 生成:38.76%
这种平衡表明分类法涵盖了DRA报告生成中的多样化挑战,避免了过度集中于单一失败类型。
(3)结构化失败模式分析
相关性分析确认了三个连贯的失败集群:
- 流程完整性集群 :需求误解(1.1 FUR)导致不相关或不完整的报告(3.3 CSD)
- 内容整合集群 :来源整合失败(2.4 IIF)导致结构混乱(3.2 SOD)和高度冗余(3.1 RCP)
- 证据严谨性集群 :检索不佳(2.1 IIA)导致"自信捏造"(3.5 SCF)
这些系统性失败路径证实DEFT捕捉到了重要的真实世界机制。
五、论文总结
本文介绍了FINDER和DEFT,作为首个在任务和过程层面统一评估和诊断深度研究智能体的框架。通过整合419项基于检查清单的评估和14类失败分类法,研究揭示了当前智能体的核心问题不在于理解指令,而在于证据信息检索、综合和推理韧性 。
实验表明,即使是表现最佳的系统也经常捏造缺乏支持的内容,并且未能保持方法论的严谨性。 FINDER和DEFT为社区提供了可操作的工具,推动深度研究系统从简单的答案准确性迈向可靠、透明和可验证的方向。这项工作为理解和改进深度研究智能体提供了重要的诊断框架,标志着该领域向实用化迈出的关键一步。
添加微信,备注” LLM “进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/ 作者:ChallengeHub
/ 作者:欢迎转载,标注来源即可
