DeepResearch离真正实用还有多远?OPPO团队揭示14种核心失败模式

大模型机器学习算法

深度研究智能体离真正实用还有多远?OPPO团队揭示14种核心失败模式

picture.image

论文链接:https://arxiv.org/pdf/2512.01948

代码数据:https://github.com/OPPO-PersonalAI/FINDER\_DEFT

笔者读了下这个篇论文,确实非常细致地总结了当前DeepResearch常见的问题,如果不想读论文,小编整理了一个表格(DeepResear失败模式的分类体系),下面是省流版,

DEFT (Deep rEsearch Failure Taxonomy)

| 核心维度

(Level 1) | 代码 | 细分模式名称

(Level 2) | 现象定义与描述 | 典型特征 | | --- | --- | --- | --- | --- | | 一、推理层

(Reasoning)

大脑与规划

| 1-1-FUR | 需求理解失败

Failure to Understand Requirements

| 智能体未能正确解读用户的核心意图或上下文需求,仅关注表面关键词,导致产出偏离目标。 | 审题不清

答非所问 | |

| 1-2-LAD | 分析深度不足

Lack of Analytical Depth

| 未能探究复杂问题的底层机制或结构性约束,仅依赖浅层逻辑或简化框架,分析缺乏严谨性。 | 浮于表面

缺乏洞察 | |

| 1-3-LAS | 分析范围局限

Limited Analytical Scope

| 面对多维任务时认知视野受限,分析局限于部分维度,无法捕捉整体结构或跨维度的关系。 | 视野狭窄

盲人摸象 | |

| 1-4-RPS | 规划策略僵化

Rigid Planning Strategy

| 坚持固定的线性执行计划,无法根据中间检索结果或反馈动态调整策略,导致错误传导。 | 不知变通

一条道走到黑 | | 二、检索层

(Retrieval)

手眼与获取

| 2-1-IIA | 外部信息获取不足

Insufficient Info Acquisition

| 未能主动获取必要的外部信息,过度依赖模型内部训练知识(幻觉高发区),导致内容过时或缺乏实证。 | 搜不到/懒得搜

吃老本 | |

| 2-2-IHD | 信息处理缺陷

Information Handling Deficiency

| 即使搜到了信息,也未能正确提取、筛选或利用关键信息来满足细节要求。 | 抓不住重点

信息遗漏 | |

| 2-3-IIF | 信息整合失败

Information Integration Failure

| 在处理多源信息时,未能解决事实冲突或逻辑矛盾,导致输出包含不一致的数据或观点。 | 逻辑打架

前后矛盾 | |

| 2-4-IRM | 信息表征错位

Info Representation Misalignment

| 未能根据需求区分信息的权威性,例如用低质量信源(营销号)支撑专业论点。 | 信源引用不当

权威性缺失 | |

| 2-5-VMF | 验证机制缺失

Verification Mechanism Failure

| 在生成前未对关键信息进行交叉核对,导致直接采纳了错误的检索结果或幻觉。 | 不查证

轻信错误信息 | | 三、生成层

(Generation)

表达与输出

| 3-1-RCP | 冗余内容堆砌

Redundant Content Piling

| 缺乏实质性内容时,通过堆砌重复信息或车轱辘话来填补篇幅,制造"详尽"的假象。 | 注水严重

废话连篇 | |

| 3-2-SOD | 结构组织混乱

Structural Organization Dysfunction

| 缺乏整体协调性,章节之间割裂,未能平衡各维度的覆盖面,输出碎片化。 | 逻辑混乱

结构松散 | |

| 3-3-CSD | 内容规范偏差

Content Specification Deviation

| 输出不符合特定的行业标准、文风、格式或语气要求(如将学术报告写成博客)。 | 格式不对

不专业 | |

| 3-4-DAR | 缺乏分析严谨性

Deficient Analytical Rigor

| 忽视任务可行性,省略不确定性说明,使用模糊语言,或在无证据支持下过度自信。 | 盲目自信

缺乏严谨度 | |

| 3-5-SCF | 策略性内容捏造

Strategic Content Fabrication

高危模式

| 为了营造"学术/专业"的假象,编造看似合理但不存在的术语、方法论、数据或参考文献。 | 一本正经胡说八道

伪造证据 |

一、研究背景:深度研究智能体的理想与现实

任务定义

深度研究智能体(Deep Research Agents, DRAs) 旨在自动化生成分析师级别的研究报告,通过迭代式的信息检索和综合分析来完成复杂的研究任务。这类系统需要具备网络规模的信息搜索、数据检索和内容合成能力,能够产出传统上需要数小时人工劳动才能完成的综合性报告。

研究动机

尽管深度研究智能体在学术研究、商业情报和知识管理等领域展现出巨大应用潜力,但它们在实际报告生成任务中仍然表现不佳 。主要问题包括:

  1. 现有基准测试的局限性 :大多数基准测试都是针对问答(QA)任务设计的,无法充分捕捉实际深度研究场景中对报告质量、准确性、深度和逻辑连贯性的严格要求
  2. 任务复杂度不足 :许多开放式基准的任务来自大语言模型驱动的采样或合成,导致与人类实际需求存在偏差,复杂度不够
  3. 评估指标主观性强 :由于研究报告的动态特性,现有基准采用基于作者经验或领域知识的主观评估指标,不同基准使用不同的度量标准,缺乏统一标准

核心贡献

为解决这些问题,OPPO AI智能体团队提出了两大创新工具:

  1. FINDER(Fine-grained DEepResearch bench) :一个细粒度基准测试,包含100个专家精心策划的研究任务和419个结构化检查清单项,标准化了报告结构、分析深度和事实依据
  2. DEFT(Deep rEsearch Failure Taxonomy)首个 针对深度研究智能体的失败分类法,包含14种细粒度失败模式,涵盖推理、检索和生成三个核心维度

picture.image

如图1所示,FINDER通过明确的指导实现了更结构化和可复现的评估。

二、相关工作:从封闭式问答到开放式报告生成

封闭式评估的局限

早期深度研究智能体的工作主要采用面向通用人工智能(AGI)的数据集作为评估基准,最具代表性的包括GAIA和HLE。随着领域发展,研究者提出了各种专门化基准测试。

然而,这些数据集虽然具有挑战性,但都属于封闭式评估 ,具有标准答案。它们忽视了报告生成的评估,与深度研究的实际需求不匹配。

开放式基准的探索

相比之下,开放式基准将深度研究视为没有唯一解决方案的任务:

  • DeepResearch Bench :包含100个博士级问题,涵盖22个领域,引入了RACE(报告质量)和FACT(检索有效性)评估框架
  • Mind2Web 2 :包含130个时变的日常任务,提出"智能体即裁判"框架
  • DeepResearchGym :提供沙盒环境和可复现的搜索API
  • DeepScholar-Bench :通过内容覆盖度、引用准确性和组织质量自动评估研究综合能力
  • DRBench :聚焦企业场景,评估长篇分析报告

现有问题

尽管这些基准取得了进展,但由于研究报告的动态特性,它们都采用主观评估指标 ,缺乏统一标准,这限制了生成报告的实用性。

三、核心方法:FINDER基准与DEFT分类法

3.1 FINDER:细粒度深度研究基准

FINDER基于DeepResearch Bench进行改进,主要包含两个关键创新:

(1)提示词精炼(Prompt Refinement)

为解决原始DeepResearch Bench中查询过于简短的问题,团队邀请七位领域专家 扩展查询内容,明确规定了:

  • 报告长度
  • 学科范围
  • 呈现格式
  • 其他具体要求

如图A.1所示,精炼后的查询更长,意味着更高的任务规范性和研究复杂度。picture.image

(2)检查清单构建(Checklist Construction)

专家为每个查询创建3-5个检查清单项 ,这些清单有两个目的:

  1. 组织和构建查询中的现有信息
  2. 补充未明确提及但与查询相关的内容要求和约束

团队使用Gemini 2.5 Flash对初始检查清单进行迭代优化,消除语义不完整、表达模糊或与报告无关的项目。

最终结果 :为100个查询生成了419个检查清单项 ,每个查询包含3-5个清单。

3.2 DEFT:失败分类法的系统构建

DEFT是首个专门针对深度研究智能体的失败分类法,采用人类-AI协作框架 ,基于扎根理论(Grounded Theory)方法论构建。

构建流程三阶段

阶段一:开放式编码(Open Coding)

  • 概念类别生成 :选择5个不同模型家族的大语言模型(Claude Opus 4.1、Gemini 2.5 Pro、Grok 4、DeepSeek-V3.1、Qwen3-Max-Preview)作为编码器
  • 动态编码本 :维护一个动态更新的概念清单

,其中

表示概念名称,

表示其简要描述

  • 概念优化 :使用Seed1.5-Embedding识别余弦相似度 ≥ 0.6 的概念对并进行合并,最终产生 51个概念

阶段二:主轴编码(Axial Coding)

  • 基于编码者间信度(ICR)评估进行三轮编码
  • 采用Krippendorff's Alpha系数衡量编码一致性:

其中

表示观察到的不一致性,

表示预期的随机不一致性

  • 邀请 三位领域专家 独立标注样本,每轮标注后进行约5小时的讨论以解决分歧
  • 最终确定 14个主轴类别

阶段三:选择性编码(Selective Coding)

综合前两个阶段的概念和类别,建立三个核心类别

  1. 推理(Reasoning)
  2. 检索(Retrieval)
  3. 生成(Generation)

这三个核心类别在功能上形成完整闭环,在时间上交织递进,共同支撑对智能体失败机制的系统理解。

正向分类法指标

为建立统一的、面向成功的评估框架,团队引入正向性能指标,将错误计数转换为有界、可解释的分数:

其中:

  • 表示类别

中观察到的错误数量

  • 表示数据集总大小

时,模型获得最大分数

  • 随着错误增加,

单调递减趋近于0picture.image

四、实验效果:揭示深度研究智能体的真实能力

4.1 评估对象

团队评估了三类代表性系统:

  1. 专有API :Gemini-2.5-Pro Deep Research、O3 Deep Research、O4-Mini Deep Research、Perplexity Deep Research
  2. 开源模型 :MiroThinker、WebThinker、AFM
  3. 智能体框架 :OWL、OpenManus、MiroFlow(英文和中文版本)

4.2 FINDER性能分析

picture.image

RACE和FACT框架表现

RACE框架 (报告质量评估):

  • Gemini 2.5 Pro Deep Research 表现最佳,总分50.95
  • Kimi K2(48.28)和O3 Deep Research(46.25)紧随其后
  • 开源模型和智能体框架中,WebThinker和MiroFlow在指令遵循方面表现突出

FACT框架 (检索有效性评估):

  • O3 Deep Research 表现卓越,事实精确度65.98,引用可靠性76.58
  • Gemini 2.5 Pro Deep Research是有力的竞争者
  • 其他模型得分较低,可能源于升级后的提示词要求更密集的推理和更严格的引用验证

正向分类法指标洞察

  • Gemini 在推理、检索和生成三个维度上都取得了持续高分,显示出良好的任务理解和综合协调能力
  • Kimi K2和O4-Mini 展现出卓越的推理能力(超过Gemini)和强大的检索性能,但在 生成阶段急剧下降
  • MiroFlow 等开放框架显示出中等稳定性,但同样在最终生成阶段面临瓶颈

关键发现 :优秀系统在理解、证据收集和综合之间保持平衡,而非过度优化单一阶段。

检查清单准确性

  • MiroFlow-English 得分最高(72.19%)
  • Tongyi-DeepResearch(67.54%)、Kimi K2(66.59%)和Gemini 2.5 Pro(63.01%)形成竞争性集群
  • 这表明 系统化的推理规范 (无论通过框架设计还是内在模型能力)决定了研究可靠性

4.3 DRB vs FINDER对比

picture.image

RACE框架 :FINDER下的总分与DRB基本一致,因为两者共享相同的基于参考的评估流程

FACT模块 :显示出更明显的差异

  • 大多数系统在引用准确性(C.Acc.)和有效性(E.Cit.)上都有所下降
  • 这反映了FINDER修订后的提示词设计增加了难度,施加了更严格的事实性和引用验证要求

结论 :FINDER对推理透明度和来源可靠性实施了更强的约束,暴露了在DRB原始配置下不太明显的模型弱点。

4.4 DEFT失败分类法深度分析

picture.image

一级和二级类别结构

| 一级类别(核心) | 二级类别(主轴) | 占比 | | --- | --- | --- | | 推理(Reasoning) | 1-1-FUR 需求理解失败 | 10.6% | |

| 1-2-LAD 分析深度不足 | 11.1% | |

| 1-3-LAS 分析范围受限 | 0.9% | |

| 1-4-RPS 规划策略僵化 | 5.6% | | 检索(Retrieval) | 2-1-IIA 外部信息获取不足 | 16.3% | |

| 2-2-IHD 信息处理缺陷 | 2.3% | |

| 2-3-IIF 信息整合失败 | 2.9% | |

| 2-4-IRM 信息表示不一致 | 2.9% | |

| 2-5-VMF 验证机制失败 | 8.7% | | 生成(Generation) | 3-1-RCP 冗余内容堆砌 | 2.5% | |

| 3-2-SOD 结构组织失调 | 2.3% | |

| 3-3-CSD 内容规范偏离 | 10.7% | |

| 3-4-DAR 分析严谨性不足 | 4.3% | |

| 3-5-SCF 策略性内容捏造 | 19.0% |

三大核心洞察

洞察1:推理韧性而非推理强度是关键

推理类别的失败比例相对较低(28.14%),表明大多数DRAs能够继承底层大模型在语义理解和基本推理方面的优势。但是:

  • 1-4-RPS(规划策略僵化) 表明智能体在动态任务调度和自适应推理方面仍有局限
  • 线性执行逻辑往往无法有效响应任务演化或中间反馈

团队提出推理韧性(Reasoning Resilience) 概念:

  • 推理韧性 :智能体在动态任务环境中维持和调整推理状态的能力
  • 推理强度 :理想条件下的分析或推理能力上限

深度研究任务常伴随反馈、演化和噪声。只有具备推理韧性的系统才能持续检测偏差、重新校准推理路径、调整策略,从而在深度、广度、准确性和一致性之间取得平衡。

洞察2:检索不是简单的请求-接收,而是闭环流程

picture.image

检索类别的失败(33.10%)沿着任务工作流展现出阶段特定的相关性:

  1. 初始阶段 :2-1-IIA(信息获取不足)占16.3%,反映智能体无法有效启动或执行信息搜索
  2. 中间阶段 :2-2-IHD、2-3-IIF、2-4-IRM发生在初步检索成功后,对应信息利用、整合和表示的失败
  3. 终端阶段 :2-5-VMF(验证机制失败)占8.7%,智能体在遇到关键或冲突信息时未能进行交叉检查

解决方案 :增强智能体的连贯知识管理能力

  • 初始检索阶段:建立明确的决策框架(何时检索、检索什么、如何使用)
  • 中间阶段:实施显式机制监控信息状态并动态调整检索策略
  • 最终阶段:激活强制验证机制对关键事实进行交叉检查

洞察3:加强生成过程的约束和验证至关重要

生成类别展现出最高的失败比例(38.76%) ,特别是:

  • 3-5-SCF(策略性内容捏造) 占19.0%,智能体倾向于生成看似专业但实际上缺乏事实支持的术语、方法或引用,以营造学术严谨的假象
  • 3-1-RCP(冗余内容堆砌) 与3-5-SCF在结果上相似,都导致输出冗长、结构松散、缺乏实质性见解

建议 :预约束和后验证应扩展到生成维度,包括文本组织、语言结构和格式标准。

4.5 DEFT有效性验证

(1)编码者间信度(ICR)评估

picture.image

团队计算了人类标注与Gemini 2.5-Flash评估之间的Krippendorff's alpha系数:

  • OpenManus平均系数:0.8203
  • WebThinker平均系数:0.8526
  • 检查清单准确性系数:0.8025-0.8708

结果表明DEFT框架和检查清单评估具有强稳定性和客观可复现性

(2)失败分布平衡

三个主要维度的失败频率分布相对平衡:

  • 推理:28.14%
  • 检索:33.10%
  • 生成:38.76%

这种平衡表明分类法涵盖了DRA报告生成中的多样化挑战,避免了过度集中于单一失败类型。picture.image

(3)结构化失败模式分析

picture.image

相关性分析确认了三个连贯的失败集群:

  1. 流程完整性集群 :需求误解(1.1 FUR)导致不相关或不完整的报告(3.3 CSD)
  2. 内容整合集群 :来源整合失败(2.4 IIF)导致结构混乱(3.2 SOD)和高度冗余(3.1 RCP)
  3. 证据严谨性集群 :检索不佳(2.1 IIA)导致"自信捏造"(3.5 SCF)

这些系统性失败路径证实DEFT捕捉到了重要的真实世界机制。

五、论文总结

本文介绍了FINDER和DEFT,作为首个在任务和过程层面统一评估和诊断深度研究智能体的框架。通过整合419项基于检查清单的评估和14类失败分类法,研究揭示了当前智能体的核心问题不在于理解指令,而在于证据信息检索、综合和推理韧性

实验表明,即使是表现最佳的系统也经常捏造缺乏支持的内容,并且未能保持方法论的严谨性。 FINDER和DEFT为社区提供了可操作的工具,推动深度研究系统从简单的答案准确性迈向可靠、透明和可验证的方向。这项工作为理解和改进深度研究智能体提供了重要的诊断框架,标志着该领域向实用化迈出的关键一步。

picture.image

添加微信,备注” LLM “进入大模型技术交流群

picture.image

picture.image

如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢

/ 作者:ChallengeHub

/ 作者:欢迎转载,标注来源即可

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
TRAE 的思考:AI 时代程序员的认知进化
在 AI 浪潮下,传统的古法编程模式正在被颠覆和变革,对开发者的认知和协作模式提出了新的挑战。本次分享将深入探讨 AI Coding 的演进趋势,从 AI 辅助编程到 AI 主导的全新协作模式,以及它如何重塑人与 AI 之间的关系,同时也将分享下 TRAE 的核心理念、技术实现,演进实践中的踩坑心得、以及我们对未来的展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论