DeepResearch离真正实用还有多远？OPPO团队揭示14种核心失败模式 - 文章 - 开发者社区

深度研究智能体离真正实用还有多远？OPPO团队揭示14种核心失败模式

picture.image

论文链接：https://arxiv.org/pdf/2512.01948

代码数据：https://github.com/OPPO-PersonalAI/FINDER\_DEFT

笔者读了下这个篇论文，确实非常细致地总结了当前DeepResearch常见的问题，如果不想读论文，小编整理了一个表格(DeepResear失败模式的分类体系)，下面是省流版，

DEFT (Deep rEsearch Failure Taxonomy)

| 核心维度

(Level 1) | 代码 | 细分模式名称

(Level 2) | 现象定义与描述 | 典型特征 | | --- | --- | --- | --- | --- | | 一、推理层

(Reasoning)

大脑与规划

| 1-1-FUR | 需求理解失败

Failure to Understand Requirements

| 智能体未能正确解读用户的核心意图或上下文需求，仅关注表面关键词，导致产出偏离目标。 | 审题不清

答非所问 | |

| 1-2-LAD | 分析深度不足

Lack of Analytical Depth

| 未能探究复杂问题的底层机制或结构性约束，仅依赖浅层逻辑或简化框架，分析缺乏严谨性。 | 浮于表面

缺乏洞察 | |

| 1-3-LAS | 分析范围局限

Limited Analytical Scope

| 面对多维任务时认知视野受限，分析局限于部分维度，无法捕捉整体结构或跨维度的关系。 | 视野狭窄

盲人摸象 | |

| 1-4-RPS | 规划策略僵化

Rigid Planning Strategy

| 坚持固定的线性执行计划，无法根据中间检索结果或反馈动态调整策略，导致错误传导。 | 不知变通

一条道走到黑 | | 二、检索层

(Retrieval)

手眼与获取

| 2-1-IIA | 外部信息获取不足

Insufficient Info Acquisition

| 未能主动获取必要的外部信息，过度依赖模型内部训练知识（幻觉高发区），导致内容过时或缺乏实证。 | 搜不到/懒得搜

吃老本 | |

| 2-2-IHD | 信息处理缺陷

Information Handling Deficiency

| 即使搜到了信息，也未能正确提取、筛选或利用关键信息来满足细节要求。 | 抓不住重点

信息遗漏 | |

| 2-3-IIF | 信息整合失败

Information Integration Failure

| 在处理多源信息时，未能解决事实冲突或逻辑矛盾，导致输出包含不一致的数据或观点。 | 逻辑打架

前后矛盾 | |

| 2-4-IRM | 信息表征错位

Info Representation Misalignment

| 未能根据需求区分信息的权威性，例如用低质量信源（营销号）支撑专业论点。 | 信源引用不当

权威性缺失 | |

| 2-5-VMF | 验证机制缺失

Verification Mechanism Failure

| 在生成前未对关键信息进行交叉核对，导致直接采纳了错误的检索结果或幻觉。 | 不查证

轻信错误信息 | | 三、生成层

(Generation)

表达与输出

| 3-1-RCP | 冗余内容堆砌

Redundant Content Piling

| 缺乏实质性内容时，通过堆砌重复信息或车轱辘话来填补篇幅，制造"详尽"的假象。 | 注水严重

废话连篇 | |

| 3-2-SOD | 结构组织混乱

Structural Organization Dysfunction

| 缺乏整体协调性，章节之间割裂，未能平衡各维度的覆盖面，输出碎片化。 | 逻辑混乱

结构松散 | |

| 3-3-CSD | 内容规范偏差

Content Specification Deviation

| 输出不符合特定的行业标准、文风、格式或语气要求（如将学术报告写成博客）。 | 格式不对

不专业 | |

| 3-4-DAR | 缺乏分析严谨性

Deficient Analytical Rigor

| 忽视任务可行性，省略不确定性说明，使用模糊语言，或在无证据支持下过度自信。 | 盲目自信

缺乏严谨度 | |

| 3-5-SCF | 策略性内容捏造

Strategic Content Fabrication

高危模式

| 为了营造"学术/专业"的假象，编造看似合理但不存在的术语、方法论、数据或参考文献。 | 一本正经胡说八道

伪造证据 |

一、研究背景：深度研究智能体的理想与现实

任务定义

深度研究智能体（Deep Research Agents, DRAs） 旨在自动化生成分析师级别的研究报告，通过迭代式的信息检索和综合分析来完成复杂的研究任务。这类系统需要具备网络规模的信息搜索、数据检索和内容合成能力，能够产出传统上需要数小时人工劳动才能完成的综合性报告。

研究动机

尽管深度研究智能体在学术研究、商业情报和知识管理等领域展现出巨大应用潜力，但它们在实际报告生成任务中仍然表现不佳 。主要问题包括：

现有基准测试的局限性 ：大多数基准测试都是针对问答（QA）任务设计的，无法充分捕捉实际深度研究场景中对报告质量、准确性、深度和逻辑连贯性的严格要求
任务复杂度不足 ：许多开放式基准的任务来自大语言模型驱动的采样或合成，导致与人类实际需求存在偏差，复杂度不够
评估指标主观性强 ：由于研究报告的动态特性，现有基准采用基于作者经验或领域知识的主观评估指标，不同基准使用不同的度量标准，缺乏统一标准

核心贡献

为解决这些问题，OPPO AI智能体团队提出了两大创新工具：

FINDER（Fine-grained DEepResearch bench） ：一个细粒度基准测试，包含100个专家精心策划的研究任务和419个结构化检查清单项，标准化了报告结构、分析深度和事实依据
DEFT（Deep rEsearch Failure Taxonomy） ：首个针对深度研究智能体的失败分类法，包含14种细粒度失败模式，涵盖推理、检索和生成三个核心维度

picture.image

如图1所示，FINDER通过明确的指导实现了更结构化和可复现的评估。

二、相关工作：从封闭式问答到开放式报告生成

封闭式评估的局限

早期深度研究智能体的工作主要采用面向通用人工智能（AGI）的数据集作为评估基准，最具代表性的包括GAIA和HLE。随着领域发展，研究者提出了各种专门化基准测试。

然而，这些数据集虽然具有挑战性，但都属于封闭式评估 ，具有标准答案。它们忽视了报告生成的评估，与深度研究的实际需求不匹配。

开放式基准的探索

相比之下，开放式基准将深度研究视为没有唯一解决方案的任务：

DeepResearch Bench ：包含100个博士级问题，涵盖22个领域，引入了RACE（报告质量）和FACT（检索有效性）评估框架
Mind2Web 2 ：包含130个时变的日常任务，提出"智能体即裁判"框架
DeepResearchGym ：提供沙盒环境和可复现的搜索API
DeepScholar-Bench ：通过内容覆盖度、引用准确性和组织质量自动评估研究综合能力
DRBench ：聚焦企业场景，评估长篇分析报告

现有问题

尽管这些基准取得了进展，但由于研究报告的动态特性，它们都采用主观评估指标 ，缺乏统一标准，这限制了生成报告的实用性。

三、核心方法：FINDER基准与DEFT分类法

3.1 FINDER：细粒度深度研究基准

FINDER基于DeepResearch Bench进行改进，主要包含两个关键创新：

（1）提示词精炼（Prompt Refinement）

为解决原始DeepResearch Bench中查询过于简短的问题，团队邀请七位领域专家 扩展查询内容，明确规定了：

报告长度
学科范围
呈现格式
其他具体要求

如图A.1所示，精炼后的查询更长，意味着更高的任务规范性和研究复杂度。 picture.image

（2）检查清单构建（Checklist Construction）

专家为每个查询创建3-5个检查清单项 ，这些清单有两个目的：

组织和构建查询中的现有信息
补充未明确提及但与查询相关的内容要求和约束

团队使用Gemini 2.5 Flash对初始检查清单进行迭代优化，消除语义不完整、表达模糊或与报告无关的项目。

最终结果 ：为100个查询生成了419个检查清单项 ，每个查询包含3-5个清单。

3.2 DEFT：失败分类法的系统构建

DEFT是首个专门针对深度研究智能体的失败分类法，采用人类-AI协作框架 ，基于扎根理论（Grounded Theory）方法论构建。

构建流程三阶段

阶段一：开放式编码（Open Coding）

概念类别生成 ：选择5个不同模型家族的大语言模型（Claude Opus 4.1、Gemini 2.5 Pro、Grok 4、DeepSeek-V3.1、Qwen3-Max-Preview）作为编码器
动态编码本 ：维护一个动态更新的概念清单

，其中

表示概念名称，

表示其简要描述

概念优化 ：使用Seed1.5-Embedding识别余弦相似度 ≥ 0.6 的概念对并进行合并，最终产生 51个概念

阶段二：主轴编码（Axial Coding）

基于编码者间信度（ICR）评估进行三轮编码
采用Krippendorff's Alpha系数衡量编码一致性：

其中

表示观察到的不一致性，

表示预期的随机不一致性

邀请 三位领域专家 独立标注样本，每轮标注后进行约5小时的讨论以解决分歧
最终确定 14个主轴类别

阶段三：选择性编码（Selective Coding）

综合前两个阶段的概念和类别，建立三个核心类别 ：

推理（Reasoning）
检索（Retrieval）
生成（Generation）

这三个核心类别在功能上形成完整闭环，在时间上交织递进，共同支撑对智能体失败机制的系统理解。

正向分类法指标

为建立统一的、面向成功的评估框架，团队引入正向性能指标，将错误计数转换为有界、可解释的分数：

其中：

表示类别

中观察到的错误数量

表示数据集总大小
当

时，模型获得最大分数

随着错误增加，

单调递减趋近于0 picture.image

四、实验效果：揭示深度研究智能体的真实能力

4.1 评估对象

团队评估了三类代表性系统：

专有API ：Gemini-2.5-Pro Deep Research、O3 Deep Research、O4-Mini Deep Research、Perplexity Deep Research
开源模型 ：MiroThinker、WebThinker、AFM
智能体框架 ：OWL、OpenManus、MiroFlow（英文和中文版本）

4.2 FINDER性能分析

picture.image

RACE和FACT框架表现

RACE框架 （报告质量评估）：

Gemini 2.5 Pro Deep Research 表现最佳，总分50.95
Kimi K2（48.28）和O3 Deep Research（46.25）紧随其后
开源模型和智能体框架中，WebThinker和MiroFlow在指令遵循方面表现突出

FACT框架 （检索有效性评估）：

O3 Deep Research 表现卓越，事实精确度65.98，引用可靠性76.58
Gemini 2.5 Pro Deep Research是有力的竞争者
其他模型得分较低，可能源于升级后的提示词要求更密集的推理和更严格的引用验证

正向分类法指标洞察

Gemini 在推理、检索和生成三个维度上都取得了持续高分，显示出良好的任务理解和综合协调能力
Kimi K2和O4-Mini 展现出卓越的推理能力（超过Gemini）和强大的检索性能，但在 生成阶段急剧下降
MiroFlow 等开放框架显示出中等稳定性，但同样在最终生成阶段面临瓶颈

关键发现 ：优秀系统在理解、证据收集和综合之间保持平衡，而非过度优化单一阶段。

检查清单准确性

MiroFlow-English 得分最高（72.19%）
Tongyi-DeepResearch（67.54%）、Kimi K2（66.59%）和Gemini 2.5 Pro（63.01%）形成竞争性集群
这表明 系统化的推理规范 （无论通过框架设计还是内在模型能力）决定了研究可靠性

4.3 DRB vs FINDER对比

picture.image

RACE框架 ：FINDER下的总分与DRB基本一致，因为两者共享相同的基于参考的评估流程

FACT模块 ：显示出更明显的差异

大多数系统在引用准确性（C.Acc.）和有效性（E.Cit.）上都有所下降
这反映了FINDER修订后的提示词设计增加了难度，施加了更严格的事实性和引用验证要求

结论：FINDER对推理透明度和来源可靠性实施了更强的约束，暴露了在DRB原始配置下不太明显的模型弱点。

4.4 DEFT失败分类法深度分析

picture.image

一级和二级类别结构

| 一级类别（核心） | 二级类别（主轴） | 占比 | | --- | --- | --- | | 推理（Reasoning） | 1-1-FUR 需求理解失败 | 10.6% | |

| 1-2-LAD 分析深度不足 | 11.1% | |

| 1-3-LAS 分析范围受限 | 0.9% | |

| 2-2-IHD 信息处理缺陷 | 2.3% | |

| 2-3-IIF 信息整合失败 | 2.9% | |

| 2-4-IRM 信息表示不一致 | 2.9% | |

| 3-2-SOD 结构组织失调 | 2.3% | |

| 3-3-CSD 内容规范偏离 | 10.7% | |

| 3-4-DAR 分析严谨性不足 | 4.3% | |

| 3-5-SCF 策略性内容捏造 | 19.0% |

三大核心洞察

洞察1：推理韧性而非推理强度是关键

推理类别的失败比例相对较低（28.14%），表明大多数DRAs能够继承底层大模型在语义理解和基本推理方面的优势。但是：

1-4-RPS（规划策略僵化） 表明智能体在动态任务调度和自适应推理方面仍有局限
线性执行逻辑往往无法有效响应任务演化或中间反馈

团队提出推理韧性（Reasoning Resilience） 概念：

推理韧性 ：智能体在动态任务环境中维持和调整推理状态的能力
推理强度 ：理想条件下的分析或推理能力上限

深度研究任务常伴随反馈、演化和噪声。只有具备推理韧性的系统才能持续检测偏差、重新校准推理路径、调整策略，从而在深度、广度、准确性和一致性之间取得平衡。

洞察2：检索不是简单的请求-接收，而是闭环流程

picture.image

检索类别的失败（33.10%）沿着任务工作流展现出阶段特定的相关性：

初始阶段 ：2-1-IIA（信息获取不足）占16.3%，反映智能体无法有效启动或执行信息搜索
中间阶段 ：2-2-IHD、2-3-IIF、2-4-IRM发生在初步检索成功后，对应信息利用、整合和表示的失败
终端阶段 ：2-5-VMF（验证机制失败）占8.7%，智能体在遇到关键或冲突信息时未能进行交叉检查

解决方案 ：增强智能体的连贯知识管理能力

初始检索阶段：建立明确的决策框架（何时检索、检索什么、如何使用）
中间阶段：实施显式机制监控信息状态并动态调整检索策略
最终阶段：激活强制验证机制对关键事实进行交叉检查

洞察3：加强生成过程的约束和验证至关重要

生成类别展现出最高的失败比例（38.76%） ，特别是：

3-5-SCF（策略性内容捏造） 占19.0%，智能体倾向于生成看似专业但实际上缺乏事实支持的术语、方法或引用，以营造学术严谨的假象
3-1-RCP（冗余内容堆砌） 与3-5-SCF在结果上相似，都导致输出冗长、结构松散、缺乏实质性见解

建议：预约束和后验证应扩展到生成维度，包括文本组织、语言结构和格式标准。

4.5 DEFT有效性验证

（1）编码者间信度（ICR）评估

picture.image

团队计算了人类标注与Gemini 2.5-Flash评估之间的Krippendorff's alpha系数：

OpenManus平均系数：0.8203
WebThinker平均系数：0.8526
检查清单准确性系数：0.8025-0.8708

结果表明DEFT框架和检查清单评估具有强稳定性和客观可复现性 。

（2）失败分布平衡

三个主要维度的失败频率分布相对平衡：

推理：28.14%
检索：33.10%
生成：38.76%

这种平衡表明分类法涵盖了DRA报告生成中的多样化挑战，避免了过度集中于单一失败类型。 picture.image

（3）结构化失败模式分析

picture.image

相关性分析确认了三个连贯的失败集群：

流程完整性集群 ：需求误解（1.1 FUR）导致不相关或不完整的报告（3.3 CSD）
内容整合集群 ：来源整合失败（2.4 IIF）导致结构混乱（3.2 SOD）和高度冗余（3.1 RCP）
证据严谨性集群 ：检索不佳（2.1 IIA）导致"自信捏造"（3.5 SCF）

这些系统性失败路径证实DEFT捕捉到了重要的真实世界机制。

五、论文总结

本文介绍了FINDER和DEFT，作为首个在任务和过程层面统一评估和诊断深度研究智能体的框架。通过整合419项基于检查清单的评估和14类失败分类法，研究揭示了当前智能体的核心问题不在于理解指令，而在于证据信息检索、综合和推理韧性 。

实验表明，即使是表现最佳的系统也经常捏造缺乏支持的内容，并且未能保持方法论的严谨性。 FINDER和DEFT为社区提供了可操作的工具，推动深度研究系统从简单的答案准确性迈向可靠、透明和可验证的方向。这项工作为理解和改进深度研究智能体提供了重要的诊断框架，标志着该领域向实用化迈出的关键一步。

picture.image

添加微信，备注” LLM “进入大模型技术交流群

picture.image

如果你觉得这篇文章对你有帮助，别忘了点个赞、送个喜欢

/ 作者：ChallengeHub

/ 作者：欢迎转载，标注来源即可