RAG 已死？RAG 永生！—— 智能体时代的精准检索 - 文章 - 开发者社区

来自 LightOn 团队的文章「RAG is Dead. Long Live RAG」，探讨了 RAG 在 LLM 快速发展中的演变。作者认为，RAG 并非被长上下文窗口所取代，而是进化成一种更智能、更高效的“条件注意力”机制，尤其在智能体主导的 AI 系统时代。

Long context didn’t kill retrieval. Bigger windows add cost and noise; retrieval focuses attention where it matters. Additionally, RAG is 8-82× cheaper than long context approaches for typical workloads, with better latency.

Multimodal is Essential: grep and lexical search work amazingly well for code, but it’s blind to diagrams and figures. Enterprise content needs semantic + vision-aware retrieval and reranking.

Conditional Over Automatic: RAG in 2025 is modular and should decide if, what, where, and how to retrieve, not retrieve blindly. This means that metadata matters: invest in offline precomputation to describe collections. Runtime decisions depend on knowing what you have.

Evaluate Granularly: Stage-wise metrics are mandatory. End-to-end evaluation alone guarantees you'll struggle to improve.

The age of agents didn't make retrieval obsolete, it made intelligent retrieval essential.

picture.image

核心论点：长上下文并非 RAG 的终结者

文章开篇直击一个流行误区：许多人认为 LLM 上下文窗口的扩大让 RAG 变得多余，因为模型能一次性“吞下”海量信息。但作者用数据和类比反驳：长上下文虽强大，却带来高成本、低效和性能衰退问题。例如，将整个 1000 页知识库（约 600K tokens）塞入提示，会导致“注意力稀释”（attention dilution），关键信息被淹没——这类似于“中间丢失”现象（lost in the middle），基准测试如 HELMET 显示，模型在长序列中回忆准确率可降 20-30%。

更实际的是经济性：针对典型工作负载（如每天 100 次查询），RAG 只需检索 5 个针对性片段，就能比长上下文便宜 8-82 倍，且延迟更低。作者提供了一个在线计算器，模拟不同场景，证明即使考虑缓存，长上下文的生成时间仍主导成本。类比生动：长上下文像开会时邀全员讨论简单问题（成本飙升），而 RAG 则是精准咨询专家（高效且准确）。

多模态与条件检索：RAG 的升级路径

RAG 的重生在于适应智能体时代，从“盲目检索”转向“有条件决策”。文章分层剖析这一栈式架构：

· 何时检索（IF）：智能体根据查询类型、时效性和安全需求路由工具。例如，简单算术如“2+2”无需检索，而财务报告查询则必须激活。

· 检索什么（WHAT）：通过实体识别和查询重写，添加元数据过滤（如时间范围、部门），避免无关噪声。

· 从哪里、如何检索（WHERE & HOW）：策略动态选择——代码用词法搜索（如 grep），散文用语义混合，多模态内容（如图表）需视觉嵌入模型和重排序器（如 MonoQwen）。这解决了传统工具的局限：grep 虽快，但对图像或空间关系（如“套管吊挂上方有哪些元件？”）一筹莫展。

多模态是另一亮点。文章指出，企业数据 70% 以上是非纯文本（如图表、代码），长上下文虽能“看”图像（每图需 1-1.5K tokens），但成本暴增，且理解浅显。RAG 通过离线预计算元数据（如预构建多模态集合），实现实时高效检索，减少幻觉并提升企业适用性。

评估与未来展望：从管道到智能生态

作者强调，RAG 系统的成功依赖“颗粒化评估”：不是只看端到端输出（如准确率），而是逐阶段拆解——路由的 F1 分数、查询理解的召回提升、检索的精确度、重排序前后对比、生成的忠实度。这能隔离故障，推动优化，避免“黑箱”困境。

picture.image

回顾历史，文章描绘 RAG 炒作周期：2023 年峰值（向量数据库热潮），2024-2025 年“死亡”论调（MCP、Claude Code 的 grep），但这些只是演进。预测 2025 年，RAG 将深度嵌入智能体，从静态管道转为动态决策模块，与长上下文互补——广义查询用全上下文，精确查询用针对检索。

The past two years didn’t kill retrieval: they forced RAG to mature. Today, RAG is intentional attention: decide if to retrieve; if yes, decide what, where, and how; keep the context lean; measure everything.

In other words, stop scheduling giant meetings “just in case.” Ask the right expert, bring only what you need, and keep the conversation sharp. That’s RAG in the age of agents.

结语与启示

文章推荐“思考前检索”的智能管道：预计算元数据、混合策略、多模态工具。这不仅是技术迭代，更是 AI 向智能体化转型的必然——高效、可靠的检索将支撑企业从聊天机器人到复杂决策系统的跃升。

信息卡提示词