OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token。作为一家 RAG 即服务创业公司的创始人,我的收件箱立刻被各种宣称 RAG 已死的消息塞满,建议我们在为时已晚之前赶紧转型。
但 RAG 真的已经死亡了吗?以下是为什么我们仍然坚定看好 RAG,尽管新型大上下文模型令人印象深刻。
无限上下文的幻觉
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个上下文 token,而之前的 GPT-4o 模型最多可处理 12.8 万个。100 万个 token 相当于 8 个完整的 React 代码库,因此长上下文非常适合处理大型代码库或大量长文档。
GPT-4.1 能够可靠地处理 100 万 token 上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比 GPT-4o 更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。
大上下文模型看起来像是灵丹妙药。它们的宣传效果很诱人:
- 毫不费力地处理海量数据
- 简化的 API —— 不再需要复杂的索引和分块
- 零遗漏结果(所有内容都在上下文中!)
但任何在实际场景中使用过超大上下文的人都知道,现实并非如此美好。
成本和速度:现实检验
考虑这个情况:一个典型的 RAG 查询大约是 1000 个 token,成本约 0.002 美元。将此扩展到完整的 100 万 token 上下文会使成本增加 1000 倍,达到每次查询约 2 美元。不仅仅是成本,速度也会受到严重影响。OpenAI 自己的演示显示,一个 45.6 万 token 的请求需要痛苦的 76 秒 —— 想象一下用户每次互动都要等待那么长时间。在规模化应用中,这些延迟是不可接受的。
代理工作流程会成倍增加痛苦
现代 AI 工作流程越来越多地利用代理方法 —— 多个链式 LLM 调用以达到最终结果。每一步都会增加成本和延迟。突然间,那个每次查询 2 美元的场景膨胀成了在财务和运营上对严肃应用来说不可行的方案。
引用:信任很重要
目前的大上下文模型无法有效处理引用。与 RAG 能够轻松引用源文本块不同,大上下文方法失去了关键的透明度。对于任何需要可验证性的应用 —— 法律、医疗、技术领域 —— RAG 仍然是不可替代的。
上下文仍有限制
当然,100 万 token 相当于约 20 本书,看起来很惊人。然而,这对于许多现实世界的企业来说还远远不够。我们与管理着数十亿 —— 是的,数十亿 —— token 的公司合作。即使是 1000 万 token 的上下文也远远不够。对于如此海量的数据,实用且可扩展的 token 经济学仍未解决。
结论
虽然未来可能会带来支持仅使用上下文窗口模型的突破,但现在需要实用的解决方案。目前,RAG 仍然是有意义、可扩展的 AI 应用的唯一可行选择。RAG 不仅没有消亡 —— 它正在茁壮成长。
所以,RAG 还没有死,它才刚刚开始。
后续有很多值得我们探究的技术方向,比如Deep Search,Deep Research以及Agentic RAG等
添加微信,备注” LLM “进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/ 作者:致Great
/ 作者:欢迎转载,标注来源即可