2025年智能体 2.0架构模式：，从浅层循环到深度智能体

在过去一年中，构建 AI 智能体通常意味着一个固定模式：设置一个循环，接收用户指令，将其发送给大模型（LLM），解析工具调用，执行工具，然后将结果返回，如此往复。这便是我们所说的“浅层智能体”或“智能体 1.0”。

这种架构在处理事务性任务时（例如“东京天气如何，我该穿什么？”）表现出色，因为它极其简单。然而，一旦任务需要几十个步骤并持续数天，这些智能体往往会分心、丢失上下文、陷入无限循环，甚至出现幻觉。这是因为这类任务所需步骤过多，超出了单一上下文窗口的处理能力。

目前，我们正目睹一场架构上的转变，朝着“深度智能体”或“智能体 2.0”迈进。这些系统不再仅仅通过循环进行被动响应，而是结合了多种“智能体模式”来规划任务、管理“持久化内存/状态”，并将工作委派给专业化的“子智能体”，从而解决多步骤、复杂的难题。

picture.image

智能体架构概览

智能体 1.0：“浅层”循环的局限性

为了理解未来的发展方向，我们首先需要审视当前的状态。目前大多数智能体都属于“浅层”智能体，这意味着它们完全依赖大模型（LLM）的上下文窗口（即对话历史）来维持其状态。

其工作流程通常如下：

用户指令： “查一下苹果公司的股价，并告诉我是否值得买入。”
LLM 推理： “我需要使用搜索工具。”
工具调用： search("AAPL stock price")
观察结果： 工具返回数据。
LLM 回答： 根据观察结果生成回复，或者调用另一个工具。
重复： 循环执行，直到任务完成。

这种架构是无状态且短暂的。智能体的整个“大脑”都局限于上下文窗口内。当任务变得复杂时，例如“研究 10 家竞争对手，分析它们的定价模型，制作一份对比电子表格，并撰写一份战略总结”，它将由于以下原因而失败：

上下文溢出： 工具输出（HTML、杂乱的数据）会迅速填满上下文历史，将重要的指令挤出上下文窗口。
目标丢失： 在中间步骤的噪音中，智能体会忘记最初的目标。
无恢复机制： 如果它误入歧途，很少有预见性来停止、回溯并尝试新的方法。

浅层智能体擅长处理 5 到 15 个步骤的任务，但对于需要 500 个步骤的任务则束手无策。

智能体 2.0（深度智能体）的架构

深度智能体将规划与执行分离，并在上下文窗口之外管理内存。其架构由以下四个支柱组成：

支柱一：显式规划

浅层智能体通过思维链（例如“我应该先做 X，然后做 Y”）进行隐式规划。而深度智能体则使用工具来创建和维护显式计划，这可以是一个 Markdown 文档中的待办事项列表。

在每个步骤之间，智能体都会审查并更新这个计划，将步骤标记为“待处理”、“进行中”或“已完成”，或者添加备注。如果某个步骤失败，它不会盲目地重试，而是更新计划以适应此次失败。这使得智能体能够始终专注于高层次任务。

支柱二：分层委托（子智能体）

复杂的任务需要专业化分工。浅层智能体试图在一个指令中扮演多面手，而深度智能体则采用“协调器 → 子智能体”的模式。

协调器将任务委派给一个或多个子智能体，每个子智能体都有一个独立的、清晰的上下文。子智能体（例如“研究员”、“程序员”、“撰稿人”）执行其工具调用循环（搜索、处理错误、重试），然后汇总最终答案，并将仅合成后的答案 返回给协调器。

支柱三：持久化内存

为了防止上下文窗口溢出，深度智能体利用外部内存源，如文件系统或向量数据库作为其事实来源。像 Claude Code 和 Manus 这样的框架允许智能体对这些外部源进行读写访问。智能体可以将中间结果（代码、草稿文本、原始数据）写入其中。后续的智能体只通过文件路径或查询来检索必要的信息。这将范式从“记住一切”转变为“知道在哪里可以找到信息”。

支柱四：极致上下文工程

更智能的模型并非不需要提示，而是需要更好的上下文。你无法通过一句“你是一个乐于助人的 AI”来获得智能体 2.0 的行为。深度智能体依赖于高度详细的指令，有时长达数千个令牌。这些指令定义了：

何时停止并规划，而非直接行动。
何时生成子智能体，以及何时自行完成工作。
工具的定义，以及何时、如何使用工具的示例。
文件命名和目录结构的标准。
人机协作的严格格式。

深度智能体流程可视化

这些支柱是如何协同工作的呢？让我们通过一个序列图来了解深度智能体如何处理一个复杂请求：“研究量子计算并将总结写入文件。”

picture.image

深度智能体序列图

总结

从浅层智能体到深度智能体（智能体 1.0 到智能体 2.0）的转变，不仅仅是将大模型连接到更多工具。它代表着从被动循环到主动架构的转变，以及对模型进行更精良的工程设计。

通过实施显式规划、分层委托（通过子智能体）和持久化内存，我们能够更好地控制上下文。通过控制上下文，我们便能驾驭复杂性，从而能够解决需要数小时甚至数天才能完成的问题，而不仅仅是几秒钟。

“深度智能体”一词主要由 LangChain 团队推广，用以描述这一架构演进。