解析Claude Research背后的多智能体架构 - 文章 - 开发者社区

引言

小伙伴们好，我是微信公众号"小窗幽记机器学习"的小编卖铁观音的小男孩。继续Agent智能体专题，今天将为大家解析Anthropic于6月13日发布的技术文章：《How we built our multi-agent research system》，揭示Claude "Research"功能背后的多智能体协作系统。这篇文章不仅展示了从概念到产品的完整演进过程，还坦诚分享了开发团队遇到的工程挑战与解决方案。本文基于官方博客进行精要解读，更多细节可查阅本微信公众号"小窗幽记机器学习"里面的中文完整版：Claude Research背后的多智能体系统(完整版)。

官方原始文章：

https://www.anthropic.com/engineering/built-multi-agent-research-system

欢迎关注"小窗幽记机器学习"，获取更多前沿AI技术分析。

为何选择多智能体系统？

Anthropic的出发点十分明确：单一的、线性的AI流程无法有效处理开放、动态且路径依赖的研究任务。传统的研究过程充满不确定性，研究者需要根据新发现不断调整策略。多智能体系统通过模拟“集体智慧”解决了这一难题。

其核心优势在于并行化与压缩 。系统由一个“主智能体”（Orchestrator）负责规划，并将任务分解给多个并行的“子智能体”（Workers）。每个子智能体在独立的上下文中运作，如同一个专注的研究员，负责探索问题的某个侧面。它们并行地从海量信息中搜集、提炼关键洞见，最后汇总给主智能体进行综合分析。这种架构有效地**“压缩”了信息，减少了路径依赖，并实现了广度优先的探索。**

Anthropic用一个惊人的数据证明了其有效性：在内部评估中，由Claude Opus和Sonnet组成的多智能体系统，在处理广度优先的查询任务时，性能比单独使用更强大的单智能体Claude Opus高出90.2%。这一数字雄辩地说明，当智能达到一定阈值后，系统架构的优化将成为性能跃升的关键。

Token消耗是关键驱动力

文章揭示了一个反直觉但至关重要的洞见：在浏览类任务中，高达80%的性能差异可以由Token使用量来解释 。这意味着，要想让AI解决更复杂的问题，就需要让它“思考”得更多、更深。多智能体架构的本质，就是一种有效扩展Token使用量 的机制，它通过并行上下文窗口，突破了单个智能体所能处理的信息和推理上限。

然而，这种性能提升并非没有代价。文章坦言，多智能体系统是“Token消耗大户”，其消耗量约是普通聊天交互的15倍。这直接引出了一个商业现实：该技术目前更适用于那些价值足够高，能够覆盖其成本的复杂任务 。同时，它也并非万能，对于像编码这样并行化程度较低、或需要所有智能体共享上下文的任务，其优势并不明显。

从理念到现实：架构、提示与评估的实践总结

Anthropic的分享中最具价值的部分，在于其将抽象理念落地为具体实践的经验总结。

1. 架构设计：动态的“研究团队”

该系统采用了经典的“协调器-工作器”模式。用户查询后，主智能体（LeadResearcher）首先进行规划，然后创建若干专业的子智能体并行执行搜索。子智能体完成任务后将结果返回，主智能体再综合判断是否需要进一步研究，或将结果交由专门的“引文智能体”（CitationAgent）处理，确保信息来源的准确性。这套流程远比静态的检索增强生成（RAG）更为动态和智能。

2. 提示工程：管理一支“AI团队”的艺术

管理多个自主运行的AI，其复杂性远超单个AI。Anthropic坦言，早期的智能体常常犯错，比如为简单问题创建过多子智能体，或陷入无休止的搜索。为此，他们总结了八条极具实践指导意义的提示工程原则，其核心思想是将AI视为需要明确指导和管理框架的“智能员工”：

1、像你的智能体一样思考：

开发者必须深入理解AI的“心智模型”。通过模拟智能体的工作流程，可以直观地发现其决策逻辑的缺陷，例如在已有足够结果时仍不停止，或选择不当的工具。

2、教会协调者如何委派：

主智能体必须下达清晰、具体的指令。模糊的指令（如“研究半导体短缺”）会导致子智能体任务重叠或误解方向。有效的委派需要明确目标、输出格式、工具使用建议和任务边界。

3、根据查询复杂度调整工作量：

智能体自身难以判断任务所需投入。因此，需要在提示中嵌入规则，引导主智能体根据任务复杂度（如简单事实查找、对比分析或复杂研究）动态调整资源，如分配的子智能体数量和工具调用次数。

4、优化工具设计与选择： 智能体与工具的交互界面至关重要。糟糕的工具描述会直接误导AI。必须为工具提供清晰的用途说明，并教会智能体在通用工具和专用工具之间做出明智选择的启发式方法。

5、让智能体自我改进：

Anthropic发现Claude模型本身就是出色的“提示工程师”。他们创建了“工具测试智能体”，让其在使用一个有缺陷的工具后，自行诊断问题并重写工具描述，从而显著提升了后续智能体的使用效率。

6、先广泛搜索，再缩小范围：

纠正AI倾向于使用过长、过具体查询词的“坏习惯”。通过提示引导，教会智能体模仿专业研究者，先用宽泛的关键词了解全局，再逐步深入细节。

7、引导思维过程：

利用“扩展思维”（Expanded thought）模式，强制AI在行动前进行规划、推理和评估。这就像一个“草稿本”，主智能体用它来规划策略，子智能体用它来评估搜索结果，从而提升了任务执行的逻辑性和效率。

8、并行化是关键：

串行搜索速度缓慢，无法满足复杂研究的需求。通过实现两个层面的并行化——主智能体并行启动多个子智能体，以及子智能体并行调用多个工具——将复杂查询的研究时间缩短了高达90%。

这套策略的核心，并非设定僵硬的规则，而是向AI灌输一套行之有效的协作框架和问题解决方法论。

3. 评估体系：在不确定性中衡量成功

评估多智能体系统是一大难题，因为其路径非确定性，无法用固定的“正确步骤”来衡量。Anthropic提出了一套灵活务实的评估方法：

先测为上： 早期用少量（约20个）代表性查询进行测试，快速迭代。
LLM作为评判者： 利用大模型根据事实准确性、引用准确性、完整性等多个维度进行打分，实现了可扩展的自动化评估。
人工评估兜底： 人工测试依然不可或缺，用以发现自动化评估遗漏的边缘问题，如对信息源的选择偏好等。

生产化的“最后一英里”：工程挑战

文章最后强调，将原型转化为可靠的生产系统，其挑战远超预期。智能体的状态性 意味着微小错误可能被逐级放大，导致整个任务失败。为此，他们构建了错误恢复机制，并利用模型自身的智能来优雅地处理故障。此外，非确定性给调试带来了困难，需要通过全面的生产追踪来诊断问题。在部署上，他们采用“彩虹部署”策略，以避免更新对正在运行的智能体造成破坏。

结语与启示

Anthropic的这篇分享，为业界提供了一份宝贵的蓝图。它清晰地表明，AI应用的未来不仅在于模型本身的强大，更在于如何通过精巧的系统设计、细致的工程实践和深刻的场景理解，将AI的能力组织和释放出来。

多智能体系统虽然成本高昂且充满挑战，但它为解决特定领域的复杂问题开辟了新的可能性。它告诉我们，从单一“超级大脑”到“协同智能网络”的转变，或许正是AI从“工具”迈向“伙伴”和“解决方案”的关键一步。对于所有致力于构建高级AI应用的开发者而言，Anthropic的经验无疑是一堂深刻而及时的实践课。

更多AI相关欢迎关注微信公众号"小窗幽记机器学习"：

picture.image