关于 AI Agent 架构是否要用 Multi-Agent(多智能体),Cognition 和 Anthropic 相继发表了两篇看似观点截然相反的文章,论述了他们在构建 Devin 和 Claude 时的研究实践。
Cognition: Don’t Build Multi-Agents(不要构建多智能体)vs Anthropic: How we built our multi-agent research system(我们如何构建多智能体研究系统),观点对抗的火药味起来了 🔥
Anthropic 多智能体研究系统 -- 什么任务需要多智能体?多个 AI 怎么协作?怎么解决上下文和记忆问题?
别整多智能体(Multi-Agents)了,构建AI Agent的关键在于上下文工程(Context Engineering)
那两个顶尖 AI 研究团队,观点到底有什么分歧、又有什么共同呢,咱们一起来看看吧 👁
Anthropic: How we built our multi-agent research system
Anthropic 详细介绍了他们的多智能体研究系统的设计和实现,强调其在处理复杂、开放式研究任务中的优势。系统采用“领头智能体+子智能体”的架构,领头智能体负责分解任务并协调多个子智能体并行搜索信息,最终汇总结果。
- 多智能体的优势:
· 适合动态、复杂任务(如研究),能并行探索多个方向,模拟人类研究中的灵活调整。
· 通过子智能体分离关注点,突破单一智能体上下文窗口的限制,显著提升性能(内部评估显示比单智能体高90.2%)。
· 核心在于“压缩”:子智能体独立处理信息后,领头智能体整合关键内容。
- 设计与实现:
· 架构:领头智能体制定计划,生成子智能体并分配任务,子智能体使用工具(如网页搜索)并行工作。
· 提示工程:通过精准提示引导智能体行为,例如明确任务分工、工具选择和搜索策略。
· 并行化:通过并行调用工具和子智能体,研究时间缩短高达90%。
· 评估:结合 LLM 评分和人工测试,确保结果准确性和可靠性。
- 挑战与解决方案:
· 协调复杂性:智能体可能重复工作或选错工具,需通过提示优化分工。
· 高算力消耗:多智能体消耗15倍于普通聊天的算力,需针对高价值任务。
· 生产可靠性:通过错误恢复、状态持久化和渐进式部署确保系统稳定。
- 适用场景:
· 擅长需要并行化、信息量大的任务(如查找公司信息、学术研究)。
· 不适合需要高度共享上下文或实时协调的任务(如编程)。
Cognition: Don’t Build Multi-Agents
Cognition 质疑多智能体架构的可靠性,认为其在生产环境中容易出错,主张单一智能体或简化架构更实用。
- 多智能体的缺点:
· 上下文丢失:子智能体难以共享完整上下文,易导致误解或不一致(如在构建游戏时,子智能体生成风格不匹配的组件)。
· 决策冲突:子智能体的独立决策可能相互矛盾,影响最终结果。
- 上下文工程的核心原则:
· 原则1:共享完整上下文:每个智能体需了解完整任务背景和先前决策,避免误解。
· 原则2:避免隐性决策冲突:子智能体的行动隐含决策,若不协调,易导致不一致。
- 推荐的架构:
· 单一智能体:上下文连续,适合大多数任务,但在大规模任务中可能因上下文窗口限制而失效。
· 上下文压缩模型:引入专用模型压缩历史记录,保留关键信息,适合长时任务。
· 反对多智能体间的“对话式”协作,认为当前技术下智能体无法像人类一样高效沟通。
- 实际案例:
· 编程任务(如Claude Code)倾向于避免并行子智能体,因上下文共享需求高。
· 早期代码编辑模型(大模型生成说明,小模型执行)因上下文传递不准确而失败,证明单一模型更可靠。
- 未来展望:
多智能体协作潜力巨大,但需解决跨智能体上下文传递问题,可能随单智能体沟通能力的提升自然实现。
两篇文章的主要观点异同
主要分歧:
· 架构选择:Anthropic 强调多智能体的并行化优势,适合需要探索多个信息源的任务;Cognition 认为多智能体因上下文断裂而脆弱,主张单一智能体或简化架构。
· 上下文管理:Anthropic 通过提示工程和内存机制解决上下文问题;Cognition 提出上下文压缩模型,强调完整上下文共享。
· 任务适用性:Anthropic 认为多智能体适合研究任务,承认编程等任务不适用;Cognition 以编程为例,质疑多智能体在大多数场景的实用性。
共同点:
· 都认可上下文管理是智能体系统的核心挑战。
· 都强调提示工程和评估的重要性。
· 都认为生产环境中的可靠性需要精心设计(如错误恢复、状态管理)。
关键洞见
- 多智能体适合特定场景,但非万能:
· 多智能体系统在需要并行探索、处理海量信息的任务(如研究)中表现优异,但对上下文高度依赖的任务(如编程)效果不佳。
· 选择架构时需根据任务特性权衡:并行化 vs. 上下文一致性。
- 上下文是智能体系统的命脉:
· 无论是多智能体还是单一智能体,上下文的准确传递和有效管理都至关重要。
· Anthropic 通过提示和内存机制、Cognition 通过压缩模型,都在解决上下文窗口限制问题。
- 生产环境的可靠性是关键挑战:
· 智能体系统在生产环境中面临状态管理、错误累积和非确定性问题,需要 可观察性、错误恢复和渐进式部署等工程实践。
· 多智能体因复杂性更高,需更严格的测试和监控。
- 提示工程是核心技术:
· 两篇文章都强调提示工程在引导智能体行为、优化协调和提高效率中的作用。
· 提示需明确任务分工、工具使用和搜索策略,同时避免过于死板。
- 未来方向:
· 多智能体系统的潜力依赖于跨智能体上下文传递和协调能力的提升。
· 单智能体能力的进步(如更高效的上下文管理)可能为多智能体协作铺平道路。
总结建议
开发者选择架构时:
· 如果任务需要并行处理大量信息(如市场调研、学术研究),可参考Anthropic 的多智能体架构,但需投入资源优化提示和协调机制。
· 如果任务对上下文一致性要求高(如编程、长时对话),优先考虑单一智能体或带上下文压缩的架构。
工程实践:
· 重视提示工程,模拟人类专家的思维方式(如分解任务、评估来源)。
· 建立灵活的评估体系,结合 LLM 评分和人工测试,关注结果而非固定路径。
· 确保生产可靠性,通过状态持久化、错误恢复和可观察性应对复杂性。
关注技术演进:
· 当前多智能体系统的局限(高算力、协调复杂性)可能随模型能力和上下文管理技术的进步而缓解。
· 跟踪上下文压缩、工具设计和智能体协作的最新研究,以优化系统设计。
