Anthropic (Claude) vs Cognition (Devin) 多智能体系统未来之争 - 多智能体是不是花架子？ - 文章 - 开发者社区

picture.image

关于 AI Agent 架构是否要用 Multi-Agent(多智能体)，Cognition 和 Anthropic 相继发表了两篇看似观点截然相反的文章，论述了他们在构建 Devin 和 Claude 时的研究实践。

Cognition: Don’t Build Multi-Agents（不要构建多智能体）vs Anthropic: How we built our multi-agent research system（我们如何构建多智能体研究系统），观点对抗的火药味起来了 🔥

picture.image

Anthropic 多智能体研究系统 -- 什么任务需要多智能体？多个 AI 怎么协作？怎么解决上下文和记忆问题？

别整多智能体(Multi-Agents)了，构建AI Agent的关键在于上下文工程(Context Engineering)

那两个顶尖 AI 研究团队，观点到底有什么分歧、又有什么共同呢，咱们一起来看看吧 👁

picture.image

Anthropic: How we built our multi-agent research system

Anthropic 详细介绍了他们的多智能体研究系统的设计和实现，强调其在处理复杂、开放式研究任务中的优势。系统采用“领头智能体+子智能体”的架构，领头智能体负责分解任务并协调多个子智能体并行搜索信息，最终汇总结果。

多智能体的优势：

· 适合动态、复杂任务（如研究），能并行探索多个方向，模拟人类研究中的灵活调整。

· 通过子智能体分离关注点，突破单一智能体上下文窗口的限制，显著提升性能（内部评估显示比单智能体高90.2%）。

· 核心在于“压缩”：子智能体独立处理信息后，领头智能体整合关键内容。

设计与实现：

· 架构：领头智能体制定计划，生成子智能体并分配任务，子智能体使用工具（如网页搜索）并行工作。

· 提示工程：通过精准提示引导智能体行为，例如明确任务分工、工具选择和搜索策略。

· 并行化：通过并行调用工具和子智能体，研究时间缩短高达90%。

· 评估：结合 LLM 评分和人工测试，确保结果准确性和可靠性。

挑战与解决方案：

· 协调复杂性：智能体可能重复工作或选错工具，需通过提示优化分工。

· 高算力消耗：多智能体消耗15倍于普通聊天的算力，需针对高价值任务。

· 生产可靠性：通过错误恢复、状态持久化和渐进式部署确保系统稳定。

适用场景：

· 擅长需要并行化、信息量大的任务（如查找公司信息、学术研究）。

· 不适合需要高度共享上下文或实时协调的任务（如编程）。

Cognition: Don’t Build Multi-Agents

Cognition 质疑多智能体架构的可靠性，认为其在生产环境中容易出错，主张单一智能体或简化架构更实用。

多智能体的缺点：

· 上下文丢失：子智能体难以共享完整上下文，易导致误解或不一致（如在构建游戏时，子智能体生成风格不匹配的组件）。

· 决策冲突：子智能体的独立决策可能相互矛盾，影响最终结果。

上下文工程的核心原则：

· 原则1：共享完整上下文：每个智能体需了解完整任务背景和先前决策，避免误解。

· 原则2：避免隐性决策冲突：子智能体的行动隐含决策，若不协调，易导致不一致。

推荐的架构：

· 单一智能体：上下文连续，适合大多数任务，但在大规模任务中可能因上下文窗口限制而失效。

· 上下文压缩模型：引入专用模型压缩历史记录，保留关键信息，适合长时任务。

· 反对多智能体间的“对话式”协作，认为当前技术下智能体无法像人类一样高效沟通。

实际案例：

· 编程任务（如Claude Code）倾向于避免并行子智能体，因上下文共享需求高。

· 早期代码编辑模型（大模型生成说明，小模型执行）因上下文传递不准确而失败，证明单一模型更可靠。

未来展望：

多智能体协作潜力巨大，但需解决跨智能体上下文传递问题，可能随单智能体沟通能力的提升自然实现。

两篇文章的主要观点异同

picture.image

主要分歧：

· 架构选择：Anthropic 强调多智能体的并行化优势，适合需要探索多个信息源的任务；Cognition 认为多智能体因上下文断裂而脆弱，主张单一智能体或简化架构。

· 上下文管理：Anthropic 通过提示工程和内存机制解决上下文问题；Cognition 提出上下文压缩模型，强调完整上下文共享。

· 任务适用性：Anthropic 认为多智能体适合研究任务，承认编程等任务不适用；Cognition 以编程为例，质疑多智能体在大多数场景的实用性。

共同点：

· 都认可上下文管理是智能体系统的核心挑战。

· 都强调提示工程和评估的重要性。

· 都认为生产环境中的可靠性需要精心设计（如错误恢复、状态管理）。

关键洞见

多智能体适合特定场景，但非万能：

· 多智能体系统在需要并行探索、处理海量信息的任务（如研究）中表现优异，但对上下文高度依赖的任务（如编程）效果不佳。

· 选择架构时需根据任务特性权衡：并行化 vs. 上下文一致性。

上下文是智能体系统的命脉：

· 无论是多智能体还是单一智能体，上下文的准确传递和有效管理都至关重要。

· Anthropic 通过提示和内存机制、Cognition 通过压缩模型，都在解决上下文窗口限制问题。

生产环境的可靠性是关键挑战：

· 智能体系统在生产环境中面临状态管理、错误累积和非确定性问题，需要可观察性、错误恢复和渐进式部署等工程实践。

· 多智能体因复杂性更高，需更严格的测试和监控。

提示工程是核心技术：

· 两篇文章都强调提示工程在引导智能体行为、优化协调和提高效率中的作用。

· 提示需明确任务分工、工具使用和搜索策略，同时避免过于死板。

未来方向：

· 多智能体系统的潜力依赖于跨智能体上下文传递和协调能力的提升。

· 单智能体能力的进步（如更高效的上下文管理）可能为多智能体协作铺平道路。

总结建议

开发者选择架构时：

· 如果任务需要并行处理大量信息（如市场调研、学术研究），可参考Anthropic 的多智能体架构，但需投入资源优化提示和协调机制。

· 如果任务对上下文一致性要求高（如编程、长时对话），优先考虑单一智能体或带上下文压缩的架构。

工程实践：

· 重视提示工程，模拟人类专家的思维方式（如分解任务、评估来源）。

· 建立灵活的评估体系，结合 LLM 评分和人工测试，关注结果而非固定路径。

· 确保生产可靠性，通过状态持久化、错误恢复和可观察性应对复杂性。

关注技术演进：

· 当前多智能体系统的局限（高算力、协调复杂性）可能随模型能力和上下文管理技术的进步而缓解。

· 跟踪上下文压缩、工具设计和智能体协作的最新研究，以优化系统设计。