Anthropic (Claude) vs Cognition (Devin) 多智能体系统未来之争 - 多智能体是不是花架子?

picture.image

关于 AI Agent 架构是否要用 Multi-Agent(多智能体),Cognition 和 Anthropic 相继发表了两篇看似观点截然相反的文章,论述了他们在构建 Devin 和 Claude 时的研究实践。

Cognition: Don’t Build Multi-Agents(不要构建多智能体)vs Anthropic: How we built our multi-agent research system(我们如何构建多智能体研究系统),观点对抗的火药味起来了 🔥

picture.image

Anthropic 多智能体研究系统 -- 什么任务需要多智能体?多个 AI 怎么协作?怎么解决上下文和记忆问题?

别整多智能体(Multi-Agents)了,构建AI Agent的关键在于上下文工程(Context Engineering)

那两个顶尖 AI 研究团队,观点到底有什么分歧、又有什么共同呢,咱们一起来看看吧 👁

picture.image

Anthropic: How we built our multi-agent research system

Anthropic 详细介绍了他们的多智能体研究系统的设计和实现,强调其在处理复杂、开放式研究任务中的优势。系统采用“领头智能体+子智能体”的架构,领头智能体负责分解任务并协调多个子智能体并行搜索信息,最终汇总结果。

  1. 多智能体的优势:

· 适合动态、复杂任务(如研究),能并行探索多个方向,模拟人类研究中的灵活调整。

· 通过子智能体分离关注点,突破单一智能体上下文窗口的限制,显著提升性能(内部评估显示比单智能体高90.2%)。

· 核心在于“压缩”:子智能体独立处理信息后,领头智能体整合关键内容。

  1. 设计与实现:

· 架构:领头智能体制定计划,生成子智能体并分配任务,子智能体使用工具(如网页搜索)并行工作。

· 提示工程:通过精准提示引导智能体行为,例如明确任务分工、工具选择和搜索策略。

· 并行化:通过并行调用工具和子智能体,研究时间缩短高达90%。

· 评估:结合 LLM 评分和人工测试,确保结果准确性和可靠性。

  1. 挑战与解决方案:

· 协调复杂性:智能体可能重复工作或选错工具,需通过提示优化分工。

· 高算力消耗:多智能体消耗15倍于普通聊天的算力,需针对高价值任务。

· 生产可靠性:通过错误恢复、状态持久化和渐进式部署确保系统稳定。

  1. 适用场景:

· 擅长需要并行化、信息量大的任务(如查找公司信息、学术研究)。

· 不适合需要高度共享上下文或实时协调的任务(如编程)。

Cognition: Don’t Build Multi-Agents

Cognition 质疑多智能体架构的可靠性,认为其在生产环境中容易出错,主张单一智能体或简化架构更实用。

  1. 多智能体的缺点:

· 上下文丢失:子智能体难以共享完整上下文,易导致误解或不一致(如在构建游戏时,子智能体生成风格不匹配的组件)。

· 决策冲突:子智能体的独立决策可能相互矛盾,影响最终结果。

  1. 上下文工程的核心原则:

· 原则1:共享完整上下文:每个智能体需了解完整任务背景和先前决策,避免误解。

· 原则2:避免隐性决策冲突:子智能体的行动隐含决策,若不协调,易导致不一致。

  1. 推荐的架构:

· 单一智能体:上下文连续,适合大多数任务,但在大规模任务中可能因上下文窗口限制而失效。

· 上下文压缩模型:引入专用模型压缩历史记录,保留关键信息,适合长时任务。

· 反对多智能体间的“对话式”协作,认为当前技术下智能体无法像人类一样高效沟通。

  1. 实际案例:

· 编程任务(如Claude Code)倾向于避免并行子智能体,因上下文共享需求高。

· 早期代码编辑模型(大模型生成说明,小模型执行)因上下文传递不准确而失败,证明单一模型更可靠。

  1. 未来展望:

多智能体协作潜力巨大,但需解决跨智能体上下文传递问题,可能随单智能体沟通能力的提升自然实现。

两篇文章的主要观点异同

picture.image

主要分歧:

· 架构选择:Anthropic 强调多智能体的并行化优势,适合需要探索多个信息源的任务;Cognition 认为多智能体因上下文断裂而脆弱,主张单一智能体或简化架构。

· 上下文管理:Anthropic 通过提示工程和内存机制解决上下文问题;Cognition 提出上下文压缩模型,强调完整上下文共享。

· 任务适用性:Anthropic 认为多智能体适合研究任务,承认编程等任务不适用;Cognition 以编程为例,质疑多智能体在大多数场景的实用性。

共同点:

· 都认可上下文管理是智能体系统的核心挑战。

· 都强调提示工程和评估的重要性。

· 都认为生产环境中的可靠性需要精心设计(如错误恢复、状态管理)。

关键洞见

  1. 多智能体适合特定场景,但非万能:

· 多智能体系统在需要并行探索、处理海量信息的任务(如研究)中表现优异,但对上下文高度依赖的任务(如编程)效果不佳。

· 选择架构时需根据任务特性权衡:并行化 vs. 上下文一致性。

  1. 上下文是智能体系统的命脉:

· 无论是多智能体还是单一智能体,上下文的准确传递和有效管理都至关重要。

· Anthropic 通过提示和内存机制、Cognition 通过压缩模型,都在解决上下文窗口限制问题。

  1. 生产环境的可靠性是关键挑战:

· 智能体系统在生产环境中面临状态管理、错误累积和非确定性问题,需要 可观察性、错误恢复和渐进式部署等工程实践。

· 多智能体因复杂性更高,需更严格的测试和监控。

  1. 提示工程是核心技术:

· 两篇文章都强调提示工程在引导智能体行为、优化协调和提高效率中的作用。

· 提示需明确任务分工、工具使用和搜索策略,同时避免过于死板。

  1. 未来方向:

· 多智能体系统的潜力依赖于跨智能体上下文传递和协调能力的提升。

· 单智能体能力的进步(如更高效的上下文管理)可能为多智能体协作铺平道路。

总结建议

开发者选择架构时:

· 如果任务需要并行处理大量信息(如市场调研、学术研究),可参考Anthropic 的多智能体架构,但需投入资源优化提示和协调机制。

· 如果任务对上下文一致性要求高(如编程、长时对话),优先考虑单一智能体或带上下文压缩的架构。

工程实践:

· 重视提示工程,模拟人类专家的思维方式(如分解任务、评估来源)。

· 建立灵活的评估体系,结合 LLM 评分和人工测试,关注结果而非固定路径。

· 确保生产可靠性,通过状态持久化、错误恢复和可观察性应对复杂性。

关注技术演进:

· 当前多智能体系统的局限(高算力、协调复杂性)可能随模型能力和上下文管理技术的进步而缓解。

· 跟踪上下文压缩、工具设计和智能体协作的最新研究,以优化系统设计。

0
0
0
0
评论
未登录
暂无评论