智能体并非越多越好,45%准确率成关键拐点

大模型机器学习算法

在之前的文章里,我们提到过多智能体并不能直接提升系统性能《别再构建多智能体了》,Google最近一项研究《Towards a Science of Scaling Agent Systems》验证了"智能体并非越多越好"。他们在GPT、Gemini和Claude上进行了180次实验,发现当单个智能体的准确率超过45%时,增加更多智能体反而会损害整体性能。

picture.image

研究团队测试了五种架构:单智能体系统、独立多智能体(无通信)、集中式(通过协调者)、分散式(点对点)和混合式。他们在四个不同任务上进行对比:金融分析、网页浏览、游戏规划和工作流程执行,确保结果的普适性。

picture.image

三个关键发现

45%陷阱 :研究人员发现了一个明确的性能拐点。当单个智能体准确率低于45%时,增加智能体数量确实能提升效果;但一旦超过这个阈值,系统就会陷入协调困境,性能不升反降。这个阈值是通过分析单智能体基线性能与智能体数量交互效应得出的(β=-0.408, p<0.001)。

picture.image

工具税 :对于需要频繁使用外部工具的任务,协调开销会不成比例地增加。每个API调用都成为潜在的故障点,系统复杂度呈指数级增长。研究显示,在工具密集型环境中(16个工具),多智能体系统的效率下降2-6倍,从单智能体的0.466降至多智能体的0.074-0.234。

picture.image

错误螺旋 :独立运行的智能体可能将错误放大17.2倍。一个智能体的错误判断会像多米诺骨牌一样影响整个系统。相比之下,集中式架构通过协调者验证机制将错误放大控制在4.4倍。

架构选择比数量更重要

实验结果显示,不同任务需要不同的架构策略。在金融分析任务中,集中式多智能体表现最佳,相比单智能体提升80.9%。但在需要顺序推理的规划任务中,所有多智能体变体都表现糟糕,性能下降39%-70%。

picture.image

超线性扩展成本 :研究发现,推理轮次随智能体数量的增长遵循幂律T=2.72×(n+0.5)^1.724。这意味着在固定计算预算下,超过3-4个智能体后,每个智能体的推理能力会急剧下降。

错误分类学 :论文识别了四类错误模式:逻辑矛盾、数值漂移、上下文遗漏和协调失败。集中式架构在减少逻辑矛盾方面表现最佳(减少36.4%),而混合架构由于协议复杂性反而增加了数值漂移(26.4%)。

从炼金术到科学

研究团队基于这些发现推导出一个预测公式,包含20个参数,能够以87%的准确率预测最佳架构配置。该模型在交叉验证中解释了51.3%的性能差异,这意味着智能体设计正在从"炼金术"走向科学。

picture.image

有开发者在实际项目中验证了这一发现。有开发者表示,45%的门槛值解释了他之前多智能体实验失败的原因:"单个能力强的智能体可以直接部署到生产环境,而协调的智能体群每个API调用都是需要监控的潜在故障点,只会带来调试噩梦"。

“少即是多”,在工程领域,这样的经验认识早已经有了,但将其以学术的形式量化出来还是值得一看的。

论文链接:https://arxiv.org/abs/2512.08296

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论