论文题目:More Agents Is All You Need
论文链接:https://arxiv.org/pdf/2402.05120.pdf
论文主要研究了大型语言模型(LLMs)的性能如何随着实例化Agents数量的增加而提升。通过简单的采样和投票方法,LLMs的性能可以通过增加Agents数量来提升。这种方法与现有的复杂方法相独立,并且性能提升的程度与任务难度相关。
在多种LLM基准测试上进行了全面的实验,以验证这一发现,并研究了促进这种现象发生的属性。提出了一种 简单的采样和投票方法 ,分为两个阶段:
- 将任务查询输入到单个LLM或多个LLM Agents协作框架中,生成多个输出;
- 通过多数投票确定最终结果。这种方法受到CoT-SC的启发,但不依赖于设计复杂的CoT路径。
论文提出方法的示意图
论文讨论了相关工作,包括
LLM自集成、异构LLM集成和多个LLM Agents协作
,并与提出的方法进行了对比:
论文方法与最相关工作对比
在多个任务上进行了评估,包括算术推理、一般推理和代码生成。实验结果表明,论文提出的方法 与其他现有方法结合使用 、 单独使用 都能取得相当不错的效果。
论文进行了消融研究,以评估不同超参数变化对最终性能的影响:
无论这些超参数如何变化,增加Agents数量(即采样次数)都能一致地提高LLM在不同任务上的性能。
“温度”T用于控制模型生成文本的多样性,“核概率”p与模型输出的截断概率有关
此外,论文还分析了
性能提升与问题难度之间
的关系:
- 固有难度:随着任务固有难度的增加,性能提升(即相对性能增益)也会增加,但当难度达到一定程度后,增益会逐渐减少。这表明在任务过于复杂时,模型的推理能力可能无法跟上,导致性能提升的边际效应递减。
- 步骤数量:随着解决任务所需的步骤数量增加,性能提升也会增加。这表明在多步骤任务中,通过增加Agents数量可以帮助模型更好地处理每一步,从而整体提高任务的解决性能。
- 先验概率:正确答案的先验概率越高,性能提升越大。这意味着在正确答案更有可能的情况下,增加Agents数量更有可能带来显著的性能提升。
节点:步骤,虚线:可能的替代步骤。节点的深度:步骤的数量,颜色的强度:固有难度的水平。图示帮助读者理解任务的复杂性是如何通过这些维度来衡量的。
基于此,论文提出了两种优化策略来进一步提升“更多Agents”方法的有效性:
- 逐步采样和投票(Step-wise Sampling-and-Voting):这种方法将任务分解为多个步骤,并在每个步骤中应用采样和投票,以减少累积错误并提高整体性能。
- 分层采样和投票(Hierarchical Sampling-and-Voting):这种方法将低概率任务分解为多个高概率子任务,并分层解决,同时可以使用不同模型来处理不同概率的子任务,以实现成本效益。
最后,提出了未来的工作方向,包括优化采样阶段以降低成本,并继续开发机制来减轻LLM幻觉(hallucinations)的潜在负面影响,确保这些强大模型的部署既负责任又有益。
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。