More Agents Is All You Need

大模型人工智能与算法MySQL

          
论文题目:More Agents Is All You Need
          
论文链接:https://arxiv.org/pdf/2402.05120.pdf
      

论文主要研究了大型语言模型(LLMs)的性能如何随着实例化Agents数量的增加而提升。通过简单的采样和投票方法,LLMs的性能可以通过增加Agents数量来提升。这种方法与现有的复杂方法相独立,并且性能提升的程度与任务难度相关。

在多种LLM基准测试上进行了全面的实验,以验证这一发现,并研究了促进这种现象发生的属性。提出了一种 简单的采样和投票方法 ,分为两个阶段:

  • 将任务查询输入到单个LLM或多个LLM Agents协作框架中,生成多个输出;
  • 通过多数投票确定最终结果。这种方法受到CoT-SC的启发,但不依赖于设计复杂的CoT路径。

论文提出方法的示意图

picture.image

论文讨论了相关工作,包括

LLM自集成、异构LLM集成和多个LLM Agents协作

,并与提出的方法进行了对比:

论文方法与最相关工作对比

picture.image

在多个任务上进行了评估,包括算术推理、一般推理和代码生成。实验结果表明,论文提出的方法 与其他现有方法结合使用单独使用 都能取得相当不错的效果。

picture.image

论文进行了消融研究,以评估不同超参数变化对最终性能的影响:

无论这些超参数如何变化,增加Agents数量(即采样次数)都能一致地提高LLM在不同任务上的性能。

“温度”T用于控制模型生成文本的多样性,“核概率”p与模型输出的截断概率有关

picture.image

此外,论文还分析了

性能提升与问题难度之间

的关系:

  1. 固有难度:随着任务固有难度的增加,性能提升(即相对性能增益)也会增加,但当难度达到一定程度后,增益会逐渐减少。这表明在任务过于复杂时,模型的推理能力可能无法跟上,导致性能提升的边际效应递减。
  2. 步骤数量:随着解决任务所需的步骤数量增加,性能提升也会增加。这表明在多步骤任务中,通过增加Agents数量可以帮助模型更好地处理每一步,从而整体提高任务的解决性能。
  3. 先验概率:正确答案的先验概率越高,性能提升越大。这意味着在正确答案更有可能的情况下,增加Agents数量更有可能带来显著的性能提升。

节点:步骤,虚线:可能的替代步骤。节点的深度:步骤的数量,颜色的强度:固有难度的水平。图示帮助读者理解任务的复杂性是如何通过这些维度来衡量的。

picture.image

基于此,论文提出了两种优化策略来进一步提升“更多Agents”方法的有效性:

  • 逐步采样和投票(Step-wise Sampling-and-Voting):这种方法将任务分解为多个步骤,并在每个步骤中应用采样和投票,以减少累积错误并提高整体性能。
  • 分层采样和投票(Hierarchical Sampling-and-Voting):这种方法将低概率任务分解为多个高概率子任务,并分层解决,同时可以使用不同模型来处理不同概率的子任务,以实现成本效益。

最后,提出了未来的工作方向,包括优化采样阶段以降低成本,并继续开发机制来减轻LLM幻觉(hallucinations)的潜在负面影响,确保这些强大模型的部署既负责任又有益。

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 GPU Scale-up 互联技术白皮书
近日,字节跳动正式发布基于以太网极致优化的 GPU Scale-up 互联技术白皮书,推出 EthLink 的创新网络方案,旨在为 AI 集群提供低延迟、高带宽的高速互联传输,满足 AI 应用对 GPU 之间高效通信的需求。这一举措标志着字节跳动在 AI 基础设施领域的突破,有望推动通用人工智能(AGI)和大语言模型(LLM)的进一步发展。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论