More Agents Is All You Need - 文章 - 开发者社区


          
论文题目：More Agents Is All You Need
          
论文链接：https://arxiv.org/pdf/2402.05120.pdf

论文主要研究了大型语言模型（LLMs）的性能如何随着实例化Agents数量的增加而提升。通过简单的采样和投票方法，LLMs的性能可以通过增加Agents数量来提升。这种方法与现有的复杂方法相独立，并且性能提升的程度与任务难度相关。

在多种LLM基准测试上进行了全面的实验，以验证这一发现，并研究了促进这种现象发生的属性。提出了一种 简单的采样和投票方法 ，分为两个阶段：

论文提出方法的示意图

picture.image

论文讨论了相关工作，包括

LLM自集成、异构LLM集成和多个LLM Agents协作

，并与提出的方法进行了对比：

论文方法与最相关工作对比

picture.image

在多个任务上进行了评估，包括算术推理、一般推理和代码生成。实验结果表明，论文提出的方法 与其他现有方法结合使用 、 单独使用 都能取得相当不错的效果。

picture.image

论文进行了消融研究，以评估不同超参数变化对最终性能的影响：

无论这些超参数如何变化，增加Agents数量（即采样次数）都能一致地提高LLM在不同任务上的性能。

“温度”T用于控制模型生成文本的多样性，“核概率”p与模型输出的截断概率有关

picture.image

此外，论文还分析了

性能提升与问题难度之间

的关系：

固有难度：随着任务固有难度的增加，性能提升（即相对性能增益）也会增加，但当难度达到一定程度后，增益会逐渐减少。这表明在任务过于复杂时，模型的推理能力可能无法跟上，导致性能提升的边际效应递减。
步骤数量：随着解决任务所需的步骤数量增加，性能提升也会增加。这表明在多步骤任务中，通过增加Agents数量可以帮助模型更好地处理每一步，从而整体提高任务的解决性能。
先验概率：正确答案的先验概率越高，性能提升越大。这意味着在正确答案更有可能的情况下，增加Agents数量更有可能带来显著的性能提升。

节点：步骤，虚线：可能的替代步骤。节点的深度：步骤的数量，颜色的强度：固有难度的水平。图示帮助读者理解任务的复杂性是如何通过这些维度来衡量的。

picture.image

基于此，论文提出了两种优化策略来进一步提升“更多Agents”方法的有效性：

逐步采样和投票（Step-wise Sampling-and-Voting）：这种方法将任务分解为多个步骤，并在每个步骤中应用采样和投票，以减少累积错误并提高整体性能。
分层采样和投票（Hierarchical Sampling-and-Voting）：这种方法将低概率任务分解为多个高概率子任务，并分层解决，同时可以使用不同模型来处理不同概率的子任务，以实现成本效益。

最后，提出了未来的工作方向，包括优化采样阶段以降低成本，并继续开发机制来减轻LLM幻觉（hallucinations）的潜在负面影响，确保这些强大模型的部署既负责任又有益。