LLM Agent前沿研究速览（含ICLR2025收录Agent论文） - 文章 - 开发者社区

作者｜任瑞阳

王禹淏吴诚颢

‍‍

机构｜中国人民大学

ICLR 2025

Do as We Do, Not as You Think: the Conformity of Large Language Models

https://arxiv.org/abs/2501.13381

picture.image

这篇论文试图解决的问题是大型语言模型（LLMs）在多智能体系统中的“从众行为”（conformity）现象及其潜在影响。具体来说，研究聚焦于以下几个方面：

从众行为的存在性：研究大型语言模型在多智能体协作环境中是否会表现出从众行为，即是否会因为其他智能体的意见而改变自己的判断。
影响从众行为的因素：分析哪些因素会影响大型语言模型的从众行为，例如交互时间（interaction time）和多数意见的规模（majority size）。
从众行为的缓解策略：探索如何减轻从众行为的负面影响，以提高多智能体系统的独立决策能力和整体性能。

论文通过引入一个新的基准测试BENCHFORM，设计了一系列实验和评估协议，来系统地研究这些问题。研究的动机在于，从众行为在人类群体决策中是一个已知的现象，而在多智能体系统中，这种行为可能会对系统的集体问题解决能力和伦理影响产生重要影响。因此，理解并缓解从众行为对于开发更健壮和符合伦理的协作AI系统至关重要。

Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows

https://arxiv.org/abs/2411.07763

picture.image

这篇论文试图解决的问题是如何在真实世界的企业环境中有效地将自然语言问题转化为SQL查询，即text-to-SQL任务。具体来说，它关注的是如何开发出能够处理复杂企业级数据库和SQL工作流的语言模型，这些模型需要能够理解大型数据库的元数据、处理多种SQL方言、执行复杂的数据转换和分析任务，并生成多条SQL查询以解决实际问题。

现有的text-to-SQL基准测试主要集中在相对简单的数据库和SQL查询上，而真实世界的企业数据通常存储在具有独特SQL方言的多种数据库系统中，这些系统具有大规模的模式（schema）和复杂的数据结构。此外，企业级的text-to-SQL工作流还需要利用项目代码库、外部知识和各种上下文信息来构建复杂的SQL查询。因此，开发一个能够反映真实世界企业级text-to-SQL工作流的评估框架对于推动该领域的发展至关重要。

论文提出了Spider 2.0，这是一个包含595个真实世界企业级text-to-SQL工作流问题的评估框架。这些任务涉及多种数据库系统、复杂的SQL查询和多样化的操作，从数据转换到分析。Spider 2.0的数据库来源于真实的数据应用，通常包含超过1000列，并存储在本地或云数据库系统中，如BigQuery和Snowflake。这些任务的复杂性远远超出了传统text-to-SQL挑战的范畴，需要模型能够与复杂的SQL工作流环境进行交互，处理极长的上下文，执行复杂的推理，并生成多条SQL查询。

论文的主要目标是通过Spider 2.0评估框架，展示现有语言模型在处理真实世界企业级text-to-SQL任务时的不足，并推动开发更智能、更自主的代码代理，以满足实际企业环境中的需求。

AFlow: Automating Agentic Workflow Generation

https://arxiv.org/abs/2410.10762

picture.image

这篇论文试图解决的问题是如何自动化地生成和优化大型语言模型（LLMs）的代理工作流（agentic workflows）。具体来说，它旨在减少人工设计这些工作流所需的努力，提高工作流的可扩展性和泛化能力，从而更有效地利用LLMs解决复杂任务。

大型语言模型（LLMs）：LLMs在多个领域（如代码生成、数据分析、决策制定和问题回答）中展示了强大的潜力。然而，这些模型的应用通常依赖于手动设计的代理工作流，这些工作流是结构化的LLM调用序列，伴随着详细的指令。

手动设计的局限性：手动设计和优化这些工作流需要大量的人力努力，这限制了LLMs在新领域和复杂任务中的可扩展性和适应性。
自动化工作流生成：如何自动化地生成和优化这些代理工作流，以减少对人工干预的依赖，并提高LLMs在不同任务中的性能？
效率和泛化能力：如何确保自动化方法能够高效地探索工作流的搜索空间，并生成对不同模型和任务都有效的解决方案？

论文提出了一个名为AFLOW的自动化框架，通过将工作流优化问题重新定义为一个在代码表示的工作流上的搜索问题来解决上述挑战。AFLOW使用蒙特卡洛树搜索（MCTS）算法，通过代码修改、树结构经验记录和执行反馈来迭代地改进工作流。

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models

https://arxiv.org/abs/2408.08926

picture.image

这篇论文试图解决如何量化和评估语言模型（LM）在网络安全领域的能力和风险的问题。具体来说，它介绍了 Cybench，这是一个用于评估语言模型在网络安全任务上的表现的框架。该框架旨在帮助研究人员、政策制定者和模型开发者更好地理解语言模型在网络安全中的潜在影响，特别是在攻击性（如识别漏洞和执行利用）和防御性（如渗透测试和漏洞检测）方面的应用。

论文的主要贡献包括：

提供了一个包含40个专业级CTF（Capture the Flag）任务的开放源代码基准测试，这些任务涵盖了从简单到非常复杂的各种难度级别。
引入了子任务（subtasks），将复杂任务分解为中间步骤，以便更详细地评估模型的能力。
构建了一个基于Kali Linux的代理（agent），该代理能够利用语言模型的能力来执行网络安全任务，并评估了8种不同的语言模型在这些任务上的表现。
探讨了不同代理架构（scaffolds）对模型性能的影响，并发现这种影响是模型依赖的。

通过这些工作，论文试图为网络安全领域提供一个更全面的评估框架，以应对语言模型可能带来的风险，并探索其在网络安全中的潜在应用。

Advantage Alignment Algorithms

https://arxiv.org/abs/2406.14662

这篇论文试图解决在多智能体强化学习中，尤其是在涉及合作与竞争元素的场景下，如何实现智能体之间的利益对齐问题。具体来说，论文关注以下几个核心问题：

智能体冲突问题：在多智能体环境中，智能体通常优化各自的目标，这可能导致冲突，尤其是在一般和博弈（general-sum games）中，简单的强化学习智能体往往会收敛到帕累托次优的纳什均衡（Pareto-suboptimal Nash equilibria），从而导致整体效率低下。
社会困境（Social Dilemmas）：社会困境是指个体采取自私行为会导致集体结果变差的情况。例如，在气候变化问题中，个体和国家追求经济增长的利益往往与集体行动减少碳排放的需求相冲突。这种困境在多智能体环境中普遍存在，需要找到方法使智能体能够自主地协调它们的利益，以实现更优的集体结果。
对手塑形（Opponent Shaping）：对手塑形是一种通过影响其他智能体的学习动态来激励期望行为的方法。现有的对手塑形算法（如LOLA、LOQA等）虽然在某些任务中取得了成功，但它们的数学表述复杂，计算负担重，并且难以扩展到连续动作空间。论文提出了一种新的对手塑形方法——优势对齐（Advantage Alignment），旨在简化对手塑形的数学表述，降低计算负担，并扩展到连续动作空间。

算法的可扩展性：在更复杂、高维的环境中，如Melting Pot的Commons Harvest Open环境，现有的对手塑形算法可能面临挑战。论文通过将优势对齐算法应用于这些复杂环境，展示了其在大规模、部分可观测、多智能体环境中的可扩展性和有效性。

总结来说，这篇论文的核心目标是开发一种高效、直观且可扩展的对手塑形算法，以解决多智能体环境中智能体之间的利益对齐问题，特别是在涉及合作与竞争的社会困境中。

REGENT: A Retrieval-Augmented Generalist Agent That Can Act In-Context in New Environments

https://arxiv.org/abs/2412.04759

picture.image

这篇论文试图解决如何构建能够在新环境中快速适应的通用智能体（generalist agents）的问题。具体来说，论文探讨了以下核心问题：

通用智能体的快速适应能力：传统的通用智能体通常依赖于大规模预训练模型和海量数据来适应新环境，但这些方法在新环境中的泛化能力仍然有限，且需要大量的新环境特定的演示数据进行微调（fine-tuning）。论文提出了一种新的方法，通过检索增强（retrieval augmentation）和上下文学习（in-context learning）来实现快速适应，而无需对模型进行微调。
检索在快速适应中的作用：论文首先通过一个简单的最近邻检索方法（Retrieve and Play, R&P）展示了检索在快速适应中的强大潜力。R&P方法通过检索目标环境中最近的状态并执行相应的动作，表现出与当前最先进的通用智能体相当甚至更好的性能。在此基础上，论文进一步提出了一个半参数化智能体REGENT，该智能体通过预训练一个基于Transformer的策略，利用检索到的上下文信息来预测动作，从而在新环境中实现更好的泛化能力。
资源效率和性能的平衡：论文的目标是开发一种在资源（模型参数和预训练数据量）上更高效的通用智能体，同时保持或提升其在新环境中的适应能力。REGENT在预训练时使用的参数数量和数据量都显著少于现有的通用智能体，但仍然在多个环境中表现出色。
通用智能体的泛化能力：论文通过在多个不同的环境设置（如JAT/Gato环境和ProcGen环境）中进行实验，验证了REGENT在未见过的环境中的泛化能力。实验结果表明，REGENT不仅能够适应新环境，而且在某些情况下甚至超过了经过微调的基线模型。

总结来说，论文试图解决的问题是如何在有限的资源条件下，通过检索增强和上下文学习，构建能够在新环境中快速适应的通用智能体，从而提高智能体的泛化能力和资源效率。

Active Task Disambiguation with LLMs

https://arxiv.org/abs/2502.04485

这篇论文试图解决大型语言模型（LLMs）在处理模糊指定任务时的能力不足问题。尽管LLMs在各种基准测试中表现出色，但在现实世界中，任务往往由于自然语言的固有模糊性或故意的未明确指定而变得不明确，这增加了模型误解问题设定意图的风险。论文通过引入任务模糊性的正式定义，并从贝叶斯实验设计（Bayesian Experimental Design, BED）的角度来构建任务消歧（task disambiguation）问题，提出了一种使LLMs能够通过提问澄清问题来逐步缩小可行解空间并减少生成不满意输出风险的方法。

Robust Function-Calling for On-Device Language Model via Function Masking

https://openreview.net/forum?id=yVQcr4qjD6

picture.image

这篇论文试图解决大型语言模型（LLMs）在执行复杂任务时，特别是在设备上进行函数调用（function-calling）时的性能不一致和泛化能力不足的问题。具体来说，论文指出现有函数调用模型在不同基准测试（benchmarks）上的表现存在显著差异，这主要是由于模型容易受到特定命名约定的误导。例如，函数名和参数名的命名风格在训练数据和测试数据中可能不一致，导致模型在测试时无法准确识别和调用合适的函数。

为了解决这一问题，论文提出了一个名为 Hammer 的新型基础模型系列，专门针对设备上的函数调用任务进行了优化。Hammer 通过以下两个主要方法来增强模型的泛化能力：

函数掩码（Function Masking）：通过在训练过程中随机替换函数名和参数名为随机字符串，迫使模型更多地依赖于函数和参数的描述，而不是依赖于可能具有误导性的命名。
增强数据集（Augmented Dataset）：通过在原始数据集中添加额外的实例，这些实例专门用于检测候选函数与用户意图之间的不相关性，从而提高模型在面对不相关函数时的识别能力。

通过这些方法，Hammer 模型在多个基准测试中展现出卓越的性能和泛化能力，即使在参数数量较少的情况下，也能与一些大型开源模型和顶级闭源模型（如 GPT-4）相媲美。

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

https://arxiv.org/abs/2407.07061

picture.image

这篇论文提出了一个名为“Internet of Agents (IoA)”的新型框架，旨在解决现有多智能体系统（Multi-Agent Systems, MAS）中的几个关键限制。具体来说，论文试图解决以下问题：

生态系统隔离（Ecosystem Isolation）

问题描述：大多数现有的多智能体框架仅考虑在其自身生态系统内定义的智能体，这限制了第三方智能体的集成，从而限制了智能体能力的多样性和平台的通用性。
解决方案：IoA 提供了一个灵活的智能体集成协议，允许不同第三方智能体在不同设备上无缝集成并有效协作。

单设备模拟（Single-Device Simulation）

问题描述：几乎所有现有的多智能体框架都在单个设备上模拟多智能体系统，这与现实世界中智能体可能分布在多个不同位置的设备上的情况相差甚远。
解决方案：IoA 支持分布在多个设备和位置上的智能体之间的协作，更接近现实世界的分布式环境。

僵化的通信和协调（Rigid Communication and Coordination）

问题描述：现有的多智能体系统中，通信过程、智能体分组和状态转换大多是硬编码的，缺乏适应动态任务需求的能力。在现实生活中，人类会根据任务选择合适的队友，并在不同的协作状态之间动态切换。
解决方案：IoA 引入了动态机制，包括自主团队形成和对话流程控制，使智能体能够根据任务需求和正在进行的进展动态调整协作策略。

异构智能体的集成（Integration of Heterogeneous Agents）

问题描述：现有的多智能体框架在集成具有不同工具、架构、观察和动作空间以及知识库的智能体方面存在挑战。
解决方案：IoA 提供了一个灵活的协议，支持各种第三方智能体的集成，从而扩展了系统中智能体能力的多样性。

有效协作的实现（Effective Collaboration）

问题描述：尽管单个智能体在某些任务上表现出色，但在复杂的多步骤任务中，单个智能体往往难以达到最佳性能。如何有效地协调多个智能体以实现更好的性能是一个关键问题。
解决方案：IoA 通过引入自主团队形成、任务分配和对话流程控制机制，实现了异构智能体之间的高效协作，从而在多个基准测试中超越了现有的最先进方法。

经济可行性（Economic Feasibility）

问题描述：在多智能体系统中，通信成本可能较高，尤其是在使用大型语言模型（LLMs）时。此外，当前的通信模式可能存在效率低下的问题，如信息重复和不必要的对话。
解决方案：通过优化提示、改进协议和开发更复杂的框架，IoA 旨在降低通信成本，提高通信效率，使其在实际应用中更具经济可行性。

总的来说，IoA 通过提供一个灵活、可扩展的平台，解决了现有多智能体系统在集成异构智能体、支持分布式协作、动态通信和协调以及经济可行性方面的关键问题。

SPA-BENCH: A COMPREHENSIVE BENCHMARK FOR SMARTPHONE AGENT EVALUATION

https://openreview.net/forum?id=ikXjMk8RUs

picture.image

这篇论文试图解决智能手机代理（smartphone agents）评估中的几个关键问题：

公平比较不同智能手机代理的性能：随着基于大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的智能手机代理的增多，公平地比较这些代理的性能变得至关重要。然而，这面临着诸多挑战，包括需要涵盖多样化的任务范围、整合不同实现方式的代理，以及建立一个通用的评估流程来评估它们的优势和劣势。

提供一个全面的评估基准：现有的智能手机代理评估方法存在局限性，例如主要集中在英语的系统应用和谷歌套件应用上，缺乏对复杂和动态环境（如广告和弹窗）的考量。此外，评估的代理数量通常较少，且自动化成功检测方法往往需要人工干预或依赖于可能无法获取的数据。因此，需要一个更全面、多样化且自动化的评估基准来更准确地评估代理在真实世界条件下的表现。
评估代理在真实世界条件下的表现：为了使智能手机代理能够真正应用于现实世界，需要在模拟真实世界条件的环境中对它们进行评估。这包括处理多语言环境、复杂的用户界面（UI）、动态内容以及跨应用任务等挑战。现有的基准和评估方法在这方面存在不足，无法充分模拟真实世界中用户与智能手机交互的复杂性。
推动智能手机代理技术的发展：通过提供一个全面的评估基准，揭示当前代理技术的局限性，并为未来的研究方向提供指导，从而推动智能手机代理技术的发展，使其更加高效、实用和用户友好。

为了解决这些问题，论文提出了SPA-BENCH（SmartPhone Agent Benchmark），这是一个综合性的智能手机代理评估基准，旨在通过多样化的任务集、插拔式框架和自动化的评估流程，全面评估基于（M）LLM的代理在交互环境中的表现。

Scaling Large Language Model-based Multi-Agent Collaboration

https://arxiv.org/abs/2406.07155

picture.image

该论文试图解决大语言模型驱动的多智能体协作系统的扩展性问题，探索持续增加协作智能体数量是否能带来性能提升，以及是否存在类似神经网络规模定律的"协作规模定律"。具体问题包括：

如何设计可支持大规模智能体协作的网络架构
如何解决多智能体系统扩展时面临的上下文爆炸问题
不同拓扑结构如何影响多智能体协作性能
智能体数量与系统性能之间是否存在可预测的规律

论文提出了MACNET（多智能体协作网络）框架，其核心组成包括：

网络构建：使用有向无环图(DAG)组织智能体，将其分为节点上的执行者(actor)和边上的评论者(critic)，支持链式、树形、图形等多种拓扑结构
交互推理：按拓扑排序安排智能体互动，每轮由边连接的两个相邻智能体进行交互，执行者提供成果，评论者提供反馈和指导
记忆控制：采用短期和长期记忆机制，只传播最终成果而非整个对话历史，将上下文复杂度从O(n²)降低到O(n)

实验在MMLU、HumanEval、SRDD和CommonGen-Hard四个基准测试上评估了六种拓扑结构，并将智能体规模从2⁰(单智能体)增加到2⁶(超过1000个智能体)。

通过支持超过1000个智能体的协作，论文在多个基准测试中证明了不同拓扑结构的性能优势，特别是发现了不规则的随机拓扑和分叉型拓扑往往能带来更好的表现。最关键的发现是提出了"协作规模定律"，即随着智能体数量增加，系统性能呈现S型逻辑增长，并且在大约16个智能体时达到性能饱和。更为有趣的是，研究发现协作涌现比传统神经元涌现出现得更早，这可能是因为增加智能体数量促进了多维思考，使系统能产生更全面、更深入的成果。

Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks

https://arxiv.org/abs/2407.09893

picture.image

该论文试图解决大型语言模型(LLM)在知识密集型任务中面临的三个关键挑战：

复杂查询意图：指令的多样性（语义和形式）导致知识查询意图混淆
检索知识中的干扰项：知识检索不可避免地引入不同粒度的噪声（文档和句子级别）
知识利用不足：LLM倾向于依赖其隐含参数记忆而非充分利用提供的外部事实

这些问题导致LLM在知识密集型场景中生成的响应缺乏事实一致性，出现幻觉，难以获取长尾知识，且难以扩展记忆。

论文提出了SMART多智能体框架，通过以下方法解决上述问题：

多智能体协同架构：设计了四个专门智能体，各执行特定子轨迹：

意图重构器：澄清用户指令中的知识查询意图
知识检索器：基于重构意图访问外部知识库
事实定位器：评估检索知识的相关性并识别事实片段
响应生成器：基于前述过程生成忠实于事实的响应并引用来源

长短轨迹学习：创新性的两阶段训练方法：

短轨迹学习：通过轨迹头尾令牌训练每个智能体专注于各自任务
长轨迹学习：训练智能体协同完成完整复杂轨迹，学习智能体间交互信号

数据构建策略：

长轨迹数据集：精心构建142,507个实例，强调智能体间的协同和逻辑交互
短轨迹数据集：从现有NLP数据集获取359,791个实例，突出各智能体的独特能力

实验结果表明，SMART在五个知识密集型任务上显著优于现有方法，不仅超越了同等规模和更大的知识内化LLM（包括ChatGPT），还优于各种知识增强方法（如SelfRAG和MMAgent）；特别值得注意的是，该框架仅使用40%的长轨迹数据就能取得出色性能，大大降低了开发成本，同时系统展现出极佳的稳健性——即使缺少某个智能体也能保持性能，允许灵活的智能体组合，并且作为通用范式可扩展到更复杂场景，成功实现了智能体协同与个体精细执行能力的平衡，为解决LLM在知识密集型任务中的事实一致性和可解释性问题提供了新范式。

SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks

https://arxiv.org/abs/2503.15478

picture.image

该论文试图解决在多轮交互场景中对大型语言模型(LLM)智能体进行有效训练的几个关键挑战：

缺乏合适的基准测试：现有的LLM智能体基准测试没有同时满足任务多样性、任务复杂性和低工程开销这三个条件，不利于多轮强化学习(RL)算法的研究。
跨轮奖励分配困难：现有的多轮RL算法难以在长期交互中进行有效的奖励分配，导致在复杂推理任务中表现不佳。特别是，现有方法无法有效利用LLM的推理和泛化能力。
部分可观察环境挑战：在现实场景中，智能体往往处于部分可观察环境，需要通过主动询问获取关键信息，而这种信息寻求行为很难得到适当奖励。

论文提出了两个主要贡献来解决上述问题：

ColBench基准测试：设计了一个新的基准测试，专注于现实世界的协作内容创建任务：

后端编程：与人类协作编写Python函数，需要通过询问澄清细节和边缘情况
前端设计：与人类协作设计网页，需要通过多轮交互理解视觉需求
使用LLM作为人类"模拟器"，并提供参考解决方案以确保仿真的可靠性
开发了功能性评估器，测量智能体产出与参考成果的相似度

SWEET-RL算法：一种新型的RL算法，包含两阶段训练过程：

第一阶段：训练按步优势函数使用Bradley-Terry目标函数直接学习优势函数

让critic模型访问额外的训练时信息（如参考解决方案）
通过重新利用LLM的语言模型头参数化优势函数

第二阶段：使用优势函数优化策略对每轮采样候选动作并用学习的优势函数排序

使用DPO损失优化策略模型

实验结果表明，SWEET-RL在ColBench上取得了显著成效，比其他最先进的多轮RL算法提升了约6%的绝对成功率和胜率，使Llama-3.1-8B能够匹配甚至超过GPT4-o和O1-mini在现实协作任务中的表现。具体而言，在后端编程任务上将Llama-3.1-8B-Instruct的成功率从34.4%提升至40.4%，在前端设计任务上将胜率从42.8%提升至48.2%。实验分析进一步证实，利用训练时额外信息能显著提升信用分配能力，直接学习优势函数比传统的价值函数方法具有更好的泛化性能，尽管该算法需要一定量的数据来训练可靠的critic，但随着数据量增加，它能迅速超越基线并达到更好的收敛性能。

Other

Agent Models: Internalizing Chain-of-Action Generation into Reasoning Models

https://arxiv.org/abs/2503.06580

picture.image

该论文试图解决传统Agent工作流（如ReAct）在工具使用方面的局限性问题。具体而言：

自主性不足：传统Agent工作流依赖外部提示来管理与工具和环境的交互，限制了推理模型的自主性
思维-行动分离：缺乏对何时以及如何触发工具使用的内化能力，导致推理与行动之间的衔接不自然
环境交互成本高：与外部环境（如搜索引擎）的频繁交互导致训练成本高、效率低
长期任务执行能力差：难以处理需要长期推理和多步骤行动的复杂任务

论文提出了AutoCoA（Automatic generation of Chain-of-Action）框架，旨在将行动生成能力内化到推理模型中，创建大规模Agent模型（LAMs）。该框架包含：

监督微调（SFT）阶段：

CoT+A：通过对比学习训练模型在适当时机触发行动
CoT+CoA（带观察掩码）：教导模型如何执行行动，包括确定行动类型和参数
CoT+CoA（无观察掩码）：训练模型预测环境响应，构建内部世界模型

强化学习（RL）阶段：

模拟环境中的CoT+CoA：利用内部世界模型进行大量探索，快速收敛
真实环境中的CoT+CoA：与实际工具交互获取真实反馈，确保部署稳健性

在开放域问答任务（包括单跳和多跳问答）的评估中，AutoCoA训练的Agent模型表现出显著优势：所有AutoCoA变体在完成任务方面都显著优于基于ReAct的工作流；监督微调阶段证明将CoA训练分为"何时行动"和"如何行动"两个子阶段更有效，而内部世界模型的构建进一步提高了性能；在模拟环境中大量训练后再进行少量真实环境交互能够有效平衡性能和成本；更重要的是，经过CoA学习的Agent模型能够支持更长的思维/行动回合，随着行动次数增加仍保持较高的成功率，而Agent工作流的成功率显著下降。这些结果表明，端到端的任务导向训练能够使Agent模型学习更好的思维-行动交错模式，在需要多步骤行动的复杂任务中表现出色。

Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research

https://arxiv.org/abs/2502.04644

picture.image

论文旨在解决大型语言模型(LLM)在进行深度研究和复杂推理时的局限性问题。传统推理模型如OpenAI的o1、Qwen-QwQ和DeepSeek-R1通常仅依赖内部推断，无法有效利用外部知识和工具，尤其是在非结构化领域（如社会科学、伦理学）和需要多步验证的复杂问题上表现不佳。开源模型在推理过程中缺乏有效的工具集成方法，而闭源模型（如Gemini Deep Research）虽有类似功能但其方法不透明。

论文提出了"Agentic Reasoning"框架，通过集成三种关键外部工具Agent来增强LLM的推理能力：

Mind MapAgent：构建结构化知识图谱，将原始推理链转换为组织化知识网络，用于跟踪复杂逻辑关系，并通过社区聚类将推理上下文分组并总结。
网络搜索Agent：实时检索相关网页，提取与当前推理上下文相关的简洁摘要，动态调整输出格式和长度以匹配不同推理任务。
编码Agent：将编码任务委托给专门的编码LLM，生成并执行代码，并以自然语言形式返回结果。

推理过程中，主模型通过特殊令牌调用这些Agent，暂停推理过程以获取外部信息，再将结果重新整合进推理链继续推导。研究发现，简单的两种工具（搜索和编码）比复杂多工具更有效，且将任务分配给专门LLMAgent可提高整体效率。

该框架在GPQA数据集上取得了物理88.1%、化学58.3%和生物79.6%的准确率，接近或超过了OpenAI o1模型，并在扩展集上超过了人类专家表现；在金融、医学和法律领域的深度研究任务中，通过率超过了Gemini Deep Research，且发现工具调用频率与推理质量成正比，为测试时推理验证和强化学习提供了新思路；在复杂医疗决策案例和狼人游戏中也展现了卓越性能（后者达72%胜率），证明了该框架在知识密集型问题上的有效性和实用价值。

交流群：点击“联系

作者”--备注“研究方向-公司或学校”

**欢迎

论文宣传

合作交流**

往期推荐

WWW2025 | SampleLLM:基于大模型的两阶段表格数据合成模型

AAAI2025推荐系统相关论文整理

RecSys'24 | 通过指令和提示词使用LLM构建可解释的跨域推荐方法

图片

长按关注，更多精彩

图片

点个

在看

你最好看

picture.image