从NeurIPS2023速览大语言模型智能体最新研究进展 - 文章 - 开发者社区

引言

长期以来，自主代理一直是学术界和工业界的一个突出研究重点。该领域的先前研究通常集中在孤立环境中训练知识有限的代理，这与人类的学习过程有很大不同，因此代理难以实现类似人类的决策。最近，通过获取大量的网络知识，大型语言模型（LLM）在实现人类水平的智能方面显示出显着的潜力。这引发了基于LLM的自主代理的研究热潮。本文将通过NIPS2023 录用的22篇相关论文 来速览大语言模型智能体的最新研究进展。

picture.image

本文的分类体系参考于我们在 8月23日完成的大语言模型自主智能体领域的第一篇Survey：A Survey on Large Language Model based Autonomous Agents 。我们在9月7日对该综述进行更新和扩展，从智能体的构建，应用和评测等维度对过往工作进行总结梳理，并提出自己的观点，对该领域的发展进行了展望。同时，我们也维护了一个仓库，全面地总结分析了百余篇大语言模型智能体相关论文：LLM-Agent-Survey 。

另外，我们也额外维护了一个仓库：LLM-Agent-Paper-Digest , 用来长期实时总结跟进各大顶会接收的大语言模型智能体相关论文。

Survey: https://arxiv.org/abs/2308.11432
LLM-Agent-Survey: https://github.com/Paitesanshi/LLM-Agent-Survey
LLM-Agent-Paper-Digest: https://github.com/XueyangFeng/LLM-Agent-Paper-Digest

1 智能体构建

1.1 智能体角色扮演

1.1.1 [Agent Profile] CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society.

Paper: https://arxiv.org/abs/2303.17760
Code: https://github.com/camel-ai/camel

TLDR : 本文介绍了CAMEL，一个促进交流代理之间自主合作的框架。该框架采用角色扮演的方法，在聊天代理执行任务时使用“开始提示”来引导聊天代理，使其与人类的意图保持一致。采用两个 Agent，每个 Agent 都有自己的个性，并让他们相互交谈，来让两个 Agent 以协作的方式相互交流想法，来完成用户指定的任务(通过角色扮演提高Agent能力)。

picture.image 角色扮演框架

1.2 智能体记忆

1.2.1 [Agent Memory] Reflexion: language agents with verbal reinforcement learning.

Paper: https://arxiv.org/abs/2303.11366
Code: https://github.com/noahshinn024/reflexion

TLDR : Reflexion将任务的反馈信号保存在长期和短期记忆缓冲器中，以便在后续试验中做出更好的决策 (利用长短期记忆维护反馈并进行反思) 。

picture.image

1.2.2 [Agent Memory] SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks.

Paper: https://arxiv.org/abs/2305.17390
Code: https://github.com/yuchenlin/SwiftSage

TLDR : 本文介绍了一种名为SwiftSage的新型代理框架，它将快速直观的思维模块Swift与深思熟虑的思维模块 Sage相结合，以优化复杂交互推理任务中的行动规划。Swift是一个微调的小型编码器-解码器LM，而 Sage则采用 GPT-4 等 LLM 进行子目标规划和接地 (结合小模型快速思考和大模型深思熟虑) 。

picture.image 各种agent交互任务的prompt方法

picture.image SwiftSage思考的流程。Swift是一个离线训练的LM（T5），Sage是LLM（如GPT4）。首先使用Swift进行推理，当有必要时，切换到Sage进行规划。

1.2.3 [Agent Memory] Large Language Model Is Semi-Parametric Reinforcement Learning Agent.

Paper: https://arxiv.org/abs/2306.07929
Code: https://github.com/noahshinn024/reflexion

TLDR： 本文提出了Remember，为 LLM 配备长期经验记忆，能够利用过去的经验，即使是针对不同的任务目标 (为LLM配备长期经验记忆，构建一个半参数化的强化学习agent)。

picture.image 短期工作记忆agent与长期经验记忆agent的对比。工作记忆只保存一段时间的短期记忆，经验记忆永久保存交互记录。

picture.image REMEMBER

1.3 智能体规划

1.3.1 [Agent Planning] Describe, Explain, Plan and Select: Interactive Planning with LLMs Enables Open-World Multi-Task Agents.

Paper: https://arxiv.org/abs/2302.01560
Code: https://github.com/CraftJarvis/MC-Planner

TLDR : 在具身环境中（MineCraft），构建了LLM 驱动的智能体。智能体可以通过反馈更好地纠错，同时引入目标选择器，根据预测的完成步骤对规划进行排序和改进。(引入了任务选择器，实现了MineCraft中的多任务代理)

picture.image DEPS的规划流程。给定任务T，LLM生成任务规划P，Selector根据当前的状态信息从并列的子任务中选择当前目标goal，再通过Controller进行Action作用于环境，环境的反馈信息会被提供给LLM。

1.3.2 [Agent Planning] Large Language Models as Commonsense Knowledge for Large-Scale Task Planning.

Paper: https://arxiv.org/abs/2305.14078

TLDR : 利用大型语言模型（LLMs）作为常识世界模型和启发式策略来解决复杂任务规划问题。

picture.image LLM-MCTS概述。为状态的常识信念和动作选择的常识规划策略查询大型语言模型 (LLM)。对于 MCTS 算法中的每个模拟，我们从常识信念中采样以获得世界的初始状态，并使用 LLM 作为启发式方法将轨迹引导到搜索树的有希望的部分。

1.3.3 [Agent Planning] Tree of Thoughts: Deliberate Problem Solving with Large Language Models.

Paper: https://arxiv.org/abs/2305.10601
Code: https://github.com/ysymyth/tree-of-thought-llm

TLDR : 我们介绍了一种新的语言模型推理框架--"思想树"（ToT），它概括了流行的 "思想链"（Chain of Thought）方法，用于提示语言模型，并能够探索作为解决问题中间步骤的连贯文本单元（"思想"）。(鼓励大模型考虑多个不同的推理路径)

picture.image

1.3.4 [Agent Planning] Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning.

Paper: https://arxiv.org/abs/2305.14909
Code: https://github.com/GuanSuns/LLMs-World-Models-for-Planning

TLDR : 首先使用 GPT-4 生成高质量的 PDDL 模型，然后使用自然语言反馈纠正 PDDL 模型，最后利用提取的域模型以多种方式可靠地规划。(大模型+外部规划器)

picture.image

1.3.5 [Agent Planning] Large Language Models can Implement Policy Iteration.

Paper: https://arxiv.org/abs/2210.03821v2

TLDR : 这项工作中提出了一种名为 ICPI 的算法，它可以在没有专家示范或梯度的情况下执行 RL 任务。本文提出了一种策略迭代方法，其中prompt是整个学习的核心。ICPI 通过与 RL 环境的试错互动，迭代更新prompt内容。(LLM作为model-base强化学习的world-model和policy)

picture.image

1.4 智能体行动

1.4.1 [Agent Action] GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction.

Paper: https://arxiv.org/abs/2305.18752
Code: https://github.com/AILab-CVC/GPT4Tools

TLDR : 本文提出了基于self-Instruction的 GPT4Tools，使 LLaMA 和 OPT 等开源 LLM 能够使用工具。它通过向gpt提示各种多模态情境，生成指令遵循数据集，再微调开源LLM，使LLM可以具备使用工具的能力(用gpt生成工具使用记录，再用LoRA微调开源模型) 。

picture.image

1.4.2 [Agent Action] AVIS: Autonomous Visual Information Seeking with Large Language Models.

Paper: https://arxiv.org/abs/2306.08129v2

TLDR : AVIS 是一个自主视觉信息搜索系统，它利用大型语言模型（LLM）动态地制定利用外部工具的战略，并调查其输出结果，从而获取必要的知识，为所提问题提供答案。AVIS 在知识密集型视觉问题解答基准（如 Infoseek 和 OK-VQA）上取得了最先进的结果 (LLM动态制定使用外部工具的策略，从而获取视觉信息查询问题所需的必要知识)。

picture.image AVIS 采用动态决策来规划（找到最佳工具和查询）、执行结果，然后推理（继续或回溯）

2 智能体应用

2.1 社会科学

2.1.1 [Social Science] Using Large Language Model Annotations for Valid Downstream Statistical Inference in Social Science: Design-Based Semi-Supervised Learning.

Paper: https://arxiv.org/abs/2306.04746

TLDR : 本文提出了一种新算法，用于将 LLM 的输出结果用于下游统计分析，同时保证统计特性（如渐近无偏性和适当的不确定性量化），这对社会计算科学的研究至关重要。(用LLM的输出进行社会科学的文档标签的下游统计分析)

picture.image

2.2 自然科学

2.2.1 [Natural Science] De novo Drug Design using Reinforcement Learning with Multiple GPT Agents.

TLDR : 论文暂未公开.

2.3 工程应用

2.3.1 [Engineering] LLMs for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering.

Paper: https://arxiv.org/abs/2305.03403
Code: https://github.com/automl/CAAFE

TLDR : 本文介绍了一种名为 CAAFE 的方法，该方法利用大型语言模型对表格数据集进行特征工程。CAAFE 基于数据集描述迭代生成有语义意义的特征，并对所生成的特征进行解释。这种方法提高了多个数据集的性能 (LLM自动优化特征工程)。

picture.image CAAFE 接受数据集和用户指定的上下文信息，并通过迭代地提出和评估特征工程操作进行操作。

2.3.2 [Engineering] SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models

Paper: https://arxiv.org/abs/2305.19308
Code: https://sheetcopilot-demo.github.io/

TLDR : 本文介绍了使用大型语言模型的代理 SheetCopilot，该代理可通过自然语言与电子表格进行交互。它能将复杂的请求转化为可操作的步骤，在各种任务中的表现优于传统的编程方法 (Agent和电子表格交互)。

picture.image 利用 SheetCopilot 来控制 Microsoft Excel 等软件，生成满足用户需求的逐步解决方案。在每一步中，SheetCopilot 根据表格状态规划初始原子动作，然后利用外部文档提供的使用说明和范例来修改此规划步骤。最后，从修改后的规划中提取具有其参数的动作并提交给模拟环境执行。

2.3.3 [Engineering] Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models.

Paper: https://arxiv.org/abs/2305.12476

TLDR : 本文提出了一种新颖的零样本 VRD 方法：RECODE，它通过复合谓词表提示解决关联检测问题。具体来说，RECODE 首先将每个谓词类别分解为主语、宾语和空间成分。然后，它利用大型语言模型 (LLM) 为每个组件生成基于描述的提示（或视觉提示）(通过LLM给出的复合视觉线索进行零样本视觉关系检测)。

picture.image RECODE框架。（1）视觉特征分解（2）语义特征分解（3）关系分类

2.3.4 [Engineering] 3D-LLM: Injecting the 3D World into Large Language Models.

Paper: https://arxiv.org/abs/2307.12981
Code: https://vis-www.cs.umass.edu/3dllm/

TLDR : 我们建议将三维世界注入大型语言模型，并引入全新的三维语言模型（3D-LLM）系列。具体来说，3D-LLMs 可以将 3D 点云及其特征作为输入，并执行各种 3D 相关任务，包括字幕、密集字幕、3D 问题解答、任务分解、3D 落地、3D 辅助对话、导航等(将3D世界注入到LLM中)。

picture.image

2.3.5 [Engineering] What’s Left: Concept Grounding with Large Language Models.

TLDR : Awaiting publication.

3 智能体评估

3.1 [Agent Evaluation] Testing the General Deductive Reasoning Capacity of Large Language Models Using OOD Examples.

Paper: https://arxiv.org/abs/2305.15269

TLDR : 为了衡量 LLM 的一般演绎推理能力，本文测试了一系列广泛的演绎规则，并从深度、广度和组成泛化等多个角度衡量了它们从较简单的演示泛化到更复杂的证明的能力。为了促进系统性探索，本文构建了一个新的合成和可编程推理数据集，可以控制演绎规则和证明的复杂性。我们对四个不同大小和训练目标llm的实验表明，它们能够推广到更长和组合的证明。然而，它们需要明确的演示来产生假设的子证明，特别是在案例证明和矛盾证明的情况下。(使用OOD示例评估LLM的推理能力)。

picture.image 每个训练示例都是少量提示中提供给LLM的样本CoT演示，而每个测试示例都是一个模型期望输出的示例证明。

3.2 [Agent Evaluation] Evaluating Cognitive Maps in Large Language Models: No Emergent Planning.

Paper: https://arxiv.org/abs/2309.15129

TLDR : 本文提出了 CogEval，这是一个受认知科学启发的大型语言模型测量和评估协议。其次，本文使用 CogEval 系统地评估了一些大型语言模型的假设潜在能力--认知图谱和规划能力，使用的任务具有已确立的建构效度，且不在大型语言模型训练集中。本文发现，虽然 LLMs 在一些图形较小的任务中表现出了明显的能力，但有证据表明他们缺乏对潜在任务结构的真正理解。(提出一种受认知科学启发的协议CogEval用于LLM的评估)。

picture.image

3.3 [Agent Evaluation] On the Planning Abilities of Large Language Models - A Critical Investigation.

Paper: https://arxiv.org/abs/2302.06706
Code: https://github.com/karthikv792/LLMs-Planning

TLDR : 在本文中，我们对大型语言模型 (LLM) 的规划能力进行了批判性调查。为此，我们评估了llm在两种不同模式下的计划生成能力：自主和启发式。研究结果表明，LLM 自主生成可执行计划的能力相当有限，最佳模型 (GPT-4) 跨域的平均成功率为 ∼12%。然而，启发式模式的结果显示出更多的前景。在启发式模式下，我们证明了LLM生成的计划可以改善底层声音规划器的搜索过程，另外表明外部验证者可以帮助提供对生成的计划的反馈，并反向提示LLM以获得更好的计划生成。

picture.image

3.4 [Agent Evaluation] Large Language Models of Code Fail at Completing Code with Potential Bugs.

Paper: https://arxiv.org/abs/2306.03438

TLDR : 本文引入并研究了buggy-code completion问题，其灵感来自实时代码建议的现实场景，在给定问题语句和具有潜在错误的部分代码的情况下完成编码程序。为了系统地研究这项任务，本文引入了两个数据集：一个是由改变语义的操作符变化产生的合成错误（buggy-HumanEval），另一个是由用户提交的编码问题产生的现实错误（buggy-FixEval）。本文发现，潜在错误的存在大大降低了高性能 Code-LLMs 的生成性能。

picture.image 在存在潜在错误的情况下CodeLMs性能出现了明显下降

往期推荐

CIKM'23 | 统一的搜索推荐冷启动基础模型

HAMUR：为多域推荐（MDR）设计适配器缓解参数干扰和分布差异的影响

SATrans：多场景CTR预估，场景地适应的特征交互方式