定义多Agent和多模态系统的四大原则 | 综述

技术
定义多Agent和多模态系统的四大原则 | 综述

发布时间:2024 年 05 月 31 日

多Agent应用

Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey

尽管大型语言模型(LLMs)在生成人类般精确文本上取得了显著成就,但它们仍受训练数据偏见、跨情境不一致及复杂多层上下文理解难题的困扰。因此,最新研究正探索通过多代理协同,结合多样数据与工具,以增强系统的一致性与可靠性。本文通过审视前沿研究,探讨多模态与多代理系统是否正迈向理性,比较其在理性层面相较于单模态与单代理系统的进步,并展望未来研究方向。我们已在 GitHub 上开设了一个开放仓库,地址为 https://github.com/bowen-upenn/MMMA\_Rationality。

https://arxiv.org/abs/2406.00252

  1. 背景

大语言模型虽然已经表现出了令人惊讶的进展和成果,尤其是在模仿人类推理能力方面。这些模型借助语言的丰富性来抽象概念、梳理思维过程、理解复杂查询,并在决策场景中制定策略和解决方案。

然而,尽管如此,大语言模型仍然会表现出非常多的非理性行为:如框架效应、确定性效应、过度重视偏差和联合谬误。这些问题严重影响了LLMs在实际应用中的实用性。比如:幻觉现象也削弱了LLMs在医疗、金融和法律服务等关键领域的实际应用,这些领域对可靠性和一致性有着极高的要求。

LLMs表现出非理性行为的一个可能原因正式大语言模型是一个自回归模型。这种架构缺乏一个超越模型内部参数知识表示的“内部草稿板(internal scratchpad)”,导致它们在面对需要复杂问题时无法进行合理推理。

因此,如何才能设计出一个LLM应用使其不再表现出非理性的一面呢?

多模态和多代理框架 的最新发展为应对这一挑战提供了希望,它利用不同代理共同追求一个集体目标。

多模态基础模型通过将决策置于更广阔的感官 背景中来加强推理,类似于人类大脑如何整合丰富的感官输入以形成更全面的知识基础。

同时,多代理系统引入了共识、辩论和自我一致性 等机制,通过多个实例之间的协作互动,实现更精细和可靠的输出。每个代理在不同领域具有专长,并提供独特的视角,模拟人类社会中的讨论动态。

多代理系统还可以整合多模态代理和专门查询外部知识源或工具的代理,以克服幻觉,确保其结果更加稳健、确定和可信,从而显著提升生成响应的合理性。

  1. 如何定义理性?

理性的代理在决策过程中应避免自相矛盾,应尊重其所处的世界中的物理和事实现实。作者采用了公理化的方法来定义理性,提出了四个核心公理:

2.1 现实基础(Grounding)

理性代理的决策应基于现实世界的物理和事实。比如,航班预订代理需准确获取可用机场信息,不可凭空捏造;视频生成代理则应遵循物理定律,构建世界模型。

为了做出明智决策,代理必须能够整合来自不同来源和感官模态的充足且准确的信息,避免凭空想 象。虽然认知科学文献在定义理性时通常不会明确提出这一点,但它是隐含的,因为大多数人通过多种感官接触到现实世界。

2.2 偏好排序(Orderability of Preferences)

在决策情境中比较不同选项时,理性代理能够根据当前状态对选项进行排序,并基于预期结果选择最合意的选项。这种排序能力包括可比性(comparability)、传递性闭包(transitivity closure)和可解性(solvability)等关键原则。偏好排序确保Agent在面对多个选择时能够做出一致且合乎逻辑的决策。

PS:这里,作者在附录中解释了何为 transitivity closure。

传递性:如果Agent偏好A超过B,且B超过C,那么代理必然偏好A超过C。这确保了代理的偏好在连续比较中保持一致性和逻辑性。

闭包性:若A和B属于备选集S,那么A和B的任何概率组合也应属于S。此原则保证了备选集在概率混合下是封闭的。

2.3 独立性(Independence from irrelevant context)

代理的偏好不应受无关信息的影响。当LLMs面对无关背景信息时,会表现出非理性行为,导致决策混乱和次优。为了保持理性,Agent必须能够辨识并忽略无关信息,专注于直接影响决策过程的因素。

2.4 不变性(Invariance)

理性Agent的偏好在决策问题的等价表述中应保持不变,不受特定措辞或表现形式的影响。

2.5 基于四大公理的LLM谱系图

picture.image

上图是基于四大公理分类的多智能体和/或多模态系统的演化谱系图。

  1. 通过多Agent和多模态系统来实现理性AI

如前文中的谱系图中的每个研究领域,例如知识检索或神经符号推理,都是在解决理性思维的一个或多个基本要素。这些理性要素相互关联,因此增强理性的一个方面往往能够同时提升其他方面。

当前多智能体系统实现理性的总体目标,可以归结为两个核心概念:深思熟虑(deliberation)和抽象化(abstraction)。

其中,深思熟虑鼓励深入的思考过程,如集思广益和反思,而抽象化则是将问题简化到其逻辑本质,比如调用工具的API或整合神经符号推理智能体。

今天这篇论文最大的价值在于其通过构建了一个框架来分析AI及AI应用的理性。这是过去很多研究所不具备的。

在人类认知领域,双过程理论(dual-process theories)指出:单一的大型语言模型(LLM)可能主要采取快速而自动的“系统1”思维方式,尽管这种思维方式容易受到偏见的影响。与此相对的是“系统2”,这是一种缓慢而基于规则的思维方式,它更为可靠,但需要更多的认知投入。

小仙女注:双重历程理论,又称为双加工理论或双系统理论(英语:Dual process theory),在心理学中描述了思维如何以两种不同的方式产生,或者是说,思维是如何作为两种不同历程之结果。这两种历程通常是由一种隐性的(自动的)、无意识的历程,以及另一种显性的(受控的)、有意识的历程所组成。显性历程、显性态度及显性行为是以言语的形式来表达,可透过劝服或教育而改变,而隐性历程或隐性态度则需要长时间才能随着新习惯的形成而改变。双重历程理论在社会心理学、人格心理学、认知心理学和临床心理学等领域中皆有所应用,并透过行为经济学和前景理论与经济学联系在一起,也逐渐透过文化分析与社会学联系在一起。

3.1 通过多模态实现现实基础和不变性

多模态策略致力于在语言和视觉等不同渠道之间增强信息基础。引入多模态代理,多代理系统得以显著扩展其功能,实现对环境的更丰富、更准确、更具上下文感知的解读。

3.1.1 多模态基础模型

仅依靠文本语言来构建Agent是无法满足现实需要的,因为通过其他感官模式可以更高效地表达信息。正如“一图胜千言”,近期在视觉-语言预训练领域的突破,让具备强大语言理解能力的LLMs能够感知视觉世界。诸如CLIP、VLBERT、ViLBERT、BLIP-2、Flamingo、LLaVA、CogVLM、MiniGPT-4、GPT-4 Vision、GPT-4o以及Gemini 1.5 Pro等多模态基础模型,为多模态代理系统在视觉及其他领域的知识基础奠定了基石。

3.1.2 与双过程理论的契合

这些模型从输入图像生成输出文本仅需单次推理,过程迅速且直接。它避免了迭代推理或反思步骤,将单模型推理与快速自动的“系统1 ”思维过程紧密相连。

人类反馈强化学习(RLHF)在LLaVA-RLHF中的应用,展现了在减少跨模态错位引起的幻觉方面的积极进展。此外,视觉指令调整技术,使高级基础模型如LLaVA、GPT-4 Vision和Gemini 1.5 Pro能够更细致地遵循指令,进行多轮人机互动和与其他代理的协作,执行深思熟虑的多模态推理,使用工具和策略性思考,以理解更复杂的工程化或依赖上下文的查询。这为多模态基础模型中“系统2 ”过程的进一步研究提供了可能。

3.1.3 信息的实体化(Grounding)

多模态性通过丰富多样的信息,极大提升了Agent系统的功能。例如,行动链通过支持多模态数据检索,超越了单一模态的搜索链,以实现更准确的问答。DoraemonGPT将复杂任务拆解为简单任务,以便更好地理解动态场景,这需要对时空视频进行多模态分析。RA-CM3通过整合图像和文本的原始多模态文档,增强了基础的检索增强型LLMs,使得文档信息更丰富,从而提升了生成器的性能。多模态能力还使得HuggingGPT、Agent LUMOS、ToolAlpaca和AssistGPT能够扩展任务处理范围,包括专业代理或工具间的协作,它们能够处理不同的信息模态。

Web Agent展现了多模态Agent系统如何超越仅依赖语言的Agent系统。Pix2Act 、WebGUM 、CogAgent 和SeeAct 等代理,将Web导航建立在图形用户界面(GUI)上,而非仅仅依赖HTML文本。与通常冗长、杂乱无章甚至不完整的HTML代码相比,基于视觉的信息基础化提供了更高的信息密度。WebGUM的消融研究还发现,仅通过添加图像模态,就在MiniWoB++数据集上提高了5.5%的成功率。

大型世界模型是减少多模态幻觉的新兴方向 ,前景广阔。这一概念在LeCun的“目标驱动的AI”中也有提及,其中代理的行为是由实现目标驱动的,并且它们理解世界如何运作,超越了自回归生成的常识。LeCun强调,代理需要学会超越前馈推理,即“系统1”的下意识计算,开始进行“系统2”的推理和规划,以满足目标,并在世界模型的基础上进行。JEPA创建了一个抽象表示空间中的循环世界模型。大型世界模型(LWM)通过视频序列,从文本知识和世界中获得见解。它们都朝着通用的世界模拟器方向发展,尽管如此,它们仍然缺少可靠的物理引擎,以确保在现实世界动态中的基础。

3.1.4 跨模态的不变性

实现跨模态的表示不变性是理性的关键方面,Agent应该在共享等价底层逻辑的不同模态中做出一致的决策。

多模态基础模型通过统一表示处理多模态数据,特别擅长促进不变性。具体来说,它们大规模的跨模态预训练阶段,将视觉和语言输入无缝地标记化为联合隐藏嵌入空间,通过数据驱动方法学习跨模态相关性。换句话说,图像标记被看作是一种外语。此外,多模态基础模型的跨模态验证,允许不同模态的数据进行调和,缩小了它们在隐藏嵌入空间中的距离。

不变性概念是视觉问题回答(VQA)代理的基石。一方面,这些Agent必须理解关于图像提出的任何开放式问题的不变语义,保持一致性,尽管措辞、语法或语言可能有所不同。另一方面,在多Agent VQA系统中,视觉代理可以为基于语言的推理提供关键的验证和支持,而语言查询可以基于视觉和语言领域共享的不变底层知识,引导视觉代理的注意力。

3.2 通过知识检索实现实体化(Grounding)

有限理性是为认知能力受限的Agent量身定做的概念,它表明决策受限于现有资源,任何偏离最优选择的情况主要是由于计算能力不足和工作记忆的限制

对于大型语言模型(LLMs)来说,它们现有的参数化架构从根本上限制了它们能够处理的信息量。因此,在不确定性面前,LLMs常常会凭空捏造,生成与环境真实情况不符的输出。

检索增强生成(RAG)在解决LLMs这一固有缺陷方面有着重要作用。总体而言,RAG指的是向LLM的输入上下文提供外部知识的所有机制,帮助其提供最新、真实且基础化的回答。

多模态和/或多代理系统可以包含规划代理,类似于“系统2”的过程,能够决定如何以及从何处检索外部知识,以及需要获取哪些具体信息。此外,系统还可以包括总结代理,它们利用检索到的知识,使系统的语言输出更加事实丰富。

有很多研究构建了大规模知识图谱(KGs),以有效扩展工作记忆。例如:

  • • MAVEx通过整合来自ConceptNet和Wikipedia的知识,将系统得分提高了9.5%,并通过图像模态进行跨模态验证,进一步提升了8.3%。
  • • 得益于外部知识库,ReAct将幻觉导致的误报率降低了8.0%。CuriousLLM的消融研究表明,知识图谱在搜索过程中提高了推理能力。
  • • MineDojo发现,互联网规模的多模态知识使模型在所有创造性任务基线上显著超越。RA-CM3配备了世界知识,能够根据字幕生成真实的图像。
  • • CooperKGC促进了多代理之间的协作,利用不同专家的知识库,并发现整合知识图谱能够显著提高F1分数,增加协作轮次也能进一步提升性能。
  • • DoraemonGPT支持知识工具,帮助理解专业视频内容。
  • • SIRI构建了一个多视角知识库,以增强视觉问题回答的可解释性。

在外部知识库中基础化的代理也促进了更事实性的推理,减少了幻觉,特别是在科学和医学领域,如Chameleon、Chain-of-Knowledge、WildfireGPT和Agent Hospital等实例所示。Chain-of-Knowledge的实验甚至发现,整合多个知识源比单一来源的性能提高了2.1%。

3.3 工具利用:实现真实性、不变性及独立性

3.3.1 真实性(Grounding)

赋予Agent使用工具的能力,相当于扩展了它们受限的工作记忆,这与检索外部知识异曲同工。Toolformer Schick等人(2024年)开创了新纪元,允许LLMs通过API调用利用外部工具,遵循既定语法,有效突破了它们固有的限制,并确保了输出的一致性和可预测性。

多代理系统能够协调代理,决定何时及使用何种工具,预期工具需要处理哪种信息模态,如何发起相应的API调用,以及如何整合API调用的结果,这使得随后的推理过程能够基于比模型参数记忆更精确的信息。

3.3.2 抽象至逻辑本质

大多数工具需要将自然语言查询转换为具有预定义语法的API调用。规划代理一旦确定了API及其输入参数,那些可能包含无关上下文的原始查询对工具来说就变得透明了,工具会忽略原始查询中的任何变化,只要它们在逻辑上等价。

以多代理VQA为例,它使用LLM仅向系统的Grounded SAM组件提供相关对象名称,而非整个视觉问题,该组件充当对象检测器的角色。同样,VisProg Gupta和Kembhavi(2023年)中的图像编辑工具只接收从用户查询转换而来的固定参数集,执行确定性的代码执行。SeeAct Zheng等人(2024a)作为Web代理,探索视觉-语言模型、排名模型和边界框注释工具,以提高从冗长且嘈杂的HTML代码中提取Web元素的精确度。因此,在多代理系统中使用工具增强了对无关上下文的不变性和独立性,确保操作流程简化,专注于必要信息。

3.4 神经符号推理:实现偏好有序性、不变性及独立性

3.4.1 与双过程理论的契合

神经符号推理结合了多代理系统中语言和符号逻辑的优势,是实现偏好一致排序和不变性的有前景的方法。将神经符号推理与双过程理论相融合,提出LLMs主要作为单一系统运作,类似于“系统1”。为解决这一问题,引入了一个包含类似“系统2”的代理的多代理系统,该系统将复杂任务分解为符号程序,筛选由LLM生成的候选响应,并与简化的世界模型对比以检验一致性。LLMs与神经符号模块间的这种缓慢互动提升了整个推理过程的连贯性和解释力。

3.4.2 偏好的连贯有序性

融合了符号模块的多代理系统能理解语言查询,基于明确规则和逻辑原则提供忠实且透明的推理过程,这是单独的LLMs所无法达到的。

  • • Logic-LM Pan等人(2023)结合了问题构建、符号推理和结果解读代理,符号推理器赋予LLMs确定性符号求解器以执行推理,确保始终选择正确答案。其多代理框架还鼓励自我完善,通过符号推理器的错误消息反馈修正逻辑构建错误。- SymbolicToM Sclar等人(2023b)和KRISP Marino等人(2021)构建了显式符号图并通过图节点检索回答问题。
  • • Binder Cheng等人(2022)、Parsel Zelikman等人(2023)、LEFT Hsu等人(2024)和Fang等人(2024)将任务分解为规划、解析和执行,符号推理代理有助于在系统输出中维持符号选项的连贯偏好顺序。
  • • Parsel Zelikman等人(2023)发现,绕过符号模块会导致性能显著下降19.5%。
  • • LEFT Hsu等人(2024)在多个实验中平均比没有符号程序的端到端基线高出3.85%。

在更明确的场景中,逻辑模块可以直接比较多个选项的顺序,例如关系逻辑中的“左”或“右”,而不是依赖单一的LLM在自然语言空间内不确定地生成响应。

3.4.3 抽象至逻辑本质

神经符号模块通常要求输入格式标准化 ,类似于调用外部工具的API。这层抽象提升了与无关上下文的独立性,并在处理自然语言查询时保持了LLMs的不变性。唯一重要的是输入到预定神经符号程序中的解析后输入。

例如,Ada Wong等人(2023)引入了符号运算符来抽象动作,确保低级规划模型不受查询和观察中的无关信息影响。没有符号动作库,单一的LLM在定位对象或遵守环境条件时会频繁失败,导致大约59.0-89.0%的准确性差距。

3.5 通过反思、辩论和记忆实现偏好的有序与不变性

3.5.1 与双过程理论相对比

大型语言模型(LLMs)的输出概率性与人类“系统1 ”认知的迅速、非反复特性相似,这使得确保偏好的有序性和一致性变得复杂。然而,能够进行自我反思的算法和能够激发辩论与共识的多智能体系统,有助于使输出更贴近“系统2 ”过程的审慎和逻辑决策,进而提升代理的理性推理能力。

记忆是引领人类进行推理、创新、学习乃至自我意识形成的根本认知过程之一。换言之,即便是一个在每次查询后都会遗忘所有过往对话的人工通用智能(AGI),也会发现构建连贯且理性的决策过程相当困难。

3.5.2 深思熟虑,让“思考”步伐放缓

智能体记忆的狭义是指同一对话中的历史信息,例如,多轮自我反思的策略,激励智能体严格审视先前的答复。来自不同视角的历史对话,通常能够纠正初步错误,助力形成更加严密且一致的最终决策。

智能体记忆的广义定义则扩展至跨多个任务和多个智能体的历史信息。Corex Sun等人的研究表明,协同多个智能体共同工作,能够带来更出色的复杂推理成果,其效果平均超越单一智能体基准约1.1%至10.6%。

  • • Retroformer为单智能体Reflexion算法增添了一个额外的LLM,用以生成口头强化提示,辅助其自我完善,从而将准确度提升1.0%至20.9%。
  • • ChatEval引入了一个多智能体辩论框架,模仿人类在进行稳健答案评估时的协作,其多智能体方法在与人类偏好的一致性上超越了单一智能体评估,对GPT-3.5的准确度提升了6.2%,对GPT-4提升了2.5%,并且与人类判断的相关性平均提升了16.3%和10.0%。
  • • MetaAgents有效地协调智能体在任务导向的社交环境中的行为模式,智能体反思的实施使得成功率提高了21.0%。

LLMs对提示的扰动也很敏感,这主要是由于标记偏差和噪声。其中最令人担忧的例子之一是通过恶意提示工程进行的对抗性攻击。Chern等人介绍了一种多智能体辩论方法,智能体具有无害、中立或有害的意图。研究发现,多轮多智能体辩论超越了单一智能体的自我反思,从而提高了系统的不变性。

总结来说,这些协作方法使系统中的每个智能体能够通过关键判断比较和排列自己或他人的选择偏好。这有助于系统识别并输出作为共识的最占优势的决策,提升偏好的有序性。同时,通过这种缓慢而审慎的思考过程,初始响应或输入提示中的错误更有可能被检测和纠正。从过去错误规划中积累的经验有助于多智能体系统的自我进化,使最终响应或共识对特定措辞或标记偏差的敏感性降低,从而提高一致性和不变性。

  1. 如何评估智能体的理性

尽管对多模态和多智能体系统中合理性测试的兴趣在不断增长,但相关研究仍然不足。虽然目前有许多推理基准测试可用,例如常识推理、逻辑推理、多跳推理、数学推理、结构化数据推理、概念推理以及通过多智能体评估的通用能力等,但这些测试并不直接衡量合理性

这些基准测试往往无法证明是否真正运用了推理来解决问题,也就无法保证这些任务在推广到其他表现形式或领域时能否持续得到解决。数据污染的问题更是加剧了这一难题,因为一些基准测试可能无意中包含了这些大型语言模型的训练数据,从而导致性能分数虚高 。因此,尽管扎实的推理能力暗示了合理性,但现有的方法在将逻辑与实际问题联系起来方面还有所欠缺

4.1 借鉴认知心理学实验

近期的研究提出,借鉴认知心理学中的小故事实验,测试大型语言模型是否容易受到认知偏见和谬误的影响。例如,Binz和Schulz在2023年对GPT-3进行了联合谬误测试,发现它们表现出类似人类的偏见。然而,这些方法中的许多是非正式和主观的,无法扩展到能够得出统计上有意义的结论的程度。此外,大型语言模型可能会受到人类所没有的认知偏见的影响,例如Bender等人在2021年提出的“算法偏见”,这可能导致决策任务中出现意外的负面后果。需要进一步的研究来揭示和描述这些潜在的偏见。

4.2 对抗幻觉的信息基础测试

信息基础通常通过幻觉的程度来评估,这可能影响智能体系统的合理性。已经提出了多个针对仅限语言对话的评估基准,例如BEGIN、HaluEval、DialFact、FaithDial、AIS等。与此相反,针对超出语言对话的多智能体框架或涉及多模态的基准测试非常有限。Liu等人在2024年的研究超越了对话,转向代码生成;EureQA专注于推理链;TofuEval评估多领域摘要中的幻觉。对象幻觉、POPE和LLaVA-RLHF是评估多模态幻觉的几个例子。社区需要更多的幻觉基准,以量化评估多模态和多智能体在减少幻觉方面的成效。

4.3 偏好有序性的测试

目前几乎没有基准测试用于评估LLMs或智能体在选择可用选项时是否具有一致的偏好。多项选择问题(MCP)是一个常见的测试平台。Zheng等人在2023年表明,LLMs容易受到选项位置变化的影响。由于底层逻辑保持不变,这也导致LLMs未能通过不变性属性的测试。尽管有许多MCP基准测试,但它们仅关注选择的准确性,而忽视了偏好的一致性。然而,Robinson等人在2023年强调,多数一致性比例(PPA)提供了一种不依赖于模型执行任务能力的顺序不变性度量,这表明了一个有希望的研究方向。我们还需要对视觉和其他模态进行评估。

4.4 不变性原则的测试

语言的实现可以与其含义分离。最近的数据污染研究调查了LLMs是否能够在相同任务的不同表述中生成一致的响应。这些研究通过引入原始任务描述的扰动来评估LLMs的响应是否会发生显著变化。扰动技术包括修改指令模板、释义任务描述或改变上下文学习示例的顺序。具体方法包括一些释义或排列的版本,例如更改指令模板、释义任务描述、将提示翻译成不同的语言然后再翻译回原始语言,以及对任务描述中的实体进行微妙更改,如更改角色名称、数学问题中的数值或事件位置,而不影响逻辑结构。排列还包括重新排序上下文学习示例和在多项选择题中重新排列选项。

4.5 独立性测试

需要更广泛的扰动来评估与不相关上下文的独立性。Shi等人、Wu等人、Liu等人和Yoran等人的研究通过在原始问题陈述中引入随机或误导的句子探索了“在上下文中迷失”的现象。虽然早期的基准测试如Weston等人、Sinha等人、Clark等人和Webson和Pavlick的研究包括了不相关内容,但它们主要限于语言模态和单一智能体系统。最近的基准测试,如MileBench、Mementos、Seed-bench-2和DEMON,开始评估长上下文或图像序列中的多模态智能体,其中准确回答问题需要从长上下文窗口中仅隔离相关信息。

  1. 未来研究方向

5.1 内在的理性

将这些智能体或模块与大型语言模型(LLMs)结合,并不天然赋予LLMs更高的合理性。

现有的方法既不充分也不必要,它们更像是一种工具,用来弥合LLMs的回应与合理性之间的鸿沟。这些方法让对用户来说如同黑匣子的多智能体系统,在输出回应时更能模仿合理的思考。

然而,即便多模态和多智能体系统能够产生更合理的回应,如何有效形成一个闭环,并将这些提升后的输出重新整合回LLMs,依然是一个未解的议题。换句话说,能否在未来的应用中,利用这些更合理的输出,来提升单一基础模型在最初回应中的内在合理性?

5.2 全面评估理性

选择合适的评估指标至关重要;这些例子主要集中于最终性能的准确性,而忽视了最引人入胜的中间推理步骤和合理性的概念。尽管已有一些努力去评估智能体系统的合理性,但该领域仍然缺少全面和严格的评估指标。此外,现有的大多数关于合理性的基准测试在多智能体框架和单一智能体基线之间提供的比较有限,未能充分揭示多智能体框架所能提供的优势。

5.3 促进多智能体系统中多模态智能体的发展

将多模态集成到多智能体系统中的研究前景广阔。多智能体辩论、协作和神经符号推理等领域,目前还未充分利用多模态感官输入的潜力。扩展多模态的角色,包括但不限于视觉、声音和结构化数据,可以显著提升多智能体系统的能力和合理性。

  1. 局限性

多模态和多智能体系统的领域正以迅猛的速度演进。尽管竭尽全力,试图覆盖这一领域内的所有相关工作本质上是不可行的。作者这篇文章中对推理能力、机器心理学中的心智理论以及认知架构的提及相当有限,这些内容虽超出了本次调研的范畴,但对于深入理解大型语言模型(LLMs)和智能体系统却至关重要。此外,在人类认知科学中,合理性的概念可能涵盖了比我们在本次调研中定义的更广泛的原则和公理。


0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
边缘云打通大模型物理世界
《火山引擎边缘智能,打通大模型的物理世界》 张俊钦 | 火山引擎边缘智能资深研发工程师
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论