从Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图） - 文章 - 开发者社区

“

当前Agent各方便研究与应用文章蛮多，所以就酝酿写一篇把这些内容都串起来的文章：Agent的发展历程到实际应用案例，前后花了小几个月时间，希望对有需要的同学有帮助。

引言：在人工智能的征途中，单一模态Agent的发展已经为我们打开了新世界的大门。随着技术的不断进步，多模态Agent的兴起标志着AI在理解和交互方面迈出了重要一步。而在多模态的基础上，构建多模态Multi-Agents系统则进一步拓宽了AI的应用范围，使其能够更加高效地处理复杂问题，展现出接近人类智能的协作能力。

单一模态Agent的发展 ：单一模态Agent，主要依赖于文本信息处理，已经在聊天机器人、文本分析等领域取得了显著成就。这些Agent通过深度学习和自然语言处理技术，能够理解和生成自然语言，为用户提供信息查询、客户服务等多样化服务，文献【2-7】。

多模态Agent的兴起 ：随着技术的发展，单一模态Agent逐渐无法满足复杂场景下的需求。多模态Agent应运而生，它们不仅能处理文本信息，还能理解图像、声音等多种类型的数据。这种Agent在视觉问答、图像生成、音频处理等领域展现出了卓越的能力，极大地丰富了AI的应用场景，文献【8-10】。

多模态Multi-Agents系统的构建 ：在多模态Agent的基础上，进一步探索了多模态Multi-Agents系统。这些系统通过多个Agent的协作，能够模拟人类在复杂问题解决中的集体智慧。每个Agent在系统中扮演不同的角色，通过高效的沟通和协作，共同完成目标任务，文献【11-14】。

总结与未来展望（AGI） ：通过一张图对Agent、多模态Agent、多模态Multi-Agents之间的关系进行概括总结。多模态Multi-Agents的构建，为我们描绘了一个更加智能的未来。随着技术的不断进步，这些系统将更加接近人类的认知和决策过程，为实现通用人工智能（AGI）奠定基础，文献【15-16】。

Agent企业产品与落地架构设计分析 ：从主流Agent企业产品分析，探讨企业落地的架构方案设计，并给出技术栈分析以及示例解析，参考文献【17-22】。

多模态Multi-Agents系统MP5在 Minecraft中的任务****

demo示例： 在一个阳光充足、亮度适宜的日子里，在平原上找到一头猪，旁边有草和水。

I. 引言

1.1 研究背景与动机

随着人工智能技术的飞速发展，特别是在自然语言处理领域，大型语言模型（LLMs）已经取得了显著的成功。这些模型不仅在文本理解和生成方面表现出色，还展现出了与人类相似的推理和规划能力。这种能力使得LLMs能够作为自主智能体（Agents）来执行各种任务，从而引发了对多模态Agent的研究兴趣。多模态Agent能够在更复杂的环境和任务中发挥作用，处理包括文本、图像、音频等多种模态的信息，这在现实世界的应用中具有重要意义。

1.2 Agent的定义与功能

智能代理（Agent）是指能够感知环境、根据感知做出决策并执行行动以实现特定目标的系统。在人工智能领域，Agent通常需要具备自主性、交互性、适应性和目标导向等特点。它们可以是单一模态的，如仅处理文本信息的聊天机器人，也可以是多模态的，即能够理解和生成包括视觉、听觉等在内的多种类型的数据。

1.3 多模态Agent的概念及其重要性

多模态Agent是指能够处理和理解多种模态输入（如文本、图像、音频等）的智能系统。这类Agent的重要性在于它们能够更全面地模拟人类的感知和认知过程，从而在复杂的环境中提供更加丰富和准确的交互体验。多模态Agent在提高用户体验、增强决策支持系统以及开发先进的人机交互界面等方面具有巨大潜力。

II. 单一模态Agent的发展

2.1 早期Agent的研究与应用

早期的Agent研究主要集中在规则驱动的系统上，这些系统在特定领域内表现出高效的性能，但缺乏泛化能力和对复杂环境的适应性。随着时间的推移，研究者开始探索基于知识的系统和学习型Agent，以提高其自主性和智能水平。

2.2语言模型在Agent中的应用

随着大型预训练语言模型的出现，如GPT系列，Agent的研究和应用进入了一个新的阶段。这些模型能够生成连贯、有逻辑的文本，使得基于语言模型的Agent能够更好地与人类用户进行更自然的交互，理解和响应用户的需求，执行复杂的语言任务。

图1： 由大型语言模型（LLM）驱动的自主智能体系统概览 picture.image

在基于LLM的自动Agent体系里, LLM就是作为Agent的大脑：

规划能力（Planning）

子目标与拆解: Agent大脑把大的任务拆解为更小的，可管理的子任务，这对有效的、可控的处理好大的复杂的任务效果很好.
反省和改良: Agent能基于过去的动作做自我批评和自我反省，从过去的问题中学习从而改良未来的动作，从而能够改善最终的结果.

记忆（Memory）

短期记忆: 我会把所有基于context的学习能力，其实就是prompt内的学习能力作为短期记忆.
长期记忆: Agent能够保留和无限召回的历史信息能力，这通常通过外部的向量数据库和快速取数能力组合实现.

工具使用（Tools Use）

Agent能学习到在模型内部知识不够时（比如在pre-train时不存在，且之后没法改变的模型weights）去调用外部API，比如获取实时的信息，处理代码的能力，访问专有的信息知识库等等.

在介绍了基于LLM的Agent系统基本构成后，这里也介绍一种基于ReAct技术的Agent实现：

图2： 基于ReAct技术的Agent

picture.image

ReAct 整合了推理和行动能力，它扩展了LLM，让LLM能做一些语言模型内部能力不具备的行为，也扩展了大语言模型的表达空间。他让大语言模型能够与外部环境交互（比如使用Wikipedia search API)，同时再把这些与外部交互获取的结果整理后放入prompt里与LLM交互，让LLM进一步的进行推理，这样整个系统就能将大语言模型与外部系统交互、思考的整个过程进行追踪，相当于用自然语言做了logging.

ReAct prompt template 一般包含如下的内容:


          
Answer the following questions as best you can. You have access to the following APIs:
          

          
google_search: Call this tool to interact with the 谷歌搜索 API. What is the 谷歌搜索 API useful for? 谷歌搜索是一个通用搜索引擎，可用于访问互联网、查询百科知识、了解时事新闻等。Format the arguments as a JSON object. Parameters: [{"name": "search_query", "description": "搜索关键词或短语", "required": true, "schema": {"type": "string"}}]
          

          
image_gen: Call this tool to interact with the 文生图 API. What is the 文生图 API useful for? 文生图是一个AI绘画（图像生成）服务，输入文本描述，返回根据文本作画得到的图片的URL。Format the arguments as a JSON object. Parameters: [{"name": "prompt", "description": "英文关键词，描述了希望图像具有什么内容", "required": true, "schema": {"type": "string"}}]
          

          
Use the following format:
          

          
Question: the input question you must answer
          
Thought: you should always think about what to do
          
Action: the action to take, should be one of [google_search, image_gen]
          
Action Input: the input to the action
          
Observation: the result of the action
          
... (this Thought/Action/Action Input/Observation can be repeated zero or more times)
          
Thought: I now know the final answer
          
Final Answer: the final answer to the original input question
          

          
Begin!
          

          
Question: 搜索“你好”

图3： 一个基于ReAct技术的Agent的示例

picture.image

2.3 单一模态Agent的局限性

尽管单一模态Agent在文本处理方面取得了显著进展，但它们在处理非文本模态信息（如图像和音频）方面的能力有限。这限制了它们在需要多模态理解的复杂任务中的应用，例如图像标注、视频内容分析和自动化用户界面测试等。