大模型AI Agents有哪几种类型？每种类型有哪些区别？ - 文章 - 开发者社区

picture.image

点击上方蓝字关注我们

picture.image

字数 3170，阅读大约需 16 分钟

通常而言，AI Agents 可以根据其智能水平和能力进行分类划分。根据 Russell & Norvig 的所述，AI Agents 主要分为五种类型，每种类型具有其独特的特点和应用场景。

每种类型的 AI Agents 都有其优点和局限性，使其适用于不同的应用程序和环境。这里，我们针对每种类型进行更详细的探索以便进一步深入了解它们的功能、优势和应用程序的适用性。根据具体的问题和需求，选择合适的 AI Agents 类型可以提高系统的性能和效果。

简单反射代理 (Simple Reflex Agents)

简单反射代理是最基础的AI代理类型，它们根据当前的感知直接做出反应，不考虑历史信息或未来的结果。这类代理通过一系列预设的“条件-动作”规则来指导行为，适用于环境完全可观察且决策规则明确的场景。

基于上述模型图可以看到：AI 中的这些类型的代理，例如简单的反射代理和基于模型的反射代理，通过感知环境的当前状态来采取行动。它们的行动并不基于任何既定模型或先前的信息，而是依赖于对环境的充分观察。这些代理遵循条件行动规则，也就是说，往往根据感知到的条件来决定采取对应的行动。

打个比方，假设我们开车的过程中，看到路上有行人横穿马路时，潜意识地果断采取刹车措施以避免交通事故。像这种会根据事先设定的规则，不需要建立复杂的模型或依赖先前的信息，而是根据当前的感知情况来做出决策这种 Reflex Agents 的成功取决于对环境的充分观察。如果代理能准确感知到行人危险操作的存在，它将能够及时采取行动并避免车祸发生。然而，如果代理对环境的感知不准确或遗漏了一些重要信息，它可能无法做出适当的决策。

因此，这些反射代理类型在行动选择上依赖于当前的感知和条件规则，而不需要事先建立模型或依赖先前的信息。这种设计模式使得它们能够快速做出反应，适用于一些简单的、实时性强的任务和环境。然而，对于更复杂的问题和环境，可能需要更高级的代理类型，如基于目标的代理、基于实用程序的代理或学习代理，以便进行更深入的推理和决策。

通常而言，Simple Reflex Agents 设计方法存在一些问题，这些问题限制了它们的智能水平和适应性，具体涉及如下几个方面：

1、有限的智能

Simple Reflex Agen 是基于固定的条件-动作规则构建，因此，它们的智能行为受限于事先定义好的规则。由于缺乏复杂的推理和学习能力，导致 Simple Reflex Agen 无法进行灵活的决策和问题解决。

2、受限的感知能力

除了上述的智能因素外，Simple Reflex Agen 也需要充分的可观察性，即只能根据当前环境状态的可感知部分来采取行动。它们无法处理环境中不可感知的信息，这可能导致决策的局限性。代理无法考虑到隐藏或间接的因素，从而可能做出不完全准确或不理想的决策。

3、缺乏环境适应性

由于基于固定的条件-动作规则的有限智能，Simple Reflex Agents 无法适应环境的变化。当环境发生变化时，便无法自动调整或学习新的行为模式，从而导致可能无法有效地应对新的情况。

满足条件

不满足条件

感知环境

条件-动作规则

执行动作

基于模型的反射代理 (Model-Based Reflex Agents)

基于模型的反射代理在简单反射代理的基础上增加了内部状态和环境模型。它们不仅考虑当前感知，还会利用历史信息来维护一个内部世界模型，从而在部分可观察的环境中做出更明智的决策。

一个典型的基于模型的反射代理的例子是亚马逊的 Bedrock 系统。Bedrock 利用模型、见解和预测结果来做出决策。通过使用真实数据来完善模型，并提前规划各种可能性，Bedrock 能够有效地管理复杂任务并适应环境的变化。

Bedrock 系统的关键在于其能够建立环境模型，并利用该模型进行推理和预测。这使得代理能够对环境中不可观察或部分观察的因素做出推断，并做出相应的决策。此外，Bedrock 系统还能够根据先前的感知历史来调整行动选择，从而提高决策的质量和适应性。

Model-Based Reflex Agents 充分利用了代理内部状态和建模能力，使其在面对复杂任务和动态环境时能够更加灵活、智能地做出决策。这种代理设计方法通过整合感知、模型和推理，提供了更高级的智能和适应性，为解决复杂问题提供了一种有效的方法。

基于 Model-Based Reflex Agents 在决策过程中涉及两个基本因素，即模型和内部状态。这两个因素对于代理的智能和适应性至关重要。

1、模型：Model-Based Reflex Agents 通过寻找与当前情况相匹配的条件规则来工作。这个模型具有内置的历史记录和关于环境的信息。在 AI 中，这种代理可以根据模型使用多种与条件相关的动作。模型允许代理在部分可观察的环境中进行行动选择和决策，可以利用先前的感知和经验来推断未观察到的环境因素，并根据这些推断做出决策。

2、内部状态：代理必须了解自身的内部状态，这个状态是由当前和过去的感知所注册和记录的。当前状态储存在代理内部，它是一种典型的结构，用于描述环境中不可见部分。为了更新内部状态，代理必须了解环境是如何自发演化的（不论智能体如何行动），以及智能体的行为将如何影响通过对内部状态的维护和追踪，代理能够对环境的动态变化做出反应，并相应地调整其决策。

满足条件

不满足条件

感知环境

更新内部状态

环境模型

条件-动作规则

执行动作

基于目标的代理 (Goal-Based Agents)

基于目标的代理通过设定明确的目标来指导其行为。它们会规划一系列行动以达到这些目标，并利用搜索算法来找到最优的行动序列。这类代理能够进行更复杂的推理和决策，适用于需要长期规划和问题解决的场景。

Goal-Based Agents 依赖于知情的搜索算法和规划，以有效地执行任务。这些代理通过对可能的行动序列进行搜索，并利用启发式方法和领域专家知识来指导搜索过程，以找到最优的解决方案。

通常而言，Goal-Based Agents 具有灵活性的优势，因为可以轻松地修改代理程序中的知识和算法，以适应新的情况和目标。这意味着当环境发生变化或者任务要求发生改变时，代理可以通过更新其知识库和调整搜索算法来适应新的要求。这种灵活性使得基于目标的代理能够适应复杂和动态的环境，并具备处理各种任务的能力。

此外，基于目标的代理是一种高级的代理设计方法，结合了知识表示、搜索算法和规划技术，以实现智能决策和问题解决。通过利用知识和搜索能力，这种代理能够在不同领域和应用中表现出色，并具备适应新情况和目标的能力。

感知环境

内部状态

目标

规划模块

执行动作

基于效用的代理 (Utility-based Agents)

基于效用的代理是基于目标的代理的扩展，它们不仅追求目标，还会评估不同行动序列的效用（即结果的好坏程度）。这类代理通过效用函数来量化不同状态的价值，并选择能够最大化预期效用的行动，尤其适用于存在不确定性或需要权衡多个目标的复杂环境。

1、为不同的状态分配数值：Utility-Based Agents 会为不同的状态分配数值，这些数值代表了该状态下的成功或幸福程度。通过对状态赋予数值，代理能够对不同状态的优劣进行比较，并基于这些数值评估决策的效果。

2、比较每个状态下不同行动的结果：Utility-Based Agents 会比较在每个状态下采取不同行动的结果，并将这些结果与预期效用函数进行比较。通过评估不同行动的结果，代理能够选择那些能够最大化预期效用的行动。

3、根据效用价值做出决策：Utility-Based Agents 会根据效用价值来做出决策。效用价值是基于代理对不同状态的评估和对行动结果的比较所得出的价值。代理会选择那些具有最高效用价值的行动，以实现最4、处理不确定性：Utility-Based Agents 能够处理不确定性，因为它们可以评估不同行动在不确定环境下的预期效用。通过考虑概率和风险，代理能够做出更稳健的决策。

感知环境

内部状态

效用函数

决策模块

执行动作

学习代理 (Learning Agents)

学习代理是能够通过经验不断改进自身性能的AI系统。它们能够从环境中获取数据，并利用这些数据来更新其知识和行为策略，从而在面对新情况时表现出更强的适应性和智能。

1、学习元素：负责从经验中学习，并对代理的性能元素进行改进。学习元素可以采用各种机器学习算法，如强化学习、监督学习或无监督学习。

2、性能元素：负责选择外部行动。性能元素利用学习元素所获得的知识来做出决策。例如，在自动驾驶汽车中，性能元素会根据学习到的驾驶策略来控制车辆。

3、评论器：负责向学习元素提供关于代理性能的反馈。评论器会评估代理的行动结果，并根据预定义的性能标准来判断行动的好坏。这些反馈信息有助于学习元素调整其学习策略。

4、问题生成器：负责提出新的、探索性的行动，以发现新的经验。问题生成器鼓励代理尝试不同的行动，从而扩大其经验范围，并有助于学习元素发现更优的策略。

Learning Agents 能够不断地适应和改进，使其在复杂和动态的环境中表现出色。它们在各种应用中都具有潜力，如机器人控制、游戏玩法和个性化推荐系统。

感知环境

学习元素

性能元素

执行动作

评论器

问题生成器

喜欢请关注

大模型人工智能Agent到底是什么，一文搞懂智能体相关概念及原理

一文讲清楚大模型中8个关键词及原理：LLM、Transformer、GPT、Bert、预训练、微调、深度学习、Token