一图讲透AI核心概念与名词术语 - 文章 - 开发者社区

核心概念梳理

初接触AI的人，大概都有个感受，AI领域的名词太多了，真是让人眼花缭乱，无所适从。所以有必要做个梳理。下面试图用一张Venn图讲清楚AI领域核心概念的关系和范畴。先从技术角度来看，有个初稿：

技术分类

picture.image

人工智能（AI：Artificial Intelligence）作为顶层概念，泛指一切旨在模仿或超越人类智能的人造技术、产品及其理论体系。它区别于天然的人脑智能，也不同于仅能执行预设指令的传统自动化工具。而机器学习是AI的一个子集，目前看也是最大的一个子集。机器学习包含了神经网络，神经网络又包含了深度学习。今天我们耳熟能详的卷积神经网络(CNN)，循环神经网络（RNN)、图神经网络（GNN）、自注意力机制Transformer等都属于深度学习的神经网络架构。今天火出圈的大语言模型(LLM)就是基于Transformer架构设计和训练出来的解决自然语言处理(NLP)任务的模型。

但是，当出现两个概念的包含关系，比如 A 包含了 B时，最好举出一个属于A，但不属于B的例子。否则图会显得空洞，也会让人困惑。比如上图中，为什么不是 AI = 机器学习 = 神经网络 = 深度学习呢？下面我们就对每个包含关系，举出一个属于A但不属于B的反例出来。

首先是属于人工智能，但不属于机器学习的内容。其实机器学习出现之前，AI领域已经发展出众多的研究方向和方法论，它们构成了早期AI的基础，包括：启发式搜索与规划、知识表示与推理（如知识图谱、语义推理）、形式化验证、进化算法（如遗传算法）、以及基于规则的专家系统等。这些技术在当时各有其特定的应用领域，展现了一定的智能水平并解决了实际问题。其中最具影响力的当属基于规则的专家系统（Rule-Based Expert Systems）。作为符号主义 AI 的代表，这类系统通过人工构建的知识库与推理机制模拟人类专家的决策过程，广泛应用于医疗诊断辅助、工业系统配置与故障诊断、信贷风险评估、地质勘探等专业领域。尽管普通大众接触较少，但它们在当时被誉为“可以思考的程序”，曾在多个行业取得显著成果，开启了人工智能技术走向实用化的序幕。但是早期AI普遍受限于对明确规则的依赖、处理复杂现实世界问题的灵活性不足、以及知识获取与表示的困难。虽然它们在特定领域有效，但对整个社会的触动有限。直到机器学习的出现，带来了范式转变。

其次是属于机器学习，但不属于神经网络的例子。机器学习的核心在于让算法从数据中自动学习模式而非依赖预先设置的规则。支持向量机（SVM）就是从带有类别标签的训练数据中自动学习一个用于分类的决策函数（模型），做到将数据正确分类且间隔最大。这就是典型的机器学习算法，但和神经网络没有关系。

最后是属于神经网络，但不属于深度学习的例子。神经网络的全称是 Artificial Neural Network ，人工神经网络，现在都简称神经网络(NN)，是受大脑的生物神经网络启发设计的：

picture.image

(图片出处：https://en.wikipedia.org/wiki/Neuron)

大脑每一个神经元的细胞，会从它的树突中，接收来自其他细胞的若干信号作为输入，然后经过这个细胞的处理之后，从轴突中去输出若干个信号。

picture.image

单层感知机（SLP：Single-Layer Perceptron）模拟了生物神经元的这种结构：

输入： 如同生物神经元的树突接收信号，SLP的输入单元接收外部输入数据（图中的Xn)
加权求和（整合信号）： 如同生物神经元对输入信号进行整合，SLP将每个输入 "Xi" 乘以一个对应的权重 Wi 进行求和，再加上一个偏置 b：
激活函数（产生输出）： 如同生物神经元在整合信号达到阈值后才会“兴奋”产生动作电位，SLP将加权和 z 输入到一个激活函数 中。这个函数根据z是否超过某个阈值产生最终的输出：

"ŷ = f(z) = 1" 如果 "z >= 0"

"ŷ = f(z) = 0" 或 "-1"（取决于约定）如果 "z < 0"
输出： 这就是神经元的最终输出信号(ŷ)。

当然单层感知机也可以有多个神经元，以不同的权重，同时处理同一组输入信号，产生多个输出，可以对应多分类问题。1个或多个神经元逻辑上构成一层神经网络，接受输入，计算后产生输出，是最简单的神经网络模型。因为只有一层，所以不算深度学习。

有单层感知机（SLP），自然有多层感知机（MLP：Multi-Layer Perceptron）。

picture.image

MLP由输入层，输出层和1个或多个隐藏层构成。层与层之间用激活函数链接。MLP通过隐藏层和非线性激活函数（如 ReLU），理论上可逼近任意连续函数。MLP因为组合了多层神经网络，属于最简单的深度学习基础网络架构。可独立用于结构化数据分类/回归等简单任务，也可作为子模块，嵌入到其他复杂网络架构中。比如在 Transformer 架构中，MLP 就被广泛用于前馈网络(FFN)层

我们加入如上内容后，就有了下图：

picture.image

从机器学习到深度学习，这个脉络可以认为是按AI的技术发展路径来划分的：

机器学习（ML， Machine Learning）：实现AI的核心途径：让系统从数据中自动学习模式和规律，无需显式编程所有规则。如支持向量机 (SVM)
神经网络（NN，Neural Network）：ML的一种具体实现范式：模拟生物神经元连接，通过权重调整，学习输入-输出映射。如单层感知机 (Perceptron)
深度学习（DL，Deep Learning）：神经网络的强化形态：使用多（深）层非线性变换神经网络，自动学习数据的层次化特征表示。

这个发展路径上，深度学习是最大的突破，所以在图中也占了最大的面积。深度学习的"深度"特指神经网络的层级深度，其核心在于多层非线性变换结构。这一架构突破使得模型能够自动学习数据的多层次抽象表示，推动了现代AI技术的革命性发展。

深度神经网络具体怎么个深法，是有不同的姿势和结构的。上图中绿色部分，即是目前为止最基础的五种神经网络架构：

多层感知机（MLP：Multi-Layer Perceptron）：深度学习最基础的网络架构，由全连接层与非线性激活函数堆叠而成。用于结构化数据的分类/回归任务，或作为其他架构的子模块
卷积神经网络 (CNN：Convolutional Neural Network) ：在图像识别中提取空间特征取得了革命性成功；比如将人脸识别准确率提升至商用级，推动了安防、支付等场景的落地和普及。
循环神经网络 (RNN：Recurrent Neural Network) 及其改进型 LSTM(长短期记忆网络)/GRU(门控循环单元) ：为处理时序数据（如语言）提供了有效机制。
图神经网络（GNN：Graph Neural Network）：是一类专门用于处理图结构数据的神经网络。广泛应用于社交网络、知识图谱、分子结构等场景。
Transformer 架构：自注意力机制（Self-Attention）并行化能力强且能建模长距离依赖。是当前预训练大模型（如 GPT、DeepSeek、Qwen等）采用的架构，正引领新一轮 AI 浪潮。

那么16年爆火的战胜人类围棋冠军的AlphaGo和22年爆火的文生图扩散模型（Diffusion Model)又应该在什么位置呢？

AlphaGo 是一个 “深度学习（CNN）+ 强化学习（RL）+ 树搜索” 的混合架构，针对围棋任务的一个人工智能解决方案，其核心构成包括：

策略网络 (Policy Net) 13 层卷积神经网络 (CNN)，用来预测每一步棋的落子概率
价值网络 (Value Net) 14 层卷积神经网络 (CNN) + MLP全连接层，用于评估棋盘状态的胜负概率
蒙特卡洛树搜索 (MCTS) ，用与结合策略/价值网络进行决策推演。这部分属于机器学习之外传统AI方法的搜索与规划范畴。

扩散模型是一类叫做生成模型的一个实现方式。生成模型 (Generative Models) 的目标是从数据分布中学习，从而能够生成新的、与训练数据相似的数据样本。这是一类重要的机器学习任务。生成模型有多种实现方法/框架，包括：

变分自编码器 (Variational Autoencoders, VAEs)
生成对抗网络 (Generative Adversarial Networks, GANs)
标准化流模型 (Normalizing Flows)
自回归模型 (Autoregressive Models)
扩散模型 (Diffusion Models)

在 Diffusion Models 出现之前，生成对抗网络（GAN：Generative Adversarial Network）架构是文生图/文生视频领域的主力。GAN的思路是通过对抗训练生成新数据，由生成器（Generator）和判别器（Discriminator）两部分组成：

生成器（G）：学习生成逼真数据（如图像、文本），目标是“骗过”判别器。
判别器（D）：学习区分真实数据与生成数据，目标是“识破”生成器。

两者由MLP、CNN、Transformer等基础网络架构组合而成，加入了独特的对抗训练机制。通过生成器和判别器的对抗训练，能够生成新的逼真数据。所以能够完成文生图、文生视频任务。

picture.image

(Stable Diffusion架构，图片出处：https://arxiv.org/pdf/2112.10752)

而扩散模型 (Diffusion Models)走的是另一个路子，其核心思想是构建一个逐步向真实数据添加噪声的马尔可夫前向过程（破坏数据），然后训练神经网络学习逆向过程，从纯噪声中逐步还原数据。训练完成后，模型便可通过逆过程从随机噪声生成高质量样本。扩散模型需要依赖底层神经网络来搭建其网络架构。常用的底层神经网络包括CNN（用于图像，如U-Net）、Transformer（用于文本/图像/视频）。例如：图像扩散模型常用U-Net（一种包含跳跃连接的CNN）作为骨干网络。文本到图像扩散模型（如Stable Diffusion）则在其编码器和处理特征图的网络中大量使用了Transformer架构。用 Transformer 替代 UNet 的扩散模型架构又叫做 DiT（Diffusion Transformer）。扩散模型在高质量图像生成、文本到图像生成（text-to-image）和某些视频生成等领域取得了巨大突破，是目前最强大的生成方法之一。

在扩散模型 Diffusion Models 出现之后，很多原来用GAN的明星产品也都逐步转向了扩散模型。目前主流图片视频生成产品的技术架构：

产品名称	类型	核心技术特点
DALL-E 系列
文生图

CLIP文本编码 + 扩散生成；DALL-E 3全面采用扩散架构替代GAN

Stable Diffusion
文生图

潜在扩散模型（Latent Diffusion），低维潜在空间操作提升效率

Midjourney
文生图

早期可能用了GAN，v5后基于扩散模型，艺术风格强化训练

Sora
文生视频

扩散Transformer（DiT），时空Patch联合建模

Flux
文生图

校正流（Rectified Flow）Transformer，线性化扩散路径

可灵（Kling）
文生视频

扩散Transformer + 3D时空注意力，物理运动模拟

即梦AI
文生图+视频

GAN+扩散混合架构；自研Seaweed视频模型（扩散优化）

AlphaGo、GAN、Diffusion Models 三者虽然先后出现在不同应用领域，解决不同的问题，但是都有一个共同特点，都是基于深度神经网络基础架构组合而成的应用架构。

框架	基础网络架构	核心创新	关键特点	代表应用
AlphaGo/AlphaZero
CNN + MLP + MCTS

神经网络与蒙特卡洛树搜索协同
优势：复杂决策能力；缺陷：依赖环境交互（高成本）
围棋、策略游戏

GAN
CNN / MLP / Transformer

生成器与判别器对抗训练
优势：高质量单步生成；缺陷：模式崩溃、训练不稳定
图像生成（StyleGAN）、Deepfake

Diffusion Models
U-Net / Transformer

多步噪声迭代优化
优势：高保真生成、训练稳定；缺陷：生成速度慢（需迭代）
文生图（Stable Diffusion）、视频

加入AlphaGo、GAN和扩散模型之后，变成下图：

picture.image

任务分类

以上AI的概念都是从技术角度来划分的。如果从AI应用领域的角度来划分，AI又分为如下应用任务：

自然语言处理（NLP：Natural Language Processing）：让机器理解、生成和交互人类语言。
计算机视觉（CV：Computer Vision）：让机器“看懂”图像和视频。核心任务有：图像分类、目标检测、图像分割、人脸识别、视频分析、3D重建等。
语音识别与合成（Speech Recognition & Synthesis）：让机器“听懂”和“说出”人类语音。核心任务有：语音转文本（ASR）、文本转语音（TTS）、声纹识别、语音情感分析等
机器人学（Robotics）让机器在物理世界中感知、决策、执行任务。核心任务有：运动控制、SLAM（同步定位与地图构建）、多传感器融合等。专注于物理交互的处理。
决策与规划（Decision Making & Planning）：让机器在复杂环境中进行序列决策。核心任务有：自动驾驶路径规划、游戏AI（AlphaGo）、资源调度等。专注于动作序列与环境反馈的处理
专⻔领域智能（Domain-Specific AI）:解决特定垂直领域问题，常融合多个基础技术。典型方向有：推荐系统（Recommendation Systems）：处理用户-物品交互数据（如电商、短视频）。生物信息学（Bioinformatics）：基因序列分析、蛋白质结构预测。金融科技（FinTech）：风险预测、量化交易等等。

我们加上最常见的 NLP 和 CV 任务，得到下图：

picture.image

其中关于自然语言处理（NLP：Natural Language Processing）部分

NLP任务在机器学习出现之前就有，主要依赖规则系统与符号方法。知识图谱技术，也能解决部分NLP问题
在Transform出现之前，RNN(包括LSTM/GRU)等，都曾用于解决NLP任务，但在捕捉长程依赖上存在瓶颈。
Transform出现之后，立即成为现代NLP的核心架构，促成了现今大语言模型(LLM: Large Language Model)的爆发
扩散模型近年来也开始探索用于文本生成，其并行采样能力在特定条件下可提升生成效率，但仍处于实验探索阶段。

关于计算机视觉（CV：Computer Vision）部分

计算机视觉(CV)任务在卷积神经网络(CNN)出现之前，主要依赖于手工特征提取 + 传统机器学习方法
CNN出现之后，将CV任务推向了新的高度，如 2015年的ResNet在ImageNet数据集的图像分类任务中首次超越了人类。
GNN可应用于NLP和CV任务，GAN主要应用于CV任务
如今 Transform 架构的模型也大量用于CV任务了

总结

到此层次就比较清晰了，我们来做个总结：

从深度学习发展的递进关系看：机器学习-》神经网络-》深度学习。目前大部分力量都倾注于深度学习。

从深度学习神经网络基础架构看，逐步发展出了5种基础架构：

多层感知机（MLP，Multi-Layer Perceptron）
卷积神经网络（CNN，Convolutional Neural Network）
循环神经网络（RNN，Recurrent Neural Network）
图神经网络（GNN，Graph Neural Network）
自注意力机制（Self-Attention） Transformer

针对不同领域的数据特点和任务要求，对神经网络基础架构做各种组合，可以形成不同的应用架构，以解决具体领域中的具体问题。比如

AlphaGO/AlphaZero
生成对抗网络（GAN）
扩展模型（Diffusion Models）
等等

在人工智能的发展历程中，不同类型的神经网络架构曾分别主导不同的任务领域。多层感知机（MLP）适用于结构化数据建模，卷积神经网络（CNN）在图像识别与处理任务中展现出卓越的性能，而循环神经网络（RNN）及其变体（如LSTM、GRU）曾长期主导自然语言处理与时间序列建模。然而，这些架构在模型泛化能力、可扩展性、以及跨模态迁移等方面均存在局限，限制了构建统一智能系统的可能。

自 Transformer 架构在 2017 年出世之后，其出色的并行处理能力、长距离依赖建模能力和高度可扩展性，使其迅速成为自然语言处理领域的主流架构，并逐步扩展到图像（Vision Transformer, ViT）、语音（SpeechT5, Whisper）、多模态（CLIP, Flamingo, Gemini）、以及决策智能（Decision Transformer, Gato, RT-2）等多个领域。当前，研究者正积极探索以 Transformer 为核心的「泛化架构」（Generalist Architecture），目标是构建能够在视觉、语言、语音、动作控制等多种任务间共享知识和模型参数的统一 AI 系统。这种趋势标志着人工智能正从「任务专用」向「通用智能」迈进，也为未来的多模态智能体、通用机器人、AI操作系统等方向奠定了技术基础。

机器学习范式

深度学习的深度，指神经网络的深度。那么深度学习的学习，就是指机器学习的学习了。有了深度的网络计算架构，如何从数据中学习知识，变为网络的参数(权重)呢？这个学习范式大致有三种：

无监督学习： 数据无标注，挖结构，重探索。 揭示未知信息。
监督学习： 数据有标注，学映射，重预测。 需要大量标记数据。
强化学习： 试错交互，学决策，重收益。 强调智能体在环境中学习和适应以获得长期成功。

这三种方法是机器学习的基石，常结合使用。

无监督学习

无监督学习的核心概念在于使用的训练数据是无标签（无标注的），直接学习数据的内在特征

核心： 使用 无标签 的数据进行训练。只有输入特征，没有预先定义的答案。
过程： 算法探索数据内在结构、模式或关系，旨在发现隐藏的信息/结构 。
目标： 探索/挖掘 。揭示数据中未知的分组、简化数据表示或找出异常。
典型任务： 客户分群、异常检测、降维可视化、推荐系统（部分）、主题建模。
常见算法： K-Means 聚类、层次聚类、主成分分析 (PCA)、自编码器 (Autoencoders)、关联规则学习。

无监督学习的一个子类是自监督学习，相比传统无监督学习直接挖掘数据内在结构（如聚类中的相似性），自监督学习通过设计代理任务（Pretext Task）从数据自身生成伪标签，例如：预测被遮盖的词（BERT）、图像补全（MAE）等。

大语言模型的预训练阶段，就是采用无监督学习的方式。模型通过大规模无标注文本学习语言的统计规律。如BERT采用“预测被遮盖的词”，GPT采用“预测下一个词”的方式，就属于无监督学习的特殊形式，实质是利用数据的内在结构作自标注，从而学习语言的通用表示能力（词汇、语法、浅层语义等）。

监督学习

监督学习的核心概念在于使用人工标注数据（对数据打标签）进行学习

核心： 使用 带标签 的数据进行训练。标签即每个数据点对应的正确答案（如“猫”或“狗”、“房价”、“是否欺诈”）。
过程： 算法学习输入数据（特征）到输出标签（目标）之间的映射关系:
目标： 预测/分类 。学习好的模型，用于预测新数据/未知数据的标签。
典型任务： 图像分类、邮件过滤、房价预测、客户流失预测、疾病诊断。
常见算法： 线性回归、逻辑回归、决策树、支持向量机 (SVM)、神经网络。

大模型在预训练之后，通常会进入指令微调阶段（也称为监督微调，Supervised Fine-Tuning，SFT）。该阶段使用人工标注的高质量“指令-回答”样本（如 {"指令": "写一首诗", "回答": "..."}）对模型进行微调，旨在教会模型理解人类指令的格式与意图，从而适应对话、创作、分析等下游具体任务。这就是典型的监督学习范式，监督性体现在：每个输入指令都对应一个明确的目标输出，训练目标是最小化模型输出与期望答案之间的差异。

强化学习

强化学习是学习体（如机器、算法）在环境中通过不断尝试行动，依据行动产生的奖励或惩罚信号，学习优化策略以最大化长期收益的机器学习范式。

核心： 学习体通过 与环境交互、试错 来学习。根据执行的动作获得奖励或惩罚。
过程： 学习体观察环境状态 (State)，选择执行动作 (Action)，获得即时奖励 (Reward)，目标是在长期中获得最大化累积奖励。
目标： 学习最优决策/行为策略 (Policy: "状态 -> 动作")。
典型任务： 游戏 AI (AlphaGo)、机器人控制、自动驾驶路径规划、股票交易策略、资源管理优化。
常见算法： Q-Learning、深度 Q 网络 (DQN)、策略梯度方法 (Policy Gradients)。

无监督学习就像自己看学习材料，你并不知道你学得对不对，只是试着发现材料内在的规律。监督学习就像刷例题，题目和答案都给了你，重点是学会举一反三解决问题的泛化能力。强化学习就像去实习，在真实的工作环境中试错提升，获得反馈，调整状态，还要做好长期规划才能干得好，满足实用期望。

picture.image

RLHF

基于人类反馈的强化学习，RLHF（Reinforcement Learning from Human Feedback），核心原理是结合强化学习和人类偏好的反馈，使模型生成的内容更符合人类期望。RLHF 不是一个独立的学习范式，而是一个将“监督学习 + 奖励建模 + 强化学习”组合在一起的训练范式，属于一种训练流程或方法论。

传统的RLHF过程有如下几个步骤：

监督微调（Supervised Fine-Tuning, SFT）：使用人类编写的高质量问答（prompt → response）对，通过交叉熵损失（Cross-Entropy Loss）对模型进行监督训练，让模型学会基础的对齐（alignment）能力
奖励模型训练（Reward Model Training）：给模型多个回答（如两个响应 A 和 B），让人类标注“哪个更好”，用这些偏好数据训练一个奖励模型（通常是一个回归模型或排序模型），以建立一个可以模拟人类偏好的奖励函数（通常无法直接从环境中获得）；这一步就是体现人类反馈的关键。因为人类反馈如果直接介入训练过程，训练就太慢了，不可能完成。所以先用人类反馈训练一个奖励模型，用这个奖励模型来代替人类反馈，这样就能自动化训练了。
强化学习优化：用奖励模型对模型行为（输出）打分，使用 PPO（Proximal Policy Optimization，近端策略优化）等策略梯度方法更新策略(权重），从而最大化模型的“人类偏好”。

传统 RLHF 中奖励模型训练和 PPO 强化学习训练是2个分离的过程。增加了复杂度且不稳定。能否将人类编写的高质量问答（prompt → response）对直接用来做训练，跳过RM训练一步到位呢？当然可以，DPO 就实现了这一点。也就是DPO将人类偏好学习和后续打分这2个步骤，合成一步，直接内化为了策略网络的参数更新。从而不光跳过了RM训练，而且跳过了强化学习，直接用人类编写的偏好数据对模型做监督微调。也能达到人类偏好对齐的目标。

DPO 与传统 RLHF 的对比：

| 阶段 | 传统 RLHF | DPO | | --- | --- | --- | | SFT（监督微调） | ✅ | ✅ | | 奖励模型（Reward Model） | ✅ 独立训练一个 RM | ❌ 不需要 RM | | 策略优化 | ✅ 用 RL（如 PPO） | ✅ 用对比损失，直接优化策略 | | 计算开销 | 高（需 RL） | 低（纯监督） | | 易用性 | 较复杂 | 简洁、易扩展 |

同样是针对 RLHF&PPO 的优化，DeepSeek团队提出的GRPO另辟蹊径：它让模型对一个题目同时给出多个答案，直接在这些答案之间“比一比，哪个更好。通过这种方法，GRPO省掉了传统PPO中庞大的计算负担，训练更快、更省资源。相比DPO，因为有组内评估，多了探索过程，所以泛化能力更好。在域外任务，及数学、代码这种推理任务上表现更好。

| 项目 | PPO | DPO | GRPO | | --- | --- | --- | --- | | 用 RM 吗？ | ✅ 是 | ❌ 否 | ❌ 否 | | 是否策略梯度？ | ✅ 是 | ❌ 否（最大似然对比） | ✅ 是（组内相对优势估计更新策略梯度） | | 简单易用性 | ❌ 中等偏难 | ✅ 非常简单 | ⚠️ 复杂，灵活但需调参 | | 训练稳定性 | ❌ 差（易崩） | ✅ 稳定 | ✅ 较稳定 | | 训练成本 | ❌ 高 | ✅ 低 | ✅ 较低 |

DPO严格来说已经不算强化学习了，是披着监督学习外衣的强化学习目标近似。本来冲着RL来的，但是一把优化把自己干成了SL。就像令狐冲，气宗的弟子学了剑宗，且以剑宗成名，那你说他是气宗还是剑宗？所以图里面两边都搭着点儿，身在剑宗心在气宗。而 GRPO 相当于是把气宗练法做了全面改革，通过师兄弟切磋，充分探索，快速提升，不需要一练30年了，练一年就能成，还能应对各种状况。

人工智能三大流派

人工智能的发展过程中，存在三大主要思想流派，各自以不同视角探索智能的本质和实现途径：

符号主义：认为智能的核心是符号计算和逻辑推理。认知过程类似于计算机程序对抽象符号的操纵。基于知识表示和规则推理。通过显式地定义符号（表示概念）和规则（推理引擎）来模拟人类逻辑思维（如专家系统）。就像数学家解方程，关注结构化知识和显式推理。
连接主义：认为智能源于大脑中大量简单神经元及其连接网络的活动。学习通过调整神经元间的连接强度（权重）实现。以人工神经网络（ANN）为核心。通过数据驱动、分布式并行处理来学习和识别模式，具有强大的学习能力（如深度学习）。就像大脑学习认猫，关注非结构信息处理和学习适应性。
行为主义：认为智能体现在与环境的交互行为中。无需预设复杂的内部表示或规则，智能行为通过“感知-行动”反馈循环，在环境中试错和适应产生。强调智能体（Agent）基于环境反馈（如强化学习）自主学习特定任务下的行为策略。关注实时响应和控制。就像生物进化适应环境，关注功能性的实时交互和行为涌现。

三大流派并非截然对立，而是相互影响和融合：

符号主义 擅长逻辑和知识，但规则定义可能很困难。
连接主义 擅长学习和模式识别，但常被视为“黑箱”，解释性差。
行为主义 擅长实时交互和适应，但行为通常只针对特定场景。

现代AI更多采用混合架构 ，将各派优势结合，如符号知识指导神经网络，或利用强化学习训练模型/智能体等，以克服单一范式的局限。但目前研究和应用都以连接主义为主体，符号主义和行为主义为手段。谁让深度学习和大模型这么火呢。

人工智能宏观发展

从最宏观的角度看，人工智能的发展一般认为会经历三个阶段：

窄域人工智能
通用人工智能
超级人工智能

维度	ANI（窄域人工智能）	AGI（通用人工智能）	ASI（超级人工智能）
全称
Artificial Narrow Intelligence

Artificial General Intelligence

Artificial Super Intelligence

能力范围
专注于单一任务或特定领域（如翻译、下棋）

能胜任各类任务，具备跨领域认知与推理能力

智能水平远超人类，具备跨领域创造与自主决策能力

学习方式
基于特定任务数据进行监督或强化学习

自主学习与泛化能力，能进行跨任务迁移学习

拥有自我优化能力，可在无监督下持续演化提升

智能水平
在特定任务中可超过人类专家（如 AlphaGo）

智能水平接近或等同于人类

在创造力、判断力、战略思维等方面全面超越人类

社会影响
提升生产效率，替代部分重复性工作

可能引发就业结构重塑与伦理讨论

彻底改变人类社会，成为天堂或堕入地狱

典型场景
智能助手、图像识别、工业控制等

理论上可同时胜任科学研究、艺术创作、语言理解等所有任务

科幻作品中的“天网”“奥创”等超智能体角色

发展阶段
已广泛应用于语音识别、医疗影像等

尚处于理论探索与早期实验阶段

尚未实现，主要存在于科幻构想与理论假设中

我们目前处在第二阶段实现 AGI 的道路上。有可能很快，也有可能某个瓶颈一卡十几年。第三阶段还只存在于科幻中，但你的孙辈没准儿能赶得上，所以，多生孩子吧，好日子在后头！