大家好,我是老杜,是一名资深架构师。
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦
导语:如何看懂AI
我想要学习AI的时候,网上找了一下都没有特别理想的架构图,我们都知道学习一项新的技术,不能从小看大,要从大看小,有了大致的概念以后,再去细分领域钻研,那么肯定能对你了解整个体系有很大的帮助,能够加快你学习的进度。我梳理了一份人工智能架构图,根据我所了解的,以及AI补充,将整体架构分为基础设施层、数据层、底层基础层、核心技术层、大模型层、系统架构层、应用层、安全与伦理这几大板块。
高清架构图
- 基础设施层
提供计算和存储支持,适应边缘与云端需求。
算力
- GPU
NVIDIA H100, A100
- TPU
Google TPU v5
- 边缘芯片
Intel Loihi, NVIDIA Jetson
数据存储
- 云存储
AWS S3, Google Cloud Storage
- 版本控制
DVC, Git LFS
- 数据湖
Delta Lake, Hadoop HDFS
云与边缘服务
- 云
AWS SageMaker, Azure ML, 阿里云PAI
- 边缘
Edge Impulse, OpenVINO Toolkit
- 数据层
支持AI的核心数据处理和知识管理。
数据采集与清洗
- 采集
IoT传感器, API, Scrapy爬虫
- 清洗
异常检测, 缺失值填补(KNN), 去噪(Autoencoder)
- 实时流
Kafka, Flink
多模态数据处理
- 类型
图像(RGB、深度), 语音(MFCC), 文本(Tokenization)
- 融合
多传感器融合, 知识图谱嵌入
- 动态更新
增量数据流, 选择性学习
数据标注与隐私
- 标注
主动学习, 弱监督, Prodigy
- 隐私
差分隐私, 联邦学习数据标注
- 底层基础层
3.1 符号人工智能(Symbolic AI)
定义: 基于逻辑规则、符号表示和推理,模拟人类的高层次认知。
核心原理:
- 使用符号表示知识
- 逻辑推理或规则系统进行决策
- 强调可解释性和显式知识表示
核心技术:
- 专家系统: MYCIN
- 逻辑编程: Prolog, Datalog
- 知识表示: 语义网络、框架、ontologies(OWL)
- 自动推理: 一阶逻辑推理、SAT求解器
主流工具与示例:
- 工具: Prolog, Cyc, SPARQL, Z3
- 示例: DeepMind AlphaCode, Claude 3.5
应用场景: 法律推理, 医疗诊断, 知识图谱查询
挑战: 知识获取瓶颈, 泛化能力有限
3.2 神经符号人工智能(Neuro-Symbolic AI)
定义: 结合ML的神经网络与符号AI的逻辑推理,兼顾数据驱动和可解释性。
核心原理:
- 神经网络提取低层次特征
- 符号系统进行高层次推理
- 集成方法包括符号嵌入、神经逻辑编程、知识图谱增强
核心技术:
- 符号嵌入: TensorLog
- 神经逻辑编程: Logic Tensor Networks
- 因果推理: DoWhy, CausalML
- 知识图谱增强: GraphSAGE, TransE
主流工具与示例:
- 工具: DeepMind Neuralogic, TensorLog, PyReason
- 示例: Claude 3.5, DeepSeek R-1, Grok 3
应用场景: 可解释诊断, 法律合规性检查, 知识驱动QA
挑战: 神经-符号对齐, 计算复杂度
3.3 进化计算(Evolutionary Computation)
定义: 受生物进化启发,通过迭代优化搜索解空间。
核心原理:
- 基于种群的搜索算法,模拟自然选择
- 不依赖梯度优化,适合非连续、非微分问题
- 强调全局优化
核心技术:
- 遗传算法(GA): 基因交叉和变异
- 进化策略(ES): CMA-ES
- 遗传编程(GP): 树形程序结构
- 神经进化: NEAT
主流工具与示例:
- 工具: DEAP, EvoJAX, PyGAD
- 示例: Google AutoML, DeepSeek R-1
应用场景: 神经架构搜索(NAS), 超参数优化, 机器人控制
挑战: 计算成本高, 收敛速度慢
3.4 知识表示与推理(KRR)
定义: 研究如何用结构化方式表示知识并进行推理。
核心原理:
- 形式化表示存储知识
- 基于逻辑或概率推理推导
- 强调语义一致性和可扩展性
核心技术:
- 知识图谱: RDF, SPARQL, TransE
- Ontology工程: OWL, Protégé
- 概率推理: 贝叶斯网络, 马尔可夫逻辑网络
- 规则推理: SWRL, Datalog
主流工具与示例:
- 工具: Neo4j, Protégé, Stardog, SPARQL
- 示例: Grok 3, DeepSeek R-1, Wikidata
应用场景: 语义搜索, 智能问答, 企业知识管理
挑战: 知识规模化, 动态更新
3.5 概率模型与贝叶斯方法
定义: 利用概率分布建模不确定性,适用于小数据场景。
核心原理:
- 概率论和统计推断建模联合分布
- 贝叶斯定理更新后验概率
- 适合不确定性建模
核心技术:
- 贝叶斯网络: 动态贝叶斯网络, HMM
- 概率图模型: 马尔可夫随机场, CRF
- 变分推理: VAE, 变分贝叶斯
- 蒙特卡洛方法: MCMC, 粒子滤波
主流工具与示例:
- 工具: PyMC, Stan, Edward, TensorFlow Probability
- 示例: DeepSeek R-1, Qwen 2, Grok 3
应用场景: 风险评估, 异常检测, 序列标注
挑战: 计算复杂度, 先验选择
3.6 模糊逻辑与不确定性推理
定义: 处理不精确或模糊的知识,通过模糊集建模不确定性。
核心原理:
- 模糊集表示部分真值
- 模糊规则(IF-THEN)推理
- 人类直觉建模
核心技术:
- 模糊集与隶属函数: 三角隶属, 梯形隶属
- 模糊规则系统: Mamdani, Sugeno推理
- 模糊控制: 模糊PID控制器
- 模糊神经网络: 结合ML的模糊推理
主流工具与示例:
- 工具: scikit-fuzzy, FuzzyLite, MATLAB Fuzzy Toolbox
- 示例: Qwen 2, DeepSeek R-1
应用场景: 智能控制, 决策支持, 机器人导航
挑战: 规则设计复杂, 泛化能力有限
3.7 机器学习
定义: 通过数据训练模型,识别模式并预测或决策。
核心原理:
- 数据驱动算法训练模型
- 损失函数优化参数
- 特征工程和超参数调优
核心技术:
- 监督学习: 回归, 分类
- 无监督学习: 聚类, PCA
- 强化学习: 奖励优化
- 深度学习: 多层神经网络
主流工具与示例:
- 工具: TensorFlow, PyTorch, Scikit-learn
- 示例: LLaMA, Gemini
应用场景: 图像识别, NLP, 推荐系统
挑战: 数据需求大, 计算密集, 解释性差
- 核心技术层
4.1 自然语言处理(NLP)
定义: 分析和生成人类语言,理解文本或语音。
核心原理:
- 统计模型或神经网络处理语言
- 词嵌入和注意力机制捕捉语义
- 上下文理解,多语言环境
核心技术:
- 词嵌入: Word2Vec, BERT
- 序列建模: RNN, Transformer
- 文本生成: GPT, T5
主流工具与示例:
- 工具: NLTK, Hugging Face Transformers, spaCy
- 示例: Grok, Qwen
应用场景: 聊天机器人, 机器翻译, 文本分类
挑战: 语义歧义, 多语言支持, 数据标注难度
4.2 视觉处理
定义: 分析图像或视频,识别对象和模式。
核心原理:
- 卷积神经网络提取特征
- 图像分割和目标检测
- 实时处理,复杂场景
核心技术:
- CNN
- 目标检测: YOLO, Faster R-CNN
- 图像生成: GAN
主流工具与示例:
- 工具: OpenCV, TensorFlow, PyTorch
- 示例: Claude, DeepSeek
应用场景: 自动驾驶, 面部识别, 医疗影像
挑战: 计算资源需求高, 光照变化影响, 标注数据稀缺
4.3 强化学习
定义: 通过试错和奖励优化决策。
核心原理:
- 马尔可夫决策过程建模
- Q学习或策略梯度优化动作
- 探索与利用平衡
核心技术:
- Q学习: Q-Table, Deep Q-Network
- 策略梯度: REINFORCE, PPO
- 多智能体RL: MARL
主流工具与示例:
- 工具: OpenAI Gym, Stable-Baselines, Ray
- 示例: Grok, Kimi
应用场景: 机器人导航, 游戏AI, 资源管理
挑战: 训练时间长, 奖励函数设计难, 泛化性不足
4.4 推荐系统
定义: 分析用户行为,预测兴趣并提供个性化建议。
核心原理:
- 协同过滤或内容相似性建模
- 矩阵分解和深度学习优化推荐
- 用户反馈,动态偏好
核心技术:
- 协作过滤: UserCF, ItemCF
- 内容推荐: TF-IDF, 神经网络
- 混合推荐: Wide&Deep, BERT4Rec
主流工具与示例:
- 工具: Surprise, LightFM, TensorFlow Recommenders
- 示例: Gemini, LLaMA
应用场景: 电商推荐, 流媒体, 社交媒体
挑战: 冷启动问题, 隐私保护, 实时更新难度
4.5 模型优化技术
定义: 通过调整参数提升性能。
核心原理:
- 梯度下降优化损失函数
- 正则化防止过拟合
- 计算效率,资源限制
核心技术:
- 梯度下降: SGD, Adam
- 剪枝与量化: 模型压缩
- 知识蒸馏: 从大模型转移知识
主流工具与示例:
- 工具: TensorRT, ONNX, PyTorch Lightning
- 示例: Claude, Qwen
应用场景: 移动设备部署, 边缘计算, 实时推理
挑战: 性能与精度平衡, 优化复杂性, 跨平台兼容性
4.6 时间序列分析
定义: 处理时序数据进行预测。
核心原理:
- 自回归和移动平均建模
- 傅里叶变换提取周期性
- 趋势和噪声分离
核心技术:
- ARIMA
- LSTM
- Prophet
主流工具与示例:
- 工具: Statsmodels, Prophet, TensorFlow Time Series
- 示例: DeepSeek, Grok
应用场景: 股票预测, 天气预报, 需求预测
挑战: 数据噪声干扰, 长期预测精度低, 计算复杂性
- 大模型层
🌍 国际主流大模型(国外)
模型名称 | 开发者 | 是否开源 | 官方文档链接 |
---|---|---|---|
Llama3 / Llama3.1 | Meta | 是 | https://www.llama.com/docs/get-started4 |
| | Llama2 | Meta | 是 | https://www.llama.com/docs/get-started | | GPT-4 / GPT-4o | OpenAI | 否 | OpenAI 官方帮助文档 - GPT-4 | | GPT-3.5 / GPT-3 | OpenAI | 否 | OpenAI 官方帮助文档 - GPT-3.5 | | Claude 3 / Sonnet / Opus | Anthropic | 否 | https://docs.anthropic.com/claude/reference/introduction | | Gemini / Gemini Ultra | Google | 否 | Google AI 官方文档 - Gemini | | PaLM / PaLM 2 | Google | 否 | Google AI 官方文档 - PaLM 2 | | BERT / T5 | Google | 是 | https://huggingface.co/docs/transformers/model\_doc/t5 | | Falcon | TII | 是 | https://falconllm.tii.ae/documentation | | StableLM | Stability AI | 是 | https://stability.ai/blog/stablelm-open-large-language-models | | MPT | MosaicML (Databricks) | 是 | https://www.mosaicml.com/blog/mpt-7b | | Dolly | Databricks | 是 | https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm | | RedPajama | Together AI | 是 | https://together.xyz/blog/redpajama | | BLOOM / BLOOMZ | BigScience | 是 | https://bigscience.huggingface.co/docs/bloom-docs | | Koala | UC Berkeley | 是 | https://bair.berkeley.edu/blog/2023/04/03/koala/ | | Alpaca | Stanford | 是 | https://crfm.stanford.edu/2023/03/13/alpaca.html | | Vicuna | LMSYS | 是 | https://lmsys.org/blog/2023-03-30-vicuna/ |
🇨🇳 国内主流大模型(中国)
模型名称 | 开发者 | 是否开源 | 官方文档链接 |
---|---|---|---|
Qwen / 通义千问系列 | 阿里巴巴 | 部分开源 | https://help.aliyun.com/zh/dashscope/developer-reference/quick-start |
ERNIE Bot / 文心一言系列 | 百度 | 否 | https://wenxin.baidu.com/ |
HunYuan / 混元系列 | 腾讯 | 否 | https://cloud.tencent.com/product/hunyuan |
Pangu / 盘古系列 | 华为 | 部分开源 | https://www.huaweicloud.com/product/pangu.html |
星火大模型 | 科大讯飞 | 否 | https://xinghuo.xfyun.cn/ |
Baichuan / 百川系列 | 百川智能 | 是 | https://github.com/baichuan-inc/Baichuan-7B |
DeepSeek | DeepSeek | 否 | https://www.deepseek.com/ |
Minimax | Minimax | 否 | https://minimax.chat/ |
GLM / ChatGLM 系列 | 智谱AI | 是 | https://chatglm.cn/ |
MOSS | 复旦大学 | 是 | https://moss.fastnlp.top/ |
WuDao 2.0 | 智源研究院 | 是 | https://wudaoai.cn/ |
LingYue | 小米 | 否 | https://www.mi.com/ |
Yi | 商汤科技 | 否 | https://www.sensetime.com/cn |
X-Distill | 字节跳动 | 否 | https://www.bytedance.com/ |
HuaHua | 小鹏汽车 | 否 | https://www.xiaopeng.com/ |
- 系统架构层
支持AI模型高效运行的框架和基础设施。
服务架构
- 微服务(MCP)
- 技术: FastAPI, gRPC, Consul
- 应用: 推理服务, 数据流处理
- 模型推理
- 框架: Triton Inference Server, ONNX Runtime
- 技术: 动态批处理, 模型分片
- Serverless
- 平台: AWS Lambda, Google Cloud Functions
- 应用: 事件驱动推理
分布式系统
- 分布式训练
- 数据并行: PyTorch DDP, Horovod
- 模型并行: DeepSpeed ZeRO, Megatron-LM
- 流水线并行: PipeDream, GPipe
- 分布式推理
- 技术: 负载均衡(Nginx), 模型分片
- 工具: Ray Serve, Kubernetes
边缘架构
- 框架: TensorFlow Lite, OpenVINO
- 优化: 量化(INT8), 剪枝(Weight Sparsification)
- 应用层
AI技术在实际场景中的落地应用。
行业应用
- AIGC(AI生成内容)
- 文本: GPT-4, LLaMA
- 图像/视频: DALL·E 3, Video Diffusion Models
- 音乐: MusicLM, Jukebox
- 科学计算
- 分子建模: AlphaFold 3, GNN
- 气候模拟: 深度学习预测模型
- AI运维(AIOps)
- 异常检测: Isolation Forest, Autoencoder
- 资源优化: PPO强化学习调度
智能交互系统
- 智能体(Agent)
- 对话: RAG, Chain of Thought
- 任务: 多模态任务规划
- 领域特定智能
- 医疗: ResNet疾病预测, YOLOv8影像分析
- 金融: LightGBM风控模型, LSTM交易预测
- 多模态交互
- 技术: CLIP, Whisper
- 应用: 智能客服, 多模态搜索
边缘智能应用
- 实时推理
- 边缘诊断: TinyML
- 智能摄像头: YOLOv8-Tiny
- 低功耗优化
- 模型剪枝: Channel Pruning
- 混合精度推理
- 安全与伦理
8.1 对抗性防御模块
保护对象: ML, NLP, CV, RL
作用: 防御对抗性攻击,确保模型鲁棒性。
核心技术:
- 对抗训练
- 输入净化
- 防御性蒸馏
工具与示例:
- 工具: ART, CleverHans
- 示例: Grok 3, DeepSeek R-1, Qwen 3
应用: 自动驾驶图像识别, 对话系统
挑战: 新攻击类型, 计算成本
8.2 隐私保护模块
保护对象: ML, NLP, CV, 推荐系统, 时间序列分析
作用: 防止训练数据或用户数据泄露。
核心技术:
- 差分隐私
- 联邦学习
- 同态加密
- 安全多方计算
工具与示例:
- 工具: PySyft, TensorFlow Privacy, CrypTFlow
- 示例: DeepSeek R-1, Qwen 3, Claude 3.7
应用: 电商用户数据保护, 医疗影像隐私
挑战: 精度损失, 计算复杂度
8.3 模型安全模块
保护对象: ML, NLP, CV, RL
作用: 防止模型窃取、篡改或滥用。
核心技术:
- 模型水印
- 访问控制
- 后门检测
工具与示例:
- 工具: TensorFlow Model Security, OpenMined
- 示例: Claude 3.7, Grok 3, DeepSeek R-1
应用: 商业对话模型保护, 人脸识别模型防窃取
挑战: 水印移除, 后门检测复杂性
8.4 内容过滤模块
保护对象: NLP, CV
作用: 检测和过滤有害或不道德输出。
核心技术:
- 文本分类
- 图像审核
- 规则过滤
工具与示例:
- 工具: Perspective API, Hugging Face Content Moderation
- 示例: Grok 3, Mistral Pixtral
应用: 社交媒体对话, AIGC内容审查
挑战: 上下文理解, 文化差异
8.5 偏见检测与缓解模块
保护对象: ML, NLP, 推荐系统
作用: 识别和减少模型偏见。
核心技术:
- 偏见检测
- 数据平衡
- 后处理
工具与示例:
- 工具: AIF360, Fairlearn, What-If Tool
- 示例: Qwen 3, Claude 3.7, DeepSeek R-1
应用: 公平电商推荐, 招聘文本分析
挑战: 多维度偏见, 公平性定义争议
8.6 可解释性模块
保护对象: ML, NLP, CV, RL
作用: 解释模型决策,增强透明性。
核心技术:
- 特征重要性
- 注意力可视化
- 神经符号AI
工具与示例:
- 工具: SHAP, LIME, InterpretML
- 示例: DeepSeek R-1, Grok 3, Qwen 3
应用: 对话系统透明性, 医疗影像诊断
挑战: 复杂模型解释困难, 计算成本
8.7 价值观对齐模块
保护对象: NLP, 推荐系统
作用: 确保模型输出符合人类伦理。
核心技术:
- RLHF
- 宪法AI
- 伦理约束
工具与示例:
- 工具: TRL, Anthropic Constitution
- 示例: Claude 3.7, Grok 3
应用: 对话机器人, 内容推荐
挑战: 价值观多样性, 过度约束
8.8 伦理审计模块
保护对象: 所有核心技术(ML, NLP, CV, RL, 推荐系统, 时间序列分析)
作用: 评估技术合规性,确保可信赖。
核心技术:
- 审计框架
- 风险评估
- 合规监控
工具与示例:
- 工具: Model Cards, AI Fairness 360
- 示例: xAI API, Claude 3.7, DeepSeek R-1
应用: 企业AI部署, 公共政策分析
挑战: 全球标准不统一, 审计成本
写到最后
有了大的概念以后,再回首AI是不是感觉没有那么神秘了,当然AI领域的知识远不是这张图能够概述的,后面我们将一点点拆解其中的知识来分享学习。
如果有什么想法,欢迎留在评论区!别忘了🌟关注哦,可以第一时间收到文章推送呦!
👇可以加我,一起成长、一起交流
👉 点赞、在看、分享三连支持 ,关注「老杜AI技术笔记」,深度驾驭AI!
#AI #架构师