AFL白皮书：AI 数据中心的规模扩展与架构演进 - 文章 - 开发者社区

一、核心观点

本文聚焦现代 AI 数据中心，深入探讨其规模扩展技术，强调在 AI 硬件创新、模块化基础设施规划和先进冷却方法等方面需行业协同。AI 发展迅速，对数据中心基础设施和高性能计算硬件需求剧增，有效扩展策略需结合向上和向外扩展，并关注数据中心设计与冷却技术。

picture.image

二、AI 基础概念

（一）AI、ML 和 LLM 概述

AI 旨在让机器执行需人类智能的任务，ML 通过算法训练实现类人回应，深度学习（DL）是无人工干预的 ML，使用人工神经网络（ANN）处理复杂数据集。大语言模型（LLM）是处理语言的特殊 DL 模型，如 GPT-4，还可用于图像和编码等领域。

（二）模型、训练和推理

模型：ML 模型用于识别模式和预测关系，包括监督学习模型（基于已标注示例学习）、无监督学习模型（寻找未标注数据中的隐藏模式）和强化学习模型（通过环境交互学习）。

训练：训练阶段使模型学习准确预测，包括数据收集、预处理、模型选择、优化和评估。数据需清洗、转换并划分，模型选择要综合考虑多种因素，优化通过调整参数最小化损失函数，评估用于检查过拟合和欠拟合。

picture.image

推理：推理阶段基于新数据进行预测，包括输入处理、预测和后处理。输入处理确保数据与训练时一致，预测阶段模型处理新数据，后处理优化输出结果。

picture.image

三、AI 发展历程与现状

（一）2017 年以来的 AI 演进

2017 年是 DL 重要里程碑，卷积神经网络（CNNs）和循环神经网络（RNNs）改进降低错误率，语音识别性能提升。谷歌 Transformer 模型发布，改变深度学习架构，成为 LLM 基础，推动 AI 技术广泛应用和大规模投资。

picture.image

（二）AI 模型发展趋势

模型参数数量呈指数增长，从早期数百万到如今数十亿甚至数万亿。例如，GPT-2 有 15 亿参数，GPT-3 达 175 亿，GPT-4 估计有 1.8 万亿。训练数据和计算能力需求也相应增长，全球数据量持续上升。

（三）市场规模与投资

2023 年全球 AI 市场价值约 1966.3 亿美元，预计 2024 - 2030 年复合年增长率达 36.6%。“大科技” 公司和风险投资大量投入，推动 AI 发展。学术界和产业界在 AI 模型开发中作用互补，美国、中国、英国等国家在 AI 研究和发展中领先。

四、AI 基础设施挑战与应对

（一）计算需求与硬件创新

计算需求增长：大型 AI 模型训练计算量每 3 - 4 个月翻倍，如训练一万亿参数模型需大量计算资源。

picture.image

硬件创新：传统 CPU 无法满足需求，转向专用硬件，如图形处理单元（GPUs）、专用集成电路（ASICs）、张量处理单元（TPUs）和晶圆级引擎（Wafer-scale Engines）。这些硬件与 CPU 结合形成节点，承担不同任务。

（二）网络需求与创新

网络需求：训练大型模型需高速网络，包括高带宽互连、低延迟网络协议、无损协议和远程直接内存访问（RDMA）技术。

网络创新：开发更高带宽的收发器，如从 400G 到 800G，未来有望达到 1.6TB 甚至更高。2024 年，使用 800GB 交换机和 NIC端口的新建高端 AI 训练网络应运而生。我们预计 2025 年网络容量为1.6TB，在 SERDES 设备允许的情况下从 2026 年开始将升至 3.2TB。

picture.image

还出现线性光学（LRO/LPO）、相干光学和板载 / 近封装 / 共封装光学（OBO/NPO/CPO）等创新技术。

picture.image

（三）功耗与散热挑战

功耗问题：训练大型模型能耗大，成本高且影响环境，许多组织采用可再生能源等缓解措施。

散热挑战：计算系统产生大量热量，需高容量冷却解决方案，如直接液体冷却和浸没冷却。

（四）基础设施扩展策略

数据中心扩展：需更大设施容纳更多服务器，提供电力和冷却。

边缘计算：靠近用户，降低延迟，保障数据安全。

云解决方案：利用云平台获取可扩展资源，减少前期投资。

五、AI 模型发展与创新

（一）模型演进历程

AI 模型从早期传统算法发展到深度学习模型，架构不断创新，参数规模持续扩大，训练需求也随之增加。如早期基于标准 CPU 训练小模型，到如今使用超级计算资源训练大规模模型。

（二）推动模型发展的因素

硬件进步：GPUs、TPUs 等提升计算性能，大内存支持大型模型。

算法创新：优化技术和高效架构提高训练效率。

数据可用性：大量公开数据集和网络数据用于训练。

社区与开源贡献：开发框架和共享研究成果加速模型发展。

六、未来趋势展望

（一）模型与训练技术

分段模型和非同步训练算法发展，可将训练负载分布到多个集群，减少网络需求和延迟。地理分布式训练成为可能，需高带宽长距离网络连接。

picture.image

（二）硬件与网络发展

半导体技术进步将提升加速器和网络设备性能，光纤和电光技术发展支持更高带宽和密度。

（三）其他方面

继续探索基于模拟技术和晶圆级集成的创新处理器，热管理和配电技术虽有改进但仍具挑战。

本资料可以在

【

AIGC部落

】

下载，扫描下方二维码即可加入

【

AIGC部落

】

：

picture.image