英伟达白皮书:AI时代的网络-网络定义数据中心

大模型机器学习数据库

AI 时代的数据中心网络需支持分布式计算,尤其是生成式 AI 和大规模模型训练。传统以太网难以满足高性能需求,而NVIDIA Spectrum-X 以太网和 Quantum InfiniBand通过无损网络、RDMA、动态路由、拥塞控制、网络计算(如 SHARP 协议)等技术优化,解决了 AI 工作负载的高带宽、低时延和尾部延迟问题。其中,Spectrum-X 通过交换机与 DPU 协同实现动态路由和拥塞控制,Quantum InfiniBand 凭借原生无损特性和集合计算能力成为性能标杆。此外,网络架构需避免缓冲区设计、链路速度变化等常见误解,注重性能隔离、安全和可扩展性,以支撑 AI 云与 AI 工厂的高效运行。

picture.image

一、AI 时代数据中心网络的核心挑战

分布式计算需求:AI 模型训练(如 ChatGPT、BERT)依赖数千 GPU 节点协同,网络需支撑高带宽、低时延通信,尾部延迟(最慢节点消息到达时间)直接影响训练效率。

传统以太网局限:本质为有损网络,数据包易丢失,仅适合小规模工作负载;缺乏针对 “大象流”(大型数据流)的优化,易拥塞。

二、NVIDIA 核心解决方案对比

| 技术方案 | Spectrum-X 以太网 | Quantum InfiniBand | | --- | --- | --- | | 网络特性 | 基于 RDMA(RoCE)和 PFC 实现无损网络 | 原生无损网络,基于信用的流控制机制 | | 动态路由 | 数据包粒度负载分担,结合 BlueField-3 DPU 实现端到端排序 | 集中式子网管理器(SM)动态选择负载最小路径,硬件处理乱序 | | 拥塞控制 | 交换机与 DPU 协同,带内遥测数据触发流量计量 | 三阶段拥塞控制(FECN/BECN 标记,源端速率调整) | | 网络计算 | 无 | SHARP 协议硬件加速集合通信(如 allreduce),提升 NCCL 性能1.7 倍 | | 典型场景 | AI 云(多租户、混合负载) | AI 工厂(大规模模型训练,数千 GPU 协同) |

Spectrum-X 与 Quantum InfiniBand 的核心差异是什么?

应用场景:Spectrum-X 适用于多租户 AI 云,兼容现有以太网生态;Quantum InfiniBand 适用于大规模 AI 工厂,专注高性能计算。

技术特性:Spectrum-X 依赖 DPU 实现拥塞控制和排序,Quantum InfiniBand 通过硬件加速集合通信(SHARP)提升性能,且原生支持无损和动态路由。

三、关键技术细节

无损网络与 RDMA

RDMA 允许 GPU / 存储直接通信,绕过 CPU,时延降低50% 以上。

以太网通过 RoCE(RDMA over Converged Ethernet)和 PFC(优先级流量控制)实现无损,但需交换机(如 Spectrum-4)与 DPU(BlueField-3)协同。

picture.image

动态路由与负载分担

传统 ECMP(等价多路径)不适合 “大象流”,易导致链路拥塞。

Spectrum-X 采用数据包粒度动态路由,结合 DPU 的直接数据放置(DDP)实现有序交付;InfiniBand 通过子网管理器动态均衡流量,提升链路利用率。

picture.image

拥塞控制机制

以太网 ECN(显式拥塞通知)在突发流量下易丢包,Spectrum-X 通过交换机遥测数据实时通知 DPU 调整速率。

InfiniBand 的 FECN/BECN 机制可在微秒级响应拥塞,避免缓冲区溢出。

picture.image

性能隔离与安全

通用共享缓冲区(如 Spectrum-4 的 133Gbps 全共享缓冲区)比分割缓冲区有效容量大4 倍,公平分配带宽,避免 “嘈杂邻居” 影响。

BlueField-3 DPU 支持 MACsec/IPsec 加密,保障多租户数据安全。

picture.image

网络计算与集合通信

InfiniBand 的 SHARP 协议在交换机中硬件加速数据归约,例如在 400Gb/s 网络中,使用 SHARP 的 NCCL 性能比不使用时高1.7 倍。

NCCL 库优化跨节点 GPU 通信,支持 all-gather、reduce-scatter 等操作。

picture.image

四、架构设计原则

直通式交换:端到端链路速度一致(如 400Gb/s),避免存储转发引入的时延(处理大型数据帧时延迟可增加数十微秒)。

缓冲区选择:浅层缓冲区(MB 级,如 Spectrum-X)优于深度缓冲区(GB 级),因深度缓冲区导致尾部延迟呈线性增长,影响 AI 训练效率。

可扩展性:交换机基数(逻辑 MAC 数)非唯一指标,需平衡带宽与时延,例如高基数交换机可能因流量拆分降低 All-to-All 操作性能。

五、常见误解澄清

端到端链路速度可变:错误,速度变化需存储转发,增加时延,AI 网络需同速链路(如图 8 的 400Gb/s 端到端拓扑)。

深度缓冲区更优:错误,深度缓冲区虽容纳突发流量,但时延随缓冲区占用率线性增加(如 4GB 缓冲区在 10% 占用时延迟达 16ms),而浅层缓冲区延迟稳定。

交换机基数越大越好:错误,AI 性能依赖有效带宽和时延,高基数可能牺牲单链路速率,导致集合操作性能下降。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论