Nvidia MGX：用于加速计算的数据中心架构 - 文章 - 开发者社区

点击下方卡片，关注“ 慢慢学AIGC ”

面向不断演进的技术而构建的模块化硬件——MGX

NVIDIA MGX 是一种开放的、多代加速计算参考架构，旨在允许快速采用关键平台技术，包括 CPU、GPU 和 DPU，而无需大量的非经常性工程投资。NVIDIA MGX 服务器规范支持 100 多种不同的系统配置。

全球价值 1 万亿美元的数据中心主要由无加速的 CPU 系统和基本网络基础设施组成。由于传统计算架构每年仅提升约 10%，且数据中心本身的功率有限，因此加速计算是未来的发展方向。在未来几年里，全球数据中心将需要重新构建架构，以支持加速计算和生成式人工智能。由于传统计算需求的整体增长，以及 AI 和数字孪生等新应用预计将进一一步推动需求，单凭 CPU 已无法满足当今数据中心的需求。

这些用例需要通过 GPU 提供硬件加速以获得良好性能，而这些应用需要传输的大量数据则需要高速网络设备(如 DPU)、密切优化的连接、CPU 资源、I/O 和磁盘比例等，以实现最佳工作负载性能和总体拥有成本(TCO)。

当前许多系统都限制了机箱尺寸和 GPU 及其他技术，尤其是在 GPU 尺寸、网卡(NIC)尺寸和气流方面的未来需求方面。

系统灵活性：任何数据中心环境

除了节点内的核心加速器、CPU、存储和网络选择之外，超大规模、边缘、高性能计算(HPC)和传统数据中心都有快速演变和分化的需求，即使是在不同区域和超大规模技术提供商之间，也有一些如下所列的示例。

对于每种工作负载，最佳计算基础设施对服务器设计提出了不同的需求。例如，为实时可视化或云游戏提供最佳性能的平台可能与大型语言模型推理或训练所需平台有很大不同。

标准 CPU 服务器的设计并不适用于加速计算独特的散热、电源输送和机械需求。

热设计

NVIDIA MGX 的冷却能力可以通过标准 CPU 服务器所无法提供的一套解决方案支持更高的 GPU 热设计功率，包括:

支持当前和未来的 GPU/DPU/CPU

在单一架构中支持风冷和液冷

专门设计以支持更高 TDP GPU(例如 400W+GPU TDP)

机械设计

NVIDIA MGX 解决了当前 CPU 设计常常存在的机械问题，因为它们对 PCIe 布局的灵活性较差，可能无法支持 12.3 英寸 GPU。NVIDIA MGX 足够灵活，采用了以下一系列解决方案:

通过重新分配模块盒位，NVIDIA MGX 架构可支持 100 多种配置

减少合作伙伴将新产品推向市场所需的产品开发资源和时间

支持未来的 GPU 产品形态，如 12.3 英寸 GPU

支持冷通道和热通道布线，以适应企业(热通道)和 CSP(冷通道)数据中心设计

电源

由于需要不同的电源输送设计以满足不同的系统需求，NVIDIA MGX 提供了:

单一架构可支持不同的电源输送，满足企业(EIA)和CSP(OCP)需求

支持电源母线和电源

本文介绍了一系列机械机箱、主机处理器模块(HPM)和盒位组件，用于构建满足任何应用的 MGX 兼容服务器。

picture.image

NVIDIA MGX 概述

MGX 架构本质上是模块化的。它由位于热通道和冷通道两侧的可配置机箱盒位组成，可以用模块装配以实现所需配置。在内部，系统为主要子系统划分区域：HPM、电源分配板、冷却解决方案和模块盒位。

图 2 显示了一种 2 个机架单元(2 RU)系统布局的框架设计示例。一旦采用 MGX 架构，它就可以支持多种服务器应用，例如超大规模、边缘、HPC 和云。NVIDIA MGX 支持 Arm 和 x86 CPU，并经过设计可支持多代产品，这样一旦你进行投资，下一代 GPU、CPU 和 DPU 就可以轻松配置，从投资中获得最佳的上市时间和使用寿命。

picture.image

NVIDIA MGX 规范定义了关键设计参数，允许在广泛的应用领域和不同代产品中重复使用子系统。涉及的设计属性示例包括机械形态、机械连接指导、功能布置、一般热指导原则、电气要求和互连定义。

加速计算需要通过 GPU 提供硬件加速以获得良好性能，而这些应用需要传输的大量数据则需要高速网络设备如 DPU。当前许多系统都限制了加速器和其他技术的增长，尤其是在 GPU、DPU 和冷却未来发展的背景下。例如，当前大多数服务器只能容纳 10.5 英寸的 PCIe 扩展卡，而 MGX 也可以支持 12.3 英寸 PCIe 扩展卡。

此外，这些加速器与 CPU、I/O 和存储之间的平衡需要针对每种工作负载进行适当调整，以实现最佳工作负载性能和最小总体拥有成本。NVIDIA MGX 的模块化本质可以根据具体应用轻松进行调整和优化。

在数据中心层面，超大规模、边缘、HPC 和其他市场除了 CPU、存储和网络选择之外，还有快速演变和分化的需求，下面列出了一些示例。

机架形态

EIA 机架使用 19 英寸宽机箱

OCP 机架使用 21 英寸宽机箱

边缘和电信机架对机箱有额外要求

电源输送

交流-直流电源

54V 直流输入

12V 直流输入

布线和冷却

热通道布线 vs 冷通道布线

空气冷却 vs 液体冷却

海拔高度和最高工作温度

硬件可组合性的关键是构建模块

NVIDIA MGX 旨在使用模块化方法来标准化各种硬件构建模块，并为 ODM 和 OEM 创建加速计算服务器生态系统。

为实现最大灵活性，需要一套正确的基本构建模块。这些模块的目的是在系统的平面图内预留体积和逻辑空间。这些模块允许与加速计算领域的新兴技术(如处理器、内存、存储、网络、电源输送和热解决方案)实现向前兼容。

主处理器模块

HPM 由以下基本功能模块组成：

CPU(s)+系统内存

可移动 BMC 模块
板载存储设备

用于有线外围设备的高速互连

用于电源和系统控制的各种互连

MGX 规范目前有两种 HPM 形态：micro-MGX 和 MGX。通用的板层设计支持这两种形态在不同位置的布置。

Micro-MGX 主处理器模块

Micro-MGX HPM 的外形尺寸和安装孔位于 OCP DC-MHS DNO Type 2 规范范围内。这种形态可能允许两个板并排安装在单个 19 英寸宽的 EIA 机箱中。下图显示了 micro-MGX HPM 主要部件的大致位置。

picture.image

MGX 主处理器模块

MGX HPM 的外形利用了 19 英寸宽机箱中 HPM 区域的全部空间。下图显示了 MGX HPM 主要部件的大致位置。

picture.image

模块机箱

模块机箱是该架构的重要支撑。机箱模块的尺寸旨在支持当前行业内通用的技术形态，并有意允许在新形态出现和可用时能够加以支持。

有几种不同尺寸的机箱模块，以覆盖不同的机箱长度、机箱高度和所需的系统技术布局配置。当前机箱定义和尺寸如表1、表2、表3和图5所示。

picture.image

图 5 显示了各种机箱类型的一些应用示例。

picture.image

机箱具有与所有机箱模块类型兼容的标准锁定和置架机制。例如，2 RU 机箱模块可与两个 1 RU 机箱模块互换使用。同样，类型 3 机箱可用于替代类型 1 和类型 2 机箱。

1 RU 机箱的高度经过优化，可以安装在 1 RU 系统内。在高于 1 RU 的系统中，可堆叠多个 1 RU 机箱。例如，两个 1 RU 机箱模块可以安装在 2 RU 系统机箱和机架中（见图 7）。

picture.image

2 RU 机箱的高度经过优化，可以安装在 2 RU 系统内。它允许设备自由利用原本会被 1 RU 机箱分割成两个区域的空间。例如，一个半高 PCIe 卡或 E3.S 可以垂直放置在 2 RU 机箱中。2 RU 机箱可以取代任意两个相邻的 1 RU 机箱。

机箱模块与机箱接口

在配置装配期间，每个机箱模块使用两种方法之一固定在机箱上。一种是系统内部的单个弹簧锁片和卡扣，另一种是系统外部的曲柄锁把手，以固定机箱位置。机箱上的每个机箱都可设计为支持短机箱、长机箱或两者，方法是允许弹簧或曲柄锁定位置。

互连

为了实现不同HPM类型和机箱之间的互操作性，NVIDIA MGX 规范通过定义以下内容来标准化通用元素和接口:

输入电源和控制信号

有线外围设备I/O

BMC连接

服务和控制面板I/O

远端I/O板连接

风扇与HPM的连接

定义的互连利用了行业标准和其他常用连接器。标准化接口参考包括 SFF-8654、SFF-TA-1002、SFF-TA-1016 和 SFF-TA-1020。在可能的情况下，利用了现有的电气接口标准。为确保互操作性，还引入了新的电气接口定义。

NVIDIA MGX 架构生态系统

MGX 架构构建出一个由模块化机箱、HPM、电源分配板、冷却解决方案等基本构建模块组成的生态系统,并专门设计以适配19英寸机箱。如图8所示,这些构建模块可以以100多种方式组装,形成独特的系统设计,以满足服务器的特定需求。

picture.image

MGX合作伙伴利益

NVIDIA MGX 为设计和构建加速计算系统的原始设计制造商(ODM)和原始设备制造商(OEM)提供了重大利益。采用 NVIDIA MGX 架构的 ODM 和 OEM 可以受益于降低设计和研发投资成本，并加快上市时间。

支持 x86 和 Arm 处理器以及 NVIDIA 的全线 GPU、CPU 和 DPU产品，允许为不同市场提供数百种不同配置。

支持 1U、2U 和 4U 机箱设计，并提供多种存储和电源选项。

向后兼容下一代 GPU、CPU 和 DPU，确保投资的长期使用。

加快 NVIDIA 主要产品发布的上市时间。

MGX 合作伙伴将获得一整套设计文件，包括电气原理图、机械图纸和热仿真。 NVIDIA 就 MGX 相关的设计问题提供技术支持。

MGX 与 NVIDIA HGX™ 不同，前者提供了与 NVIDIA 产品的灵活、多代兼容性，确保系统构建商能够重复使用现有设计，并轻松采用下一代产品，无需昂贵的重新设计。相比之下，HGX 基于特制的、采用 NVLink®互连的多 GPU 底板，可扩展以构建终极 AI 和 HPC 系统。（ 大白话：MGX 是自助餐，HGX 是预制菜 ）

系统设计示例

MGX 有 100 多种不同的核心配置,加上存储、CPU、GPU 和 DPU 等众多定制化选项，几乎具有无限的灵活性。

下面显示了一些特选的系统示例及其潜在用例。

尽管针对特定工作负载进行了优化，但加速数据中心服务器本质上都极其灵活，因此可以预期这些设计在可解决的场景之间存在一些重叠。

例如，尽管 NVIDIA Omniverse OVX™ 服务器针对其核心用例进行了优化，但在某些情况下也可能部署于中端推理场景。

这种灵活性是 NVIDIA MGX 价值的核心，它允许运营商和系统构建商在特定场景优化和舰队或设计可替代性之间经济地权衡取舍。

Omniverse OVX 服务器

Omniverse OVX 服务器是一种数据中心远程可视化平台，适用于构建和部署 Omniverse 应用程序，以及其他对传统 x86 CPU 的兼容性有所要求的高计算量可视化应用。

2U 双 CPU x86 服务器

四个 NVIDIA L40 GPU、BlueField-3 DPU® 和两个 ConnectX-7 位于热通道

冷通道最多可安装 16 个 E1.S 驱动器

picture.image

Grace Omniverse OVX 服务器

Grace™ Omniverse OVX 服务器在 Omniverse OVX 服务器基础上采用了新的 NVIDIA Grace CPU 超级芯片，提供了一个全 NVIDIA 可扩展的可视化平台，由高性能、高能效的处理器驱动，适用于密集部署环境中的高计算量使用场景。

2U Grace CPU 超级芯片服务器

四个 NVIDIA L40 GPU、一个 BlueField-3 DPU 和一个 ConnectX-7 位于热通道

冷通道最多可安装 16 个 E1.S 驱动器

picture.image

Grace CPU 云游戏服务器

远程游戏的延迟目标要求运营商必须在靠近用户热点的热门数据中心位置实现最大化。Grace 云游戏服务器通过将超低功耗高性能 Grace CPU 与十个高能效 L4 GPU 相结合，将适当数量的资源专用于每个会话，在不影响能源效率的情况下，优化了给定数据中心位置可处理的游戏会话数量。

2U Grace CPU 超级芯片服务器

BlueField-3 DPU、一个 ConnectX-7 位于热通道

十个 NVIDIA L4 Tensor Core GPU 和最多八个 U.2 驱动器位于冷通道

picture.image

H100 NVL 推理服务器

H100 NVL 推理服务器为大型、高计算量生成模型(包括大型语言模型)以及对延迟要求严格的高吞吐量批量推理用例提供了最佳的总体拥有成本。在这些场景中，NVLink 连接的内存和 GPU 扩展是解锁性能的关键，但可能不需要 HGX 产品所提供的横向扩展和 MaxP TDP 配置。

4U x86 服务器，配备 8 个 NVIDIA H100 NVL GPU

两个 BlueField-3 DPU 位于冷通道

热通道机箱未配置

picture.image

Grace-Hopper 航空服务器

Grace-Hopper 航空服务器提供了一个理想的融合 5G 网络和 AI 服务器，其机箱形态适合于大型集中式电信数据中心。

1U Grace-Hopper 超级芯片服务器

热通道配备两个 BlueField-3 DPU 和一个 NVIDIA L4 Tensor Core GPU

冷通道配备额外风扇

picture.image

Grace-Hopper 航空服务器短机箱版

Grace-Hopper 航空短机箱服务器允许将 5G 网络处理和 AI 应用迁移得更接近终端用户、无线电和回程基础设施，因为它采用了边缘友好型平台，可满足传统电话机架深度要求，并容纳了最新的高性能 NVIDIA 技术。短机箱平台可以部署在各种现有设施中。

1U Grace-Hopper 超级芯片服务器，采用短机箱

BlueField-3 DPU 和一个 ConnectX-7 位于冷通道
热通道配备风扇

picture.image

高密度通用型 Grace CPU 服务器

高密度通用型 Grace CPU 服务器通过在传统的 1U 风冷形态中集成两个 Grace CPU 节点，实现了在超大规模和边缘数据中心内传统 CPU 工作负载的突破性计算密度和能效提升，从而提高了整体数据中心的效率。每个 Grace CPU 节点的性能与旗舰级的双插槽 x86 系统相当，但其功耗几乎只有一半，使得高密度 Grace CPU 服务器能够在相同的机架空间和电力需求下，纳入传统双插槽 1U 系统的两倍节点数和两倍性能。

1U 服务器，配备两个 Grace CPU 超级芯片

热通道配备两个 BlueField-3 DPU

冷通道配备额外风扇

picture.image

数据中心灵活性：面向 AI 和加速计算

NVIDIA MGX 架构引领着全球数据中心变革的前沿。

凭借其开放和多代设计，它提供了向加速计算无缝过渡的能力，使数据中心能够充分发挥其潜力。在由未加速的 CPU 系统主导的环境中，变革的需求不容忽视。传统计算架构每年仅有 10% 的增量改进，其局限性显而易见。

如今，NVIDIA MGX 提供了一种解决方案，将 CPU、GPU 和 DPU 的力量结合在一起，提供超过 100 种不同的系统配置，以满足数据中心不断发展的需求。通过利用硬件加速和高速网络，这一架构为前所未有的工作负载性能和卓越的总体拥有成本铺平了道路。数据中心可以享受增强的模块化灵活性，不再受制于形态因素和技术限制。这是迈向数据中心卓越新时代的大胆一步。

访问 NVIDIA MGX 首页（https://www.nvidia.com/en-us/data-center/products/mgx/），了解更多有关其功能和能力的信息，助您将工作提升到新的水平。

关注公众号，回复“MGX” 获取完整白皮书文档。

推荐阅读

Nvidia HGX 系列产品详解

英伟达 DGX 产品：十年谋划，步步为营

点击下方卡片，关注“ 慢慢学AIGC ”