Meta 面向生成式 AI 的基础设施建设 - 文章 - 开发者社区

点击下方卡片，关注“ 慢慢学AIGC ”

picture.image

这是 Meta 公司关于其大规模 AI 集群的详细报告，主要内容包括：

Meta 宣布建立两个拥有 24,576 个 NVIDIA H100 GPU 的大规模 AI 集群，用于支持其下一代 AI 模型 Llama 3 的训练，以及其他通用 AI 研发工作。
介绍了这两个集群的 网络、计算、存储和性能优化等硬件细节 。其中一个集群采用 Arista RoCE 网络，另一个采用 NVIDIA InfiniBand 网络。
强调 Meta 致力于开放计算和开源，这些集群基于 开源硬件平台和 PyTorch 框架 构建。
到 2024 年底，Meta 计划拥有 35 万个 NVIDIA H100 GPU，计算能力相当于近 60 万个 H100 GPU。
Meta 强调开放创新在 AI 软件和硬件方面的重要性，包括贡献开源设计、支持 PyTorch 以及与学术界和行业伙伴的开放合作。

总的来说，这是 Meta 持续大规模基础设施投资以支持其通用人工智能(AGI)愿景的一个重要里程碑。

标志着对 Meta 的 AI 未来的重大投资，我们宣布了两个拥有 24,576 个GPU 的集群。我们分享了硬件、网络、存储、设计、性能和软件的细节，这些都有助于我们为各种 AI 工作负载提取高吞吐量和可靠性。我们使用这种集群设计来进行 Llama 3 的训练。

我们坚定地致力于开放计算和开源。我们在 Grand Teton、OpenRack 和 PyTorch 的基础上构建了这些集群，并继续在整个行业推进开放创新。

这次公告只是我们雄心勃勃的基础设施路线图中的一个步骤。到 2024 年底，我们的目标是继续扩大我们的基础设施建设，其中将包括 35 万个 NVIDIA H100 GPU，作为一个产品组合的一部分，其计算能力将相当于近 60 万个 H100 GPU。

引领 AI 发展意味着在硬件基础设施方面的领先投资。硬件基础设施在 AI 的未来发展中扮演着重要角色。今天，我们分享了 Meta 两个 24,576 GPU 数据中心级集群版本的细节。这些集群支持我们当前和下一代 AI 模型，包括 Llama 3(我们公开发布的 LLM Llama 2 的继任者)以及通用 AI 和其他领域的 AI 研究与开发。

一窥 Meta 的大规模 AI 集群

Meta 的长期愿景是构建开放和负责任的通用人工智能(AGI)，以便人人都能从中获益。在我们朝着 AGI 的方向努力的同时，我们也在不断扩大我们的集群规模来支持这一雄心。我们在 AGI 方面取得的进展创造了新产品、为我们的应用程序家族带来新的 AI 功能,以及新的以 AI 为中心的计算设备。

尽管我们在构建 AI 基础设施方面有着悠久的历史，但直到 2022 年，我们才首次分享了拥有 16,000 个 NVIDIA A100 GPU 的 AI 研究超级集群(RSC)的细节。RSC 加速了我们对开放和负责任 AI 研究的推进，帮助我们构建了第一代先进的 AI 模型。它在开发 Llama 和 Llama 2 以及涵盖计算机视觉、NLP、语音识别、图像生成，甚至编码等领域的高级 AI 模型方面发挥了并且继续发挥着重要作用。

内部构造

我们更新的 AI 集群是在借鉴了 RSC 的成功和经验教训的基础上构建的。我们着重于构建端到端的 AI 系统，重点关注研究人员和开发人员的体验和生产力。这些集群中高性能网络架构的效率、一些关键存储决策，加上每个集群拥有 24,576 个 NVIDIA Tensor Core H100 GPU，使得两个版本的集群都能支持比 RSC 更大、更复杂的模型，为通用 AI 产品开发和 AI 研究的进步铺平了道路。

网络

在 Meta，我们每天处理数百万亿次的 AI 模型执行。在大规模提供这些服务需要一个高度先进和灵活的基础设施。定制设计我们自己的大部分硬件、软件和网络架构，可以优化端到端的体验，满足我们 AI 研究人员的需求，同时确保我们的数据中心高效运行。

考虑到这一点，我们构建了一个基于 Arista 7800 与 Wedge400 和 Minipack2 OCP 机架交换机的 RDMA over 收敛以太网(RoCE)网络架构解决方案。另一个集群则采用了 NVIDIA Quantum2 InfiniBand 架构。这两种解决方案都将 400Gbps 端点互连。通过这两种方式，我们能够评估这两种不同类型的互连在大规模训练中的适用性和可扩展性，从而获得更多洞见，帮助我们设计和构建更大、更先进的集群。通过精心共同设计网络、软件和模型架构，我们成功地在这两种 RoCE 和 InfiniBand 集群上进行了大规模通用 AI 工作负载(包括我们正在进行的 Llama 3 在 RoCE 集群上的训练)，没有任何网络瓶颈。

计算

两个集群都使用我们内部设计的 Grand Teton 开放 GPU 硬件平台构建，我们已将其贡献给开放计算项目(OCP)。Grand Teton 建立在我们过去几代将电源、控制、计算和网络接口集成到单个机箱中以获得更好整体性能、信号完整性和热性能的AI系统基础之上。它提供了快速的可扩展性和灵活性，采用了简化的设计，可以快速部署到数据中心，并且易于维护和扩展。结合我们自主开发的其他创新，如开放机架电源和机架架构，Grand Teton 使我们能够以一种为 Meta 当前和未来应用量身定制的方式构建新集群。

我们从 2015 年的 Big Sur 平台开始公开设计我们的 GPU 硬件平台。

存储

存储在 AI 训练中扮演着重要角色，但却是最少被讨论的方面之一。随着通用 AI 训练工作越来越多地处理图像、视频和文本数据，对数据存储的需求急剧增长。但是，如何在一个高性能且节能的环境中容纳所有这些数据存储，这个问题依然存在，使得这个挑战更加有趣。

我们的存储部署通过基于 Meta 自主开发的分布式存储解决方案"Tectonic"并针对闪存媒体优化的 Linux 文件系统用户空间(FUSE)API 来满足 AI 集群的数据和检查点需求。该解决方案使成千上万个 GPU 能够以同步方式(对任何存储解决方案而言都是一个挑战)保存和加载检查点，同时还提供了所需的灵活且高吞吐量的EB级存储，以满足数据加载的需求。

我们还与 Hammerspace 合作，共同开发和落地并行网络文件系统(NFS)部署，以满足这个AI集群的开发体验需求。除其他好处外，Hammerspace 使工程师能够对使用数千个 GPU 的作业进行交互式调试，因为代码更改会立即传播到环境中的所有节点。当与我们的 Tectonic 分布式存储解决方案相结合时，Hammerspace 使我们能够在不牺牲规模的情况下实现快速迭代速度。

我们通用 AI 集群中基于 Tectonic 和 Hammerspace 支持的存储部署都是基于升级后的 YV3 Sierra Point 服务器平台，配备了当今市场上我们能采购的最大容量 E1.S 固态硬盘。除了更高的 SSD 容量外，每个机架中的服务器数量也进行了定制，以在每台服务器的吞吐量容量、机架数量减少和相关的能源效率之间达到适当的平衡。利用 OCP 服务器作为乐高般的构建模块，我们的存储层能够灵活地扩展到这个集群和未来更大的 AI 集群的未来需求，同时还能容忍日常的基础设施维护操作。

性能

我们构建大规模AI集群的原则之一是在不牺牲任一方面的情况下，最大限度地提高性能和易用性。这在创建一流的 AI 模型时是一个重要原则。

当我们推动 AI 系统的极限时，测试我们扩大设计能力的最佳方式就是简单地构建一个系统、对其进行优化，并实际进行测试(虽然模拟器有所帮助，但作用只能到此为止)。在这个设计旅程中，我们比较了小规模集群和大规模集群的性能，看看我们的瓶颈在哪里。下图展示了在大量 GPU 相互通信时，AllGather集体通信性能(以 0-100 归一化带宽表示)，消息大小处于预期的 toppeak 性能范围内。

picture.image

我们最初的开箱即用大规模集群性能很差且不稳定，与优化后的小规模集群性能相比有很大差距。为解决这一问题，我们对内部作业调度程序如何按 网络拓扑结构来调度作业 进行了多项改动，这带来了延迟优势，并最小化了进入网络上层的流量。我们还优化了网络路由策略，结合 NVIDIA 集合通信库(NCCL)的改动，以实现最佳网络利用率。这些举措帮助我们的大规模集群达到了与小规模集群一样出色且符合预期的性能水平。

在图中，我们看到小规模集群性能(总体通信带宽和利用率)开箱即可达到 90% 以上，但未经优化的大规模集群性能非常差，利用率仅在10%到90%之间。在我们优化整个系统(软件、网络等)后，我们看到大规模集群的性能重新回到 90% 以上的理想水平。

除了针对内部基础设施的软件变更外，我们还与撰写训练框架和模型的团队紧密合作，以适应我们不断发展的基础设施。例如 NVIDIA H100 GPU开启了利用 8 位浮点数(FP8)进行训练的可能性。充分利用更大的集群需要投资于其他并行化技术，而新的存储解决方案则为高度优化跨数千个 rank 的数百毫秒级检查点提供了机会。

我们还意识到在大规模训练中，可调试性是一个主要挑战。识别导致整个训练作业停滞的问题 GPU 变得非常困难。我们正在构建诸如去同步调试或分布式集体飞行记录器之类的工具，以揭示分布式训练的细节，并帮助以更快、更轻松的方式识别问题。

最后，我们正在不断发展支持我们 AI 工作负载的基础 AI 框架 PyTorch，使其能够适应数万甚至数十万 GPU 的训练规模。我们已经确定了进程组初始化的多个瓶颈，并将启动时间从有时长达数小时缩短到数分钟。

对开放式AI创新的承诺

Meta 一如既往地致力于 AI 软硬件的开放创新。我们认为开源硬件和软件将永远是帮助行业在大规模上解决问题的有价值工具。

今天，作为开放计算项目(OCP)的创始成员，我们继续支持开放硬件创新，并向 OCP 社区提供诸如 Grand Teton 和开放机架等设计。我们还继续成为 PyTorch 的最大和主要贡献者，PyTorch 是推动行业大部分 AI 工作的 AI 软件框架。

我们还继续致力于 AI 研究社区的开放创新。我们已经推出了开放创新 AI 研究社区，这是一个与学术研究人员合作的项目，旨在深化我们对如何负责任地开发和共享 AI 技术的理解，尤其关注大型语言模型。

开放的 AI 方法对 Meta 来说并不新鲜。我们还推出了 AI 联盟,这是一个由 AI 行业中的领先组织组成的团体，专注于在开放社区内加速负责任的 AI 创新。我们的 AI 工作建立在开放科学和跨领域合作的理念之上。开放生态系统为 AI 开发带来了透明度、审查和信任，并引领了人人都可从中获益的创新，这些创新是以安全和责任为重中之重构建而成的。

Meta AI 基础设施的未来

这两种 AI 训练集群设计是我们更广阔的 AI 未来路线图的一部分。到 2024 年底，我们的目标是继续扩大我们的基础设施建设，其中将包括 35 万个 NVIDIA H100 GPU，作为一个计算能力相当于近 60 万个 H100 GPU 的产品组合的一部分。

展望未来，我们认识到过去或当下的做法可能无法满足未来的需求。这就是为什么我们不断评估和改进我们基础设施的方方面面，从物理和虚拟层到软件层及其他层面。我们的目标是创建灵活可靠的系统，以支持快速发展的新模型和研究。

点击下方卡片，关注“ 慢慢学AIGC ”