MLPerf 最新训练基准测试结果出炉!万卡 H100 训练 GPT3 只需 3.44 分钟!

技术

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

摘要

新的 MLPerf 训练基准测试结果展示了 AI 系统中硬件和软件的创新。 增加了两项新的基准测试,突出了 语言模型微调图数据分类

2024 年 6 月 12 日,MLCommons 公布了 MLPerf 训练基准测试 v4.0 的新结果,包括首次针对两项新基准测试的结果:LLama 2 70B 的 LoRA 微调和图神经网络(GNN)。

MLPerf 训练基准测试 v4.0

MLPerf 训练基准测试套件包含全系统测试,针对广泛应用领域的机器学习模型、软件和硬件进行压力测试。这个开源且经过同行评审的基准测试套件为整个行业提供了一个公平的竞争环境,推动创新、性能和能源效率的提高。

MLPerf 训练基准测试 v4.0 包含来自 17 家提交组织的 205 个性能结果,包括华硕、戴尔、富士通、吉佳云计算、谷歌、惠普、英特尔(Habana Labs)、华云数据、联想、英伟达、NVIDIA+CoreWeave、Oracle、云端系统公司、红帽+超微、超微、可持续金属云(SMC)和 tiny corp。

MLCommons 特别欢迎首次提交 MLPerf 训练结果的组织:华云数据、Oracle、SMC 和 tiny corp。

祝贺首次参与者 SMC 提交了 MLPerf 训练的首批 功耗 结果。这些结果展示了 SMC 浸没式冷却解决方案对数据中心系统的影响。我们的行业标准功耗测量方法与 MLPerf 训练兼容,是目前唯一能够以可信和一致的方式准确测量云端和本地系统全系统功耗和能耗的方法。这些关键指标有助于整个社区了解并提高训练机器学习模型的整体能效-这最终将在未来几年内减少人工智能的能源使用,改善其环境影响。

训练基准测试 v4.0 的结果展现了整个行业的广泛参与,以及机器学习系统和软件的显著性能提升。与六个月前的最后一轮结果相比,本轮结果在 Stable Diffusion 训练时间上实现了 1.8 倍的加速。同时,由于系统规模的扩大,RetinaNet 和 GPT3 测试的最佳结果分别加快了 1.2 倍和 1.13 倍。

MLCommons 执行董事 David Kanter 表示:“我对生成式人工智能取得的性能提升感到非常兴奔。再加上 MLPerf 训练的首批功耗测量结果,我们正在提高人工智能的能力,同时减小其环境足迹,让人工智能造福所有人。”

全新的大型语言模型微调基准测试

MLPerf 训练基准测试 v4.0 套件引入了一项新的基准测试,用于针对微调大型语言模型(LLM)。经过预训练后的 LLM 可以通过进一步的微调来提高在特定任务上的准确性,而这一过程所需的计算成本可能与预训练有所不同。

近年来出现了多种以较低计算成本进行 LLM 微调的方法。MLCommons 训练工作组评估了其中几种算法,最终选择了 LoRA 作为新基准测试的基础。2021 年首次推出的 LoRA【1】 在网络层中冻结了原始的预训练参数,并注入了可训练的秩分解矩阵。由于 LoRA 微调只训练网络参数的一小部分,因此与预训练或监督微调相比,大大降低了计算和内存需求。

MLPerf 训练工作组联合主席 Hiwot Kassa 表示:“微调大型语言模型是一种值得注意的工作负载,因为许多机构的 AI 从业人员都在使用这项技术。LoRA 算法是最佳选择,它是一种最先进的微调技术,可以在保持与完全微调模型相当的性能的同时,大幅减少可训练参数。”

新的 LoRA 基准测试以 Llama 2 70B 通用 LLM 为基础。该模型使用政府文件数据集 Scrolls 进行微调,目标是生成更准确的文档摘要。准确性使用 ROUGE 算法进行评估,用于评估文档摘要的质量。该模型使用 8,192 tokens 的上下文长度,跟上了行业向更长上下文长度快速发展的趋势。

LLM 微调基准测试在第一轮测试中就获得了超过 30 个提交结果,实现了广泛采用。

要了解 LoRA 微调算法入选 MLPerf 训练基准测试的原因,请阅读此博客【2】。

全新的用于图数据分类的** 图神经网络基准测试**

MLPerf 训练基准测试 v4.0 还引入了一个图神经网络 (GNN) 基准测试,用于测量机器学习系统在处理由大型图结构化数据表示的问题时的性能,例如用于实现文学数据库、药物发现应用程序、欺诈检测系统、社交网络和推荐系统等。

MLPerf 训练工作组联合主席 Ritika Borkar 表示:“在大型图结构化数据集上进行训练给系统带来了独特挑战,需要针对 稀疏操作和节点间通信进行优化 。我们希望在 MLPerf 训练基准测试中加入基于 GNN 的基准测试能够扩展测试套件所提供的挑战,并推动软硬件在这一关键工作负载类别上的创新。”

MLPerf 训练的 GNN 基准测试用于节点分类任务,目标是预测图中每个节点的标签。该基准测试使用 R-GAT 模型,并在 2.2 TB 大小的 IGBH 全量数据集上进行训练,这是目前最大的开源图数据集,包含 5.47 亿个节点和 58 亿条边。IGBH 数据库是一个展示了学术作者、论文和研究机构之间关系的图数据。图中的每个节点可以被归类为 2,983 个类别之一。

MLPerf 训练团队最近将 MLPerf R-Gat 提交到了伊利诺伊图基准(IGB)排行榜,该排行榜有助于行业跟踪 GNN 模型的最新水平,促进可重复性。我们很高兴地宣布,他们的提交目前以 72% 的测试精度 排名第一

要了解 GNN 基准测试入选的原因,请阅读此博客【3】。

查看结果

欲查看 MLPerf 训练基准测试 v4.0 的全部结果和其他基准测试的更多信息,请访问训练基准测试页面【4】。

picture.image

在 GPT3 封闭测试项目中,排名第一的是英伟达提交的结果,使用 11,616 张 H100-SXM5-80G GPU 训练到评测目标只需 3.44 分钟。排名第二的仍是英伟达,使用 10,752 张 H100-SXM5-80G 耗时 3.709 分钟。排名第三为谷歌,使用 6,144 卡 TPU v5p 耗时 12.477 分钟。GPT3 封闭测试项目的规则详情见下一节。

picture.image

picture.image

picture.image

picture.image

picture.image

训练基准测试定义

每个基准测试都由一个数据集和质量目标来定义。下表总结了本套件版本中的基准测试。规则仍然是官方权威来源。

picture.image

其中 LLM 基准测试使用 GPT3 参考实现模型和 C4 数据集,质量目标为对数混淆度(log perplexity) 2.69。LLM 微调基准测试内容详见前文介绍。

关于 MLCommons

MLCommons 是全球人工智能基准测试的领导者。它是一个开放的工程联盟,通过 建立基准测试和数据实现使人工智能对所有人更有益的使命。 MLCommons 始于 2018 年的 MLPerf 基准测试,后者迅速发展成为一套行业指标,用于衡量机器学习性能并促进机器学习技术的透明度。 与其 125 多家会员单位、全球技术供应商、学术界和研究人员合作,MLCommons 专注于通过基准测试和指标、公共数据集以及人工智能安全性测量等协作工程工作,为整个人工智能行业构建工具。MLCommons 制定基准评测路线图和详细规则以及参考实现,并保持每 6 个月发布一次最新基准测试结果。

欲了解有关 MLCommons 的更多信息,以及成为会员或附属机构的详细信息,请访问 MLCommons.org 或联系

participation@mlcommons.org

参考资料

【1】 LoRA 论文:https://arxiv.org/abs/2106.09685

【2】 LoRA 入选 MLPerf 博客:

https://mlcommons.org/2024/06/lora-fine-tuning-mlperf-training-v4-0/

【3】 GNN 入选 MLPerf 博客:

https://mlcommons.org/2024/06/gnn-for-mlperf-training-v4/

【4】 MLPerf 训练结果:

https://mlcommons.org/benchmarks/training/


点击下方 卡片 ,关注“ 慢慢学AIGC ”

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论