点击下方 卡片 ,关注“ 慢慢学AIGC ”
6 月 2 日晚,英伟达 CEO 黄仁勋(业界人称“老黄”)身着那件熟悉的皮夹克在台北 ComputeX 2024 大会上展示了英伟达在加速计算和生成式 AI 领域的最新成果,还描绘了未来计算和机器人技术的发展蓝图。
开场
这次开场相当隆重,老黄朋友圈悉数到场,先来一张全家福:
黄仁勋表示,英伟达位于计算机图形、模拟和 AI 的交汇处,这是英伟达的灵魂。今天展示给我们的一切都是模拟的,它是数学、科学、计算机科学、令人惊叹的计算机架构的结合。这些都不是动画,而是自制的,英伟达把它全部融入了 Omniverse 虚拟世界。
加速计算与 AI
计算机行业已有 60 年的历史。在很多方面,今天所做的一切都是在 1964 年黄仁勋出生后一年发明的。 IBM System 360 引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务处理、IO子系统、DMA 以及今天使用的各种技术。架构兼容性、向后兼容性、系列兼容性,所有今天对计算机了解的东西,大部分在 1964 年就已经描述出来了。PC 革命使计算民主化,把它放在了每个人的手中和家中。 2007 年,iPhone 引入了移动计算,把计 算机放进了 口袋。 从那时起,一切都在 通过移动云 连接并随时运行。
老黄每次公开演讲都要画类似的曲线,展示超越摩尔定律的“黄氏定律”。
以及经典的那句“The more you buy, the more you save”。
喊出上面的口号只需要一秒,然而真正做到它需要近 20 年的功力 。CUDA 以及上面的生态系统是实现这一切的秘密。
在英伟达和客户以及合作伙伴努力下,尝试使用 GPU 加速各自场景的同时不断修复 CUDA 的问题和限制,并让它呈现螺旋上升的趋势达到双赢。现在有 500 万开发人员在全球范围内使用英伟达的平台。英伟达服务于每一个行业,从医疗保健、金融服务、计算机行业、汽车行业,几乎所有主要行业,几乎所有科学领域,因为英伟达的架构有这么多客户,OEM 厂商和云服务提供商对构建英伟达的系统感兴趣。
2012 年,Nvidia 和 AI 的第一次亲密接触。
2016 年,第一台 DGX 送往 OpenAI,助力其完成 GPT 系列模型的探索。当时 OpenAI 的老板还是马斯克,还是很 Open 的。
2017 年,Transformer 架构诞生,离不开 GPU 的加持。
时间快进到 2023 年,ChatGPT 为代表的 大语言模型(LLM) 迎来井喷期 , 催生了 新的名词: GP U
Rich ,表示 这家 公司实现了 GPU 自由,从而 吸引更多人才加入。 与之相对的 词为 GPU-Poo r ,表明这家公司快不行了。 另外随着 美国商务部对 中国 大陆 地区限制层层加码,导致 A100/H 100
以及 定制版
A800/H800 价格水涨船高 ,8 卡 H800 服务器堪比 一套房或一辆兰博基 尼,一张 GPU 价格甚至超过同等重量的黄金!
NIM:英伟达推理微服务
随着生成式 AI 的爆发,传统的软件开发模式也迎来了新的蝉变。
从软件工厂升级到 AI 工厂,工具变为能力,内容检索被内容生成取代,指令被 LLM 替换,底层 CPU 则跃升至 GPU。
NIM(Nvidia Inference Microservice) 封装了多种模态的 AI 能力,以微服务的形式提供,从而可以让用户像搭积木一样构建复杂的应用。
一个典型的由 NIM 构建的数字人应用工作流如下:
英伟达除了通过文本提示和语音提示与这些大型 AI 服务互动,还希望更进一步能以人类形式互动,并一直在研究数字人技术。
ACE:数字人平台
黄仁勋继续介绍,数字人有可能成为与你互动的伟大 Agent,使互动更加引人入胜,更有同情心。当然,我们必须跨越这个巨大的现实鸿沟,使数字人显得更加自然。数字人将彻底改变从客户服务到广告和游戏的各个行业。数字人的可能性是无穷无尽的。
生成式 AI 和计算机图形学的新突破让数字人能够以类似人类的方式看见、理解和与我们互动。数字人的基础是建立在多语言语音识别和合成、以及能够理解和生成对话的 LLM 模型上的 AI 模型。 这些 AI 连接到另一个生成式 AI,以动态地动画化一个逼真的 3D 面部网格。 最后,AI 模型重现逼真的外观,实现实时路径跟踪的次表面散射,模拟光线如何穿透皮肤、散射并在不同点出射,使皮肤具有柔和和半透明的外观。
Nvidia ACE(Avatar Cloud Engine)是一套数字人平台,打包成易于部署的完全优化的微服务或 NIMs。开发者可以将 ACE NIMs 集成到他们现有的框架、引擎和数字人体验中,Nematons SLM 和 LLM NIMs 理解我们的意图并协调其他模型。Riva Speech Nims 用于交互式语音和翻译,Audio to Face 和 Gesture NIMs 用于面部和身体动画,Omniverse RTX 与 DLSS 用于皮肤和头发的神经渲染。这些 ACE 可以在云端运行,也可以在 PC 上运行,在所有 RTX GPU 中都包括了张量核心 GPU,所以英伟达已经在出货 AI GPU,为这一天做准备。
基于 RTX GPU 的 AIPC
英伟达在每一个 RTX GPU 中安装了张量核心处理器。现在英伟达在全球有 1 亿台 GeForce RTX AI PC。 在本次 Computex,英伟达展示了四款新的令人惊叹的笔记本电脑。 它们都能够运行 AI。 未来的笔记本电脑、PC 将成为一个 AI。 它将不断在后台帮助你、协助你。 PC 还将运行由 AI 增强的应用程序。 当然,你所有的照片编辑、写作工具、你使用的一切工具都将由 AI 增强。 你的 PC 还将托管带有数字人的 AI 应用程序。 因此,AI 将在不同的方式中表现出来并被用于 PC 中。 PC 将成为非常重要的 AI 平台。
Blackwell GPU
从前面铺垫的 AlexNet,Transformer 到未来物理模拟 AI 对计算的需求是永无止境的。
Blackwell 是为这一代设计的,拥有几项非常重要的技术。
首先是芯片的大小。英伟达在台积电制造了最大的芯片,并将两个芯片通过每秒 10TB 的连接连接在一起,世界上最先进的 SerDes 将这两个芯片连接在一起。然后英伟达将两个芯片放在一个计算节点上,通过 Grace CPU 连接。随后老黄从工作人员手中拿出一个实物电路板,清晰展示了两颗 Blackwell GPU(上面两个巨型芯片)和 Grace CPU(位于中部)。
- Grace CPU 可以用于多种用途。训练场景可以用于快速 checkpoint 和重启任务,在推理生成场景可以用于存储上下文记忆,使 AI 了解你想要进行的对话的上下文。
- 英伟达的第二代 Transformer 引擎,允许根据计算层所需的精度和范围动态调整精度。
- 第二代具有安全 AI 的 GPU,可以要求服务提供商保护 AI 免受盗窃或篡改。
- 第五代 NVLink,允许将多个 GPU 连接在一起。
- 第一代具有可靠性和可用性引擎的 GPU。这个 RAS 系统允许测试每个晶体管、触发器、片上内存、片外内存,以便现场确定某个芯片是否故障。拥有 1 万个 GPU 的超级计算机的平均故障间隔时间是以小时计算的。拥有10 万个 GPU 的超级计算机的平均故障间隔时间是以分钟计算的。 因此,如果不发明技术来提高可靠性, 超级计算机长时间运行并训练几个月的模型几乎是不可能的 。可靠性会提高正常运行时间,从而直接影响成本。
- 数据压缩引擎和解压引擎,使英伟达存储中提取数据的速度提高 20 倍,比今天可能的速度更快。
下面这张图展示了从 2016 年到 2024 年英伟达旗舰 GPU 的处理能力,8 年内实现了 1000 倍速度提升。
与性能相对的,是功耗。训练 GPT4-1.8T 模型所需的功耗在 8 年内下降到 1/350。
DGX Blackwell NVL72 和 DGX Hopper 的对比,性能提升 45 倍,详细参数可以看这篇文章《英伟达 DGX 产品:十年谋划,步步为营》。
继 DGX, HGX 之后,英伟达还推出了新的 MGX 平台,通过 MGX,OEM 和 ODM 合作伙伴可以构建针对不同使用案例的定制解决方案,同时节省开发资源并缩短上市时间。模块化参考架构支持不同的 GPU、CPU 和 DPU 配置 - 包括 NVIDIA Grace、x86 或其他 Arm CPU 服务器以及 NVIDIA OVX 系统 - 从而加速各种企业数据中心工作负载。
详细可以阅读这篇《Nvidia HGX 系列产品详解》。
在 Blackwell GPU 之外,老黄还发布了 NVLink Switch 巨型芯片,拥有 500 亿晶体管,采用 TSMC 4NP 工艺,可实现 7.2 TB/s 全双工带宽,将通信能力拉满,方便更多 GPU 协作。此外,该芯片还具有高达 3.6 TFLOPS FP8 计算能力,可以在通信过程中辅助完成一些简单计算降低 GPU 运算开销。
Spectrum X RDMA 网卡
英伟达拥有世界上最先进的 RDMA,现在能够在 Ethernet 上进行网络级 RDMA。
拥塞控制
交换机一直在进行快速遥测,当 GPU 或网络接口卡发送太多信息时,可以告诉它们退后,以免造成热点。
自适应路由
Ethernet 需要按顺序传输和接收。英伟达看到拥塞或未使用的端口,不论顺序如何,将发送到可用端口,BlueField 在另一端重新排序,以确保顺序正确,自适应路由非常强大。
噪声隔离
数据中心总是有多个模型在训练或其他事情在进行,它们的噪声和流量可能相互干扰并导致抖动。因此,当一个训练模型的噪声导致最后一个到达的时间过晚时,整体训练速度会显著降低。
使用 Spectrum X 的 Ethernet 允许大幅提高性能。 英伟达有一整条 Ethernet产品线。
Spectrum X800,速度为每秒 51.2 Tbps,256 个端口。接下来的是 512 个端口,明年推出,称为 Spectrum X800 Ultra,再接下来是 X1600。重要的理念是 X800 设计用于成千上万个 GPU,X800 Ultra 设计用于数十万个 GPU,X1600 设计用于数百万个 GPU, 数百万 GPU 数据中心时代即将到来 。
下一代 GPU:Rubin
Hopper 平台当然是历史上最成功的数据中心处理器,这真的是一个不可思议的成功故事。 然而,Blackwell 已经到来,每一个平台,如你所见,都包含了几样东西。你有 CPU,有 GPU,有NVLink,有网络接口,还有连接所有 GPU的 NVLink 交换机,尽可能大规模的域。无论能做什么,英伟达都将其连接到大规模、非常高速的交换机。
每一代产品,你会发现不仅仅是 GPU,而是整个平台。构建整个平台。将整个平台集成到一个 AI 工厂超级计算机中。然而,再将其分解并提供给世界。这样做的原因是因为你们所有人都可以创建有趣和创新的配置,并适应不同的数据中心和不同的客户需求,有些用于边缘计算,有些用于电信。所有不同的创新都是可能的,如果将系统开放,并使你们能够创新。因此英伟达设计了集成的,但将其分解提供给客户,以便可以创建模块化系统。
Blackwell 平台已经到来,英伟达的基本理念非常简单: 每年构建整个数据中心,分解并以零件形式销售,将一切推向技术的极限,无论是台积电的工艺技术、封装技术、内存技术、SerDes技术、光学技术,一切都被推向极限 。之后,确保所有软件都能在整个安装基础上运行。
软件惯性是计算机中最重要的事情之一。当计算机向后兼容,并与所有已创建的软件架构兼容时,你进入市场的速度会快得多。因此,当能够利用已经创建的整个软件安装基础时,速度是惊人的。
黄仁勋表示,Blackwell 已经到来,明年是 Blackwell Ultra,就像有 H100 和H200,你们可能会看到一些令人兴奋的新一代 Blackwell Ultra,推动极限。我提到的下一代 Spectrum 交换机,这是第一次实现这种飞跃,下一代平台叫做 Rubin,再一年后将有 Rubin Ultra 平台。
展示的所有这些芯片都在全速开发中,100% 的开发。这是英伟达一年的节奏,所有 100% 架构兼容,英伟达正在构建的所有丰富的软件。
具身智能机器人
下一波 AI 是物理 AI,了解物理定律,能够在我们中间工作。因此,它们必须理解世界模型,理解如何解释世界,如何感知世界。它们当然还需要出色的认知能力,以便理解我们的问题并执行任务。
英伟达构建了 Nvidia Omniverse 作为物理AI的操作系统。Omniverse 是一个虚拟世界模拟开发平台,结合了实时物理渲染、物理模拟和生成式AI技术。在 Omniverse 中,机器人学习如何成为机器人。它们学习如何自主精确地操控物体,比如抓取和处理物体,或自主导航环境,找到最佳路径,同时避免障碍和危险。在 Omniverse 中学习最大限度地减少模拟与现实的差距,并最大限度地转移所学行为。
构建具有生成物理AI的机器人需要三台计算机:Nvidia AI 超级计算机来训练模型,Nvidia Jetson Orin 和下一代 Jetson Thor 机器人超级计算机来运行模型,以及 Nvidia Omniverse,机器人可以在模拟世界中学习和改进技能。构建了开发人员和公司所需的平台、加速库和AI模型,并允许他们使用最适合的堆栈。下一波 AI 已经到来。由物理 AI 驱动的机器人将彻底改变各个行业。
黄仁勋提到,这不是未来,这正在发生。英伟达将通过几种方式服务市场。首先,英伟达将为每种类型的机器人系统创建平台,一个用于机器人工厂和仓库,一个用于操纵物体的机器人,一个用于移动的机器人,一个用于人形机器人。因此,每个机器人平台就像英伟达做的几乎所有事情一样,都是计算机、加速库和预训练模型。计算机、加速库、预训练模型。在 Omniverse 中测试、训练和集成所有东西,正如视频所说,机器人在这里学习如何成为机器人。
数字孪生工厂
不同形态的具身智能机器人和老黄的合影
以上就是全部发布会内容。
老黄最后热情鼓掌并向在场听众频繁致谢。
老黄 Keynote 完整视频:
COMPUTEX 2024 官方入口:
https://www.nvidia.com/en-us/events/computex/
关注公众号,后台输入口令“老黄”获取完整视频以及字幕文件。
点击下方 卡片 ,关注“ 慢慢学AIGC ”