点击下方 卡片 ,关注“ 慢慢学AIGC ”
CES 2025 老黄 Keynote 回顾
在 CES 2025 上,英伟达老黄穿着他的新皮衣亮相了,发布 RTX 5090,性能爆表,再次称霸!
RTX 5090 基于英伟达 Blackwell 架构,主要服务于游戏玩家和设计师,具备如下新特性:
-
第五代张量核心(Tensor Cores),支持 FP4 精度计算和 DLSS 4;
-
新流多处理器架构(SM),优化了神经渲染器;
-
第四代光线追踪核心(RT Cores);
如果用 RTX 5090 玩《黑悟空》,开启 DLSS + Full RT 情况下,帧率比 4090 高 2 倍以上!
对比上一代 RTX 4090 价格 1599:
最高端的 RTX 5090 也只需要 1999$:
中间过渡卡 RTX 5080, 5070Ti,真不愧是老黄刀法,凌厉精准,满足各个层次玩家的需求。
RTX 5070 笔记本,仅需 1299$ 就能拥有一台匹敌 4090 性能的怪兽:
回归理性,细算 TOPS
我们把目前 得到 的 RTX 5090 信 息 和前一代放到一起对比:
RTX 5090 | RTX 4090 | |
架构 | Blackwell | Ada Lovelace |
工艺 | TSMC 4nm | TSMC 5nm |
晶体管数量 | 92B | 76.3B |
CUDA 核心数 | 21760 | 16384 |
Boost 时钟频率 | 2.41 GHz | 2.52 GHz |
Tensor Cores | 680(v5) | 512(v4) |
RT Cores | 170(v4) | 128(v3) |
NVENC | 3(v9) | 2(v8) |
NVDEC | 2(v6) | 1(v5) |
显存规格 | 32 GB GDDR7 | 24 GB GDDR6X |
显存位宽 | 512 bits | 384 bits |
显存带宽 | 1792 GB/s | 1008 GB/s |
功耗(W) | 575 | 450 |
总线接口 | PCIe Gen5 x16 | PCIe Gen4 x16 |
问题:老黄 PPT 里的 4000 AI TOPS(3X Ada) 怎么得到的呢?
在官网资料(点击左下角“阅读原文”直达官网页)中,这个数字更具体一些,是 3352 AI TOPS , 对比 RTX 4090 的 1321 AI TOPS 。
1321 这个数字我熟,是 4090 开 FP8 和稀疏计算的性能,所以反推 RTX 5090 的话,应该是 开 FP4 和稀疏计算的性能 。
根据前面表格里的硬件指标,我们先计算 CUDA Core FP32 算力(老黄 PPT 里称为 Shader TFLOPS):
RTX 5090 Shader TFLOPS = 21760(CUDA Cores) x 2.41(GHz) x 2 =
104.883 TFLOPS
RTX 4090 Shader TFLOPS = 16384(CUDA Cores) x 2.52(GHz) x 2 = 82.575 TFLOPS
对比二者发现 RTX 5090 相比 RTX 4090 在 Shader TFLOPS 指标上提升了 27% 。
接着看 Tensor Core 性能。我们查阅了英伟达 Ada Lovelace 架构白皮书(最新一代 Blackwell 架构白皮书还没出),看到 SM 架构如图:
每个 SM 内有
- 128 个 FP32 核心(又称 CUDA Cores、Shaders);
- 4 个 Tensor Cores;
- 1 个 RT Core;
- ...
FP8 性能如下表:
其中稠密性能为 660.6 TFLOPS,稀疏性能为 1321.2 TFLOPS,可以反推每个 Tensor Core 每个时钟周期内 FP8 计算吞吐为:
FP8 计算吞吐(稠密) = 660.6(TFLOPS)* 1000 / 512(Tensor Cores) / 2.52(GHz) = 511.997, 约等于 512 ;
FP8 计算吞吐(稀疏) = 1321.2(TFLOPS)* 1000 / 512(Tensor Cores) / 2.52(GHz) = 1023.995, 约等于 1024 ;
合理推测: RTX 5090 上 FP4 计算吞吐相比 FP8 翻倍 。
RTX 5090 Tensor Core TFLOPS(FP4 稠密) = 680(Tensor Cores) * 2.41(GHz) * 512 * 2 = 1678 TFLOPS
RTX 5090 Tensor Core TFLOPS(FP4 稀疏) = 680(Tensor Cores) * 2.41(GHz) * 1024 * 2 = 3356 TFLOPS
按上面公式算出的结果和官网数值(3352)较为接近。
结论: RTX 5090 FP4 性能是 RTX 4090 FP8 性能的 2.54 倍 。
这个对比并不算公平。
如果都按 FP8 来算, RTX 5090 FP8 性能是 RTX 4090 FP8 性能的 1.27 倍,相比前一代提升也只有 27% ,和 Shader 性能提升是一致的。
老黄果然是营销高手,PPT 里的数字暗藏玄机。
从前面计算公式来看,真正的硬件 性 能 提升,仍然来自工艺进步 ,芯片 集 成度提升 ,容纳的 晶体管数量 更多(92B vs 76 .3B) 。 老黄定律的本质是在摩尔定律之上缩减 AI 计算精度达到的 。 从最初的 FP32,到 Pascal/Volta FP16,再到 Hopper/Ada Lovelace FP8,目前进化到 Blackwell 的 FP4。
为了让 5090 发挥出最大 AI TOPS,FP4 的推理优化可以搞起来了。
扫描下方 二维码 ,关注“ 慢慢学AIGC ”