RTX 5090 硬件参数详解

向量数据库大模型机器学习

点击下方 卡片 ,关注“ 慢慢学AIGC ”

CES 2025 老黄 Keynote 回顾

在 CES 2025 上,英伟达老黄穿着他的新皮衣亮相了,发布 RTX 5090,性能爆表,再次称霸!

picture.image

picture.image

RTX 5090 基于英伟达 Blackwell 架构,主要服务于游戏玩家和设计师,具备如下新特性:

  • 第五代张量核心(Tensor Cores),支持 FP4 精度计算和 DLSS 4;

  • 新流多处理器架构(SM),优化了神经渲染器;

  • 第四代光线追踪核心(RT Cores);

如果用 RTX 5090 玩《黑悟空》,开启 DLSS + Full RT 情况下,帧率比 4090 高 2 倍以上!

picture.image

对比上一代 RTX 4090 价格 159950xx系列可谓良心,RTX5070性能和4090持平,价格仅需549,50xx 系列可谓良心,RTX 5070 性能和 4090 持平,价格仅需 549

picture.image

最高端的 RTX 5090 也只需要 1999$:

picture.image

中间过渡卡 RTX 5080, 5070Ti,真不愧是老黄刀法,凌厉精准,满足各个层次玩家的需求。

RTX 5070 笔记本,仅需 1299$ 就能拥有一台匹敌 4090 性能的怪兽:

picture.image

回归理性,细算 TOPS

我们把目前 得到 的 RTX 5090 信 息 和前一代放到一起对比:

RTX 5090RTX 4090
架构BlackwellAda Lovelace
工艺TSMC 4nmTSMC 5nm
晶体管数量92B76.3B
CUDA 核心数2176016384
Boost 时钟频率2.41 GHz2.52 GHz
Tensor Cores680(v5)512(v4)
RT Cores170(v4)128(v3)
NVENC3(v9)2(v8)
NVDEC2(v6)1(v5)
显存规格32 GB GDDR724 GB GDDR6X
显存位宽512 bits384 bits
显存带宽1792 GB/s1008 GB/s
功耗(W)‍575450
总线接口PCIe Gen5 x16PCIe Gen4 x16

问题:老黄 PPT 里的 4000 AI TOPS(3X Ada) 怎么得到的呢?

在官网资料(点击左下角“阅读原文”直达官网页)中,这个数字更具体一些,是 3352 AI TOPS对比 RTX 4090 的 1321 AI TOPS

picture.image

1321 这个数字我熟,是 4090 开 FP8 和稀疏计算的性能,所以反推 RTX 5090 的话,应该是 开 FP4 和稀疏计算的性能

根据前面表格里的硬件指标,我们先计算 CUDA Core FP32 算力(老黄 PPT 里称为 Shader TFLOPS):

RTX 5090 Shader TFLOPS = 21760(CUDA Cores) x 2.41(GHz) x 2 =

104.883 TFLOPS

RTX 4090 Shader TFLOPS = 16384(CUDA Cores) x 2.52(GHz) x 2 = 82.575 TFLOPS

对比二者发现 RTX 5090 相比 RTX 4090 在 Shader TFLOPS 指标上提升了 27%

接着看 Tensor Core 性能。我们查阅了英伟达 Ada Lovelace 架构白皮书(最新一代 Blackwell 架构白皮书还没出),看到 SM 架构如图:

picture.image

每个 SM 内有

  • 128 个 FP32 核心(又称 CUDA Cores、Shaders);
  • 4 个 Tensor Cores;
  • 1 个 RT Core;
  • ...

FP8 性能如下表:

picture.image

其中稠密性能为 660.6 TFLOPS,稀疏性能为 1321.2 TFLOPS,可以反推每个 Tensor Core 每个时钟周期内 FP8 计算吞吐为:

FP8 计算吞吐(稠密) = 660.6(TFLOPS)* 1000 / 512(Tensor Cores) / 2.52(GHz) = 511.997, 约等于 512

FP8 计算吞吐(稀疏) = 1321.2(TFLOPS)* 1000 / 512(Tensor Cores) / 2.52(GHz) = 1023.995, 约等于 1024

合理推测: RTX 5090 上 FP4 计算吞吐相比 FP8 翻倍

RTX 5090 Tensor Core TFLOPS(FP4 稠密) = 680(Tensor Cores) * 2.41(GHz) * 512 * 2 = 1678 TFLOPS

RTX 5090 Tensor Core TFLOPS(FP4 稀疏) = 680(Tensor Cores) * 2.41(GHz) * 1024 * 2 = 3356 TFLOPS

按上面公式算出的结果和官网数值(3352)较为接近。

结论: RTX 5090 FP4 性能是 RTX 4090 FP8 性能的 2.54 倍

这个对比并不算公平。

如果都按 FP8 来算, RTX 5090 FP8 性能是 RTX 4090 FP8 性能的 1.27 倍,相比前一代提升也只有 27% ,和 Shader 性能提升是一致的。

老黄果然是营销高手,PPT 里的数字暗藏玄机。

从前面计算公式来看,真正的硬件 性 能 提升,仍然来自工艺进步 ,芯片 集 成度提升 ,容纳的 晶体管数量 更多(92B vs 76 .3B) 。 老黄定律的本质是在摩尔定律之上缩减 AI 计算精度达到的 。 从最初的 FP32,到 Pascal/Volta FP16,再到 Hopper/Ada Lovelace FP8,目前进化到 Blackwell 的 FP4。

为了让 5090 发挥出最大 AI TOPS,FP4 的推理优化可以搞起来了。


扫描下方 二维码 ,关注“ 慢慢学AIGC ”

picture.image

0
0
0
0
关于作者
相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论