内存墙:DRAM 的过去、现在与未来

大模型向量数据库数据库

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

3D DRAM 革命中的赢家和输家

当今世界越来越多地质疑摩尔定律的终结,但实际上它已在十多年前悄然落幕, 没有任何标题和喧嚣。 人们通常关注逻辑芯片,但摩尔定律一直也适用于 DRAM。

picture.image

DRAM 已经无法继续扩展了。在辉煌时期,内存密度每 18 个月翻一番 - 甚至超过了逻辑芯片。这意味着每十年密度增加 100 多倍。但在过去十年中,扩展速度已经大幅放缓,密度仅增加了 2 倍。

picture.image

随着 AI 的爆发性增长,行业平衡被进一步打破。虽然逻辑芯片在密度和每晶体管成本功能方面都有显著改进,但 DRAM 速度的提升却很缓慢。尽管存在一些恐慌情绪,但在台积电的 3 nm 和 2 nm 节点上,每个晶体管的成本仍在继续下降。而在内存方面,带宽的提升主要依赖于复杂且昂贵的封装技术。

picture.image

高带宽内存(HBM) 是加速器内存的核心, 每 GB 的成本是标准 DDR5 的 3 倍以上 。客户不得不接受这一现状,因为如果想打造有竞争力的加速器产品,几乎别无选择。这种平衡是不稳定的 - 未来的 HBM 世代将继续变得更加复杂,堆叠层数更高。随着模型权重单独就接近数 TB 规模,AI 对内存的需求正在爆发性增长。 对于 H100 来说,制造成本的 50% 以上归因于 HBM,而到了 Blackwell 这一比例将增长到 60% 以上

换句话说,DRAM 行业已经遇到了瓶颈。虽然计算能力的提升在放缓,但仍远远超过了内存的发展速度。那么, 如何才能重新加速 DRAM 的创新步伐?在未来,有哪些创新可以用来改善带宽、容量、成本和功耗 ?

有很多可能的解决方案。随着数千亿美元的 AI 资本支出摆在桌面上,行业有强烈的动力推动这些解决方案向前发展。

本文将从 DRAM 的背景和历史入手,探讨构成现代"内存墙"的各个问题及其可能的解决方案。我们将讨论相对简单的短期方案,如延展 HBM 路线图,以及更复杂的长期选项,如存内计算(CIM)、新型存储器如铁电RAM(FeRAM)或磁性 RAM(MRAM),以及即将到来的 4F2 DRAM 和 3D DRAM。

DRAM 入门:工作内存

计算机中使用几种类型的内存。最快的是 SRAM (静态随机存取存储器) ,它与逻辑工艺兼容,位于 CPU 或 GPU 上。由于它在逻辑芯片上,SRAM 也是最昂贵的内存类型 - 每字节的成本约为动态随机存取存储器(DRAM)的 100 倍以上 - 因此只能小量使用。频谱的另一端是非易失性 NAND 固态硬盘、机械硬盘和磁带。这些存储便宜但速度太慢,无法满足许多任务的需求。DRAM 位于 SRAM 和闪存之间的"黄金地带" - 速度刚好够快,成本也刚好够便宜。

picture.image

DRAM 占据非 AI 服务器系统成本的一半。 然而,在过去的 10 年里,它在所有主要逻辑和内存技术中扩展速度最慢。 16Gb 的 DRAM 芯片在 8 年前首次实现大规模量产,但至今仍是最常见的型号。 刚推出时,其每 GB 成本约为 3 美元,曾一度涨至接近 5 美元,过去 12 个月又回落至 3 美元左右。 速度方面,甚至略有下降。 功耗方面的改进相对较好,这主要得益于 LPDDR 的兴起,这种封装技术使用了更短且更高效的导线,但即便如此,起点仍然很低。 DRAM 缩放能力的滞后成为限制计算性能和经济性的瓶颈。

DRAM 基础架构

原理上,DRAM 很简单。它由排列成网格的存储单元阵列组成,每个单元存储一位信息。 所有现代 DRAM 使用 1T1C 单元,即 1 个晶体管和 1 个电容器 。晶体管控制对单元的访问,电容器以小电荷的形式存储信息。

picture.image

基本的 DRAM 电路:由存储单元阵列组成,行方向连接有字线 (wordline),列方向连接有位线 (bitline)。激活一条字线和一条位线,可以读取或写入它们交叉处的存储单元。

字线 (WL) 连接同一行中的所有单元,控制每个单元的访问晶体管。位线 (BL) 连接同一列中的所有单元,与访问晶体管的源极相连。当字线通电时,该行中所有单元的访问晶体管被打开,允许电流从位线流入单元(写入数据),或从单元流向位线(读取数据)。

在任一时刻,仅有一条字线和一条位线处于活动状态,这意味着只有活动字线和位线交叉处的一个单元会被写入或读取。

当访问晶体管被字线开启时,电荷被允许在位线和电容之间流动。

DRAM 是一种易失性存储技术 :存储电容器会漏电,因此需要频繁刷新(每~32 毫秒一次)以维持存储的数据。每次刷新都会读取单元的内容,将位线上的电压提升到理想水平,然后让刷新后的值流回电容器。刷新完全在 DRAM 芯片内部进行,不需要数据流入或流出芯片。这最大限度地减少了功耗浪费,但刷新仍可能占到 DRAM 总功耗的 10% 以上。

与晶体管类似,电容器已被缩小到纳米级宽度,但其纵横比极高——高度约为 1000nm,而直径仅为几十纳米,纵横比接近 100:1。 电容的电容值约为 6-7 fF(飞法拉)。 每个电容在新写入时储存极少量的电荷,大约 40,000 个电子。

存储单元通过位线与外界交换电子,但位线上的电压会被连接到同一位线的所有其他单元稀释。 位线的总电容可能超过 30fF,这导致电压被稀释 5 倍。 此外,位线本身非常细,限制了电子的流动速度。 最后,如果单元没有及时刷新,其储存的电荷可能已经显著减少,仅能提供一小部分电荷。

所有这些因素意味着,当一个单元放电以读取其数值时,信号会非常微弱,需要被放大。因此,在每条位线的末端都安装了感应放大器 (Sense Amplifier, SA),以检测从存储单元读取的极小电荷并将信号放大到有用的强度。这些更强的信号随后可以作为二进制的 1 或 0 被系统其他部分读取。

感应放大器采用了一种巧妙的电路设计:它将活动位线与一个未使用的相邻位线进行比较,起始时将两条线设置为相似电压。活动位线上的电压会与未活动邻居的电压比较,这种差异使得感应放大器失衡,并将这种差异放大回活动位线中。这不仅放大了信号,还将新的完整高或低电压写回存储单元中。通过这一过程,实现了“一举两得”:在读取单元的同时完成刷新操作。

在读取/刷新活动单元后,数值可以从芯片中复制出来,或通过写入操作覆盖。写入操作忽略刷新后的值,使用更强的信号将位线强制设置为新值。当读取或写入完成后,字线被禁用,访问晶体管关闭,从而将存储电容中的电荷封存起来。

DRAM 历史

现代 DRAM 的实现得益于两项独立且互补的发明:1T1C 存储单元和感应放大器

1T1C 存储单元由 IBM 的 Robert Dennard 博士于 1967 年发明 。他同时以命名的 MOS 晶体管扩展定律而闻名。DRAM 和扩展技术均基于 MOS 晶体管(即晶体管栅极中的金属氧化物硅层)。

picture.image

上图来源于 Dennard 博士最初的 1T1C 内存单元架构专利文档,详见https://patents.google.com/patent/US3387286A/en。

尽管 1T1C 存储单元结构珠玉在前,英特尔在 1973 年推出的早期 DRAM 却采用了每个单元 3 个晶体管的设计,其中中间晶体管的栅极充当存储电容。这种结构被称为“增益单元”,中间和末端的晶体管提供增益,用于放大中间栅极上的极小电荷,从而使存储单元能够轻松读取且不干扰存储的数值。

理论上,1T1C 单元更优:所需器件更少,连接更简单,尺寸更小。那么为什么它没有被立即采用呢?原因在于当时还无法实用地读取这种单元。

在发明之初,1T1C 单元的小电容使其在实际操作中难以实现。因此,还需要第二项关键发明:感应放大器。

1971 年,西门子公司的 Karl Stein 开发了第一个现代感应放大器 ,并在加州的一场会议上发表了这一成果,但却完全被忽视。当时,1T1C 架构尚未被广泛采用,而西门子也不知道如何应用这项发明。随后,Stein 被调到另一个项目,从事与 DRAM 无关的工作,并在该领域取得了成功的职业生涯。

picture.image

Stein 最初感应放大器专利,来源:https://patents.google.com/patent/US3774176A/en

这种设计与位线的间距非常契合,并且能够随着存储单元尺寸的缩小而进一步缩小,从而保持同步。感应放大器在未使用时会完全关闭电源,使得芯片上可以容纳数百万个感应放大器而不会消耗过多功率。可以说,这是一项小小的奇迹。

感应放大器的广泛应用花了 5 年多的时间。Mostek 的 Robert Proebsting 独立地(重新)发现了这一概念,并在 1977 年推出了基于 1T1C + SA 架构的 16kb DRAM,成为市场领导者。这一成功的公式延续至今——近 50 年后,DRAM 的架构仍然基本相同。

DRAM 发展史:当 DRAM 停止扩展时

在 20 世纪, 摩尔定律和 Dennard 扩展定律主导了半导体行业 。在其巅峰时期,DRAM 的密度增长速度甚至超过了逻辑电路。 每颗 DRAM 芯片的容量每 18 个月翻一番 ,这推动了日本半导体工厂的崛起(1981 年首次超过美国市场份额,并在 1987 年达到约 80% 的峰值),随后韩国公司接力(1998 年市场份额超过日本)。

在一个相对简单的制造工艺上,晶圆厂快速的代际更替为拥有资金建设下一代晶圆厂的新进入者创造了机会。

picture.image

在 DRAM 缩放的“黄金时代”,每比特价格在 20 年内下降了三个数量级。 来源: Lee, K.H.,《A Strategic Analysis of the DRAM Industry After the Year 2000》

这种速度并未能持续太久。到 20 世纪末和 21 世纪初,逻辑电路的扩展速度已显著超过了内存扩展速度。最近,逻辑电路的扩展速度放缓,每两年密度改进约 30-40%。但相比 DRAM,这仍然是不错的表现。DRAM 的扩展速度已从峰值下降了一个数量级,现在需要 10 年时间才能实现密度翻番。

picture.image

“这次不同了”:不,内存周期已经是行业 50 年来的组成部分。 来源: Lee, K.H.,《A Strategic Analysis of the DRAM Industry After the Year 2000》

这种扩展放缓对 DRAM 的定价动态产生了连锁反应。 尽管内存传统上是一个周期性行业,但密度扩展的放缓意味着成本减少的幅度大大降低,无法缓冲供应有限时的价格上涨。 增加 DRAM 供应的唯一方式是建设新的晶圆厂。 然而剧烈的价格波动和高昂的资本支出 (CAPEX) 意味着只有最大的公司能够生存下来: 20 世纪 90 年代中期,超过 20 家制造商生产 DRAM,市场份额的 80% 分布在前 10 名中。 而现在,前 3 名供应商掌握了超过 95% 的市场份额。

由于 DRAM 是一种商品化产品,供应商本质上更容易受到价格波动的影响(与逻辑或模拟电路相比)。当市场低迷时,他们主要依靠产品的原始价格竞争。 逻辑电路通过不断增加的成本维持了摩尔定律,而 DRAM 并没有这种奢侈。 DRAM 的成本测量方式很简单:以每 GB 的价格衡量。相较于早期,过去 10 年的价格下降速度非常缓慢——只下降了一个数量级,而过去通常只需一半时间。这种 DRAM 的周期性高峰和低谷特征仍然显而易见。

picture.image

DRAM 密度扩展速度降至每十年翻倍,而价格由周期性因素驱动。 来源: DRAMExchange, SemiAnalysis

进入 10nm 节点后,DRAM 的位密度增长几乎停滞。 即使三星在 1z 节点和 SK 海力士在 1a 节点引入了 EUV 技术,密度也未显著提升。 其中, 电容器和感应放大器 面临的两大挑战尤为显著。

电容器在多个方面都极具挑战性。 首先,在 patterning 过程中,孔洞需要紧密排列,并且必须具备非常好的关键尺寸 (CD) 和叠层对准控制,以确保能够接触到下方的访问晶体管,同时避免桥接或其他缺陷。 电容器的纵横比极高,要蚀刻出直而窄的孔形状非常困难,而为了实现更深的蚀刻,需要使用更厚的硬掩膜,但更厚的掩膜又需要更厚的光刻胶,这增加了图案化的难度。 接着,还需在整个孔壁上沉积多个无缺陷的仅几纳米厚的薄层,以形成电容器。 这几乎每一步都对现代加工技术的极限提出了挑战。

picture.image

DRAM 存储电容需要在纵横比为 100:1 的孔内形成多层精密薄层(示意图未按比例绘制——实际电容可能比图中显示的高 10 倍)。 来源: Applied Materials。

感应放大器的难度类似于逻辑互连技术的挑战。曾经被视为次要设计的感应放大器,如今其难度已经与“主要”特性(逻辑晶体管和存储单元)相当,甚至更高。它面临多方面的压缩:面积缩放必须与位线的缩减相匹配,而感应放大器越小,其灵敏度越低,更易受到变化和漏电的影响。同时,更小的电容储存的电荷更少,从而使读取它们的感应要求更加困难。

此外,还有其他问题,总体来说,使用传统方法以经济方式扩展 DRAM 的难度正变得越来越大。这为新想法的引入打开了大门——我们来探讨其中的一些……

短期扩展:4F² 和垂直通道晶体管

在短期内,DRAM 扩展将沿着其传统路线图继续前进。对架构进行更大规模的根本性变更需要数年时间才能开发和实施。与此同时,行业必须回应对更高性能的需求,即使仅能带来微小的改进。

短期路线图包含两个创新: 4F² 单元布局和垂直通道晶体管(VCT)。

picture.image

Samsung DRAM 路线图。来源:Samsung Memcon 2024,最初由 SemiEngineering 发布。

值得注意的是,一些公司,包括三星,在其路线图中将垂直圆柱体晶体管(VCT)归类于"3D"下。虽然从技术上来说是正确的,但这有点误导性,因为 VCT 与通常所说的“3D DRAM”是不同的。

picture.image

一个标准的 6F2 布局相比于 4F2 布局,使用的是垂直沟道晶体管。出处:中芯 CXMT 在 2023 年国际电子器件会议 (IEDM) 上发布的内容。

4F2 描述了以最小特征尺寸 F 为单位的存储阵元面积,类似于标准逻辑单元高度的轨道度量,例如"6T 单元"。最小特征尺寸通常是线路或间距宽度,在 DRAM 中它将是位线或字线宽度。这是一种简单的方法来表示单元布局的密度,并使比较变得容易 - 4F2 单元的尺寸只有 6F2 单元的 2/3,理论上可以增加 30% 的密度,而无需缩放最小特征尺寸。请注意,纯单元布局并不是密度扩展的唯一限制,因此实际收益很可能小于理想的 30% 情况。

4F2 是单个比特单元的理论极限。请记住,特征尺寸是线宽或间距宽度(即半导程),因此线+间距图案的导程为 2F,而不是 F,因此最小可能的单元尺寸是 4F2,而不仅仅是 F2。因此,一旦实现了这种架构,水平扩展的唯一途径就是缩小 F 本身 - 这正快速变得不切实际,甚至是绝对不可能的。

DRAM 自 2007 年以来一直使用 6F2 布局,在此之前是 8F2(有趣的是:现代 NAND 已经使用 4F2 单元,但特征尺寸 F 要大得多。SRAM 的大小约为 120 F2,密度小 20 倍!)

值得注意的一个例外是 CXMT,这是一家中国供应商,在 2023 年末展示了使用 VCT 和 4F2 布局的 18 纳米 DRAM,这是一种规避制裁的做法。由于三星、SK 海力士和美光能够缩小单元尺寸,因此它们没有被迫采用这些架构,就像 CXMT 那样。CXMT 早期采用的含义也很重要 - 它可能正在难以缩小 F,因此选择了更激进的单元和晶体管架构改变。

4F2 单元的关键使能技术是 垂直通道晶体管 。它是必需的,因为晶体管必须缩小到适合单元,同时比特线和电容器的两个接触也必须适合该占用空间,因此只需一条垂直线路。在这些尺度下,有必要以垂直而不是水平的方式构建晶体管,将其占用空间缩小到约 1F,大致与其上方的电容器相匹配,同时保持足够的沟道长度使晶体管能够有效工作。当前 DRAM 使用水平通道和水平分离的源/漏。这是一种成熟且众所周知的架构。VCT 将源(连接到下方的 BL)、沟道(被栅极和控制栅极的字线包围)和漏(连接到上方的电容器)顺序叠加。在制造过程中,有一些步骤变得更容易,有些则更困难,但总的来说,VCT 更难制造。

三星的工艺值得关注的是使用晶圆键合。在类似于逻辑的背面供电的过程中,单元接入晶体管是先制造的,并在比特线在顶部形成之后,将晶圆翻转并键合到支撑晶圆上,因此比特线现在是埋藏的。有趣的是,键合的基底似乎不需要与 VCT 精确对准,尽管披露并没有解释外围 CMOS 是在翻转的芯片上,还是在新键合的基底上。顶部会被磨薄,以暴露晶体管的另一端,从而可以在其上建造存储电容器。EVG 和 TEL 有望从这种新的渐进性需求中获益,即对晶圆键合设备的需求。

DRAM 基础知识:当前变体

DRAM 有多种类型,每一种都针对不同的目标进行了优化。相关的最新一代包括 DDR5、LPDDR5X、GDDR6X 和 HBM3/E。它们之间的差异几乎完全在于外围电路。存储单元本身在各种类型中类似,制造方法在所有类型中也大致相似。让我们简单介绍一下各种 DRAM 类型及其作用。

DDR5(双倍数据速率第 5 代)提供最高的内存容量,因为它被封装在双列直插式存储模块(DIMM)中。LPDDR5X(低功耗 DDR5,X 代表增强版)提供低功耗操作,但需要更短的距离和低电容连接到 CPU,这限制了容量,因此它用于手机和笔记本电脑等移动设备,在这里低功耗是可取的,而布局限制是可接受的。

最近,我们还看到 LPDDR 在一些 AI 加速器、Apple 的专业工作站以及 AI 供应 CPU 如 Grace 中使用了更高的容量封装。这些新用途是由于对高带宽和低功耗数据传输的需求。

在加速器中,LPDDR 已经成为"二级"内存的最佳选择,提供更便宜的容量,性能低于昂贵的 HBM。它在构建最高容量和可靠性特性方面有所欠缺,但优于 DDR5 DIMM,因为它每比特吞吐量的能耗低一个数量级。LPDDR5X 封装可达到 480GB,可用于 Nvidia Grace 处理器,这是 GDDR 配置容量限制(受制于消费者游戏系统所需的电路板布局和芯片封装规则)的大约 10 倍,并且与中型 DDR 服务器配置的容量范围相当。使用 R-DIMM 可实现更大容量的 DDR5,但由于封装复杂性以及 DIMM 上额外的寄存器(一种缓冲芯片)而成本较高。

LPDDR5X 与 DDR 相比在功耗方面有很大优势,与 HBM 相比在成本方面也有优势,但每比特能耗无法与 HBM 相媲美,并且需要许多通道(到 CPU 的连接),这会在较大容量时挤占板布局。它在错误纠正(ECC)方面也存在弱点,这在较大容量时变得更加重要,因为发生错误的可能性更大。为了弥补这一点,必须划分一些容量来支持额外的 ECC。例如 Grace CPU 每个计算托盘有 512 GB 的 LPDDR5x,但似乎保留了 32GB 用于可靠性特性,留下 480GB 供用户使用。

即将推出的 LPDDR6 标准改进有限,仍保留每芯片高通道数以及相对温和的速度提升,并且有限支持错误纠正。LPDDR6 不会提供与 HBM 相竞争的解决方案。

GDDR6X(G 代表图形)专注于图形应用,提供高带宽和低成本,但延迟和功耗较高。虽然在游戏 GPU 中很有用,但它是针对电路板级容量限制和功率水平进行设计的,这限制了可以使用它的 AI 应用程序的规模。

然后是 HBM3E(高带宽内存第 3 代,增强版"E")。它优先考虑带宽和能效,但成本非常高。 HBM 的两个特征是总线宽度大得多和垂直堆叠的存储芯片单个 HBM 芯片具有 256 位的 I/O,是 LPDDR 16 位每芯片总线宽度的 16 倍 。芯片按垂直方式堆叠,通常为 8 个或更多,每 4 个芯片分组 I/O;总的来说,封装可以提供 1024 位的带宽。在 HBM4 中,这将翻倍到 2048 位。为了充分利用 HBM,最好将其与计算硬件集成在同一封装中,以降低延迟和每比特能耗。为了在保持到计算的短连接的同时扩展容量,必须堆叠更多芯片。

HBM 的高成本主要由这种需要芯片堆叠的特性驱动。在典型的 HBM 堆栈中,8 个或 12 个 DRAM 芯片(在路线图上 16 个及以上)相互堆叠,通过每个芯片中的 Through Silicon Vias(TSV)进行电源和信号路由。TSV 是直接穿过芯片的导线,允许在芯片之间进行连接。与用于连接堆叠芯片的旧式线键合方法相比,TSV 更密集、性能更好、成本更高。HBM 堆栈中必须通过 TSV 路由超过 1,200 条信号线。必须为它们划分大量面积,这使每个 HBM DRAM 芯片的尺寸是标准 DDR 芯片的两倍,即使容量相同。这也意味着对电气和热性能的筛选要求更高。

这种复杂性会影响良品率。例如三星的 DRAM 设计失误以及他们使用落后的 1α 工艺节点,都导致了他们惊人的 HBM 低良品率。封装是另一个主要挑战。正确对准 8 个以上具有数千个连接的芯片很困难,因此成本很高,由于相对较低的良品率。目前,这是 HBM 供应商之间的一个关键差异化因素,因为 SK 海力士能够成功生产 HBM3E,而三星则在产出上苦苦挣扎。美光也有可行的解决方案,但需要显著扩大产能。

尽管成本很高,良品率也面临挑战,但 HBM3E 目前仍是内存行业有史以来最有价值和利润最高的产品。这主要是因为对于大型 AI 加速器而言,没有其他 DRAM 类型是可行的替代品。尽管随着三星提高良品率,以及美光扩大产能,利润率可能会下降,但 AI 加速器对内存的需求将继续增长 - 在某种程度上抵消这种新供应带来的好处。

picture.image

根据 SemiAnalysis 的报告,HBM在带宽和封装密度方面占据主导地位。简而言之,HBM3E 拥有最高的带宽、最高的带宽密度、最佳的每比特能耗和可靠的 ECC 功能,使其在当前 AI 加速器领域占据统治地位。这就是 Nvidia 的 H100 和 AMD 的 MI300X 都使用 HBM3E 的原因。GDDR6/X 在这些指标上远远落后,容量也小得多。LPDDR5 和 DDR5 更是糟糕,完全不适合加速器需求。

目前的 HBM 解决方案成本较高,并且未来扩展越来越困难。我们是如何陷入这种局面的?

HBM 路线图

HBM 是一种建立在传统 DRAM 技术基础之上的封装解决方案,通过提高密度和相邻性来试图解决 AI 和其他高性能计算领域的带宽和功耗问题。

所有主要的 AI GPU 现在都使用 HBM 作为内存。2025 年的计划是采用 12层堆叠的 HBM3E,每个芯片容量为 32 Gb,每个堆栈总容量为 48 GB,数据传输速率可达每路 8 Gbps。在 GPU 服务器上,首批采用统一内存的方案已经推出,如 AMD 的 MI300A 和 Nvidia 的 Grace Hopper。

Grace CPU 采用高容量的 LPDDR5X,而 GPU 则使用高带宽的 HBM3。但 CPU 和 GPU 位于不同封装上,通过 900 GB/s 的 NVLink-C2C 进行连接。这种模式集成更简单,但软件方面更加复杂。连接到另一芯片的内存延迟较高,可能会影响大量工作负载。因此,这种内存并非完全统一,也面临着自己的挑战。

picture.image

HBM4 还需要几年时间才能问世,三星和美光声称它将达到最高 16 层堆叠,每个堆栈的带宽将高达 1.5 TB/s。这比现有技术的带宽提高了两倍以上,但功耗仅增加 1.3-1.5 倍。然而这种扩展能力还是不够,因为内存的总体功耗继续增加。HBM4 还将将每个堆栈的总线宽度改为 2048 位,将数据速率略微降低到 7.5 Gbps,有助于降低功耗和改善信号完整性。很可能 HBM4E 或类似型号将再次提升到 HBM3E 的数据速率。

另一个重大变化是 HBM 基础芯片。基础芯片将采用 FinFET 工艺制造,而非目前使用的平面 CMOS 工艺。对于没有逻辑制造能力的美光和 SK 海力士来说,基础芯片将由代工厂(TSMC 已宣布将成为 SK 海力士的合作伙伴)制造。此外,基础芯片还将针对不同客户进行定制。

我们会有一份关于 HBM 定制的专门报告,这里简单介绍一下:

HBM4 的预告称,至少会使用 2 种不同形式的基础芯片,以优化内存接口的速度和长度。很可能 DRAM 状态机的控制功能将移到基础芯片上,以更有效地控制 DRAM 芯片,而且垂直连接也可能有助于降低每比特能耗。

定制 HBM 可以实现多种新的封装架构,而不仅限于目前常见的 CoWoS 方式。可能会有中继 PHY 以串联多行 HBM - 但超过 2 个阶段的收益递减。

picture.image

在 HBM4 及其后续版本中,已经提出引入混合键合技术。这将使 HBM 堆栈更薄,因为移除了凸点间隙,并改善了散热性能。此外,它还将支持 16-20 层甚至更多的堆叠高度。混合键合可能还会略微降低功耗,因为信号的物理传输距离将减少。

然而,挑战同样显著——要实现 16 层以上堆叠的芯片并保证其键合良率并非易事,尤其是每个芯片都难以做到完全平整。目前尚无任何厂商接近具备大规模制造能力的解决方案。

初期的 HBM4 产品将不会使用混合键合技术,并且这一状况可能会持续比许多人预期的更长时间。

CPU、GPU 或加速器与内存之间的 连接位于基础芯片(base chip)中。改进这一连接是克服内存限制的一个可能途径。一家由美光和英特尔等公司资助的初创企业 Eliyan 正在推动这一方向,推出了他们的 UMI 定制接口技术。

picture.image

UMI 接口用于搭配 ASIC 芯片,它既可作为 HBM 堆栈的基础芯片,也可作为其他内存类型的模块控制器。这种小芯片(chiplet)同时包含内存控制器和与内存芯片的物理互连(PHY)。UMI 接口通过外部连接至主机 GPU,并与主机的互联架构相连。采用全 CMOS 工艺制造,这些芯片既快速又高效,利用先进的“NuLink”协议与主机连接,从而将内存控制器的占位从主机硅片中移除。

Eliyan 的封装技术甚至可以兼容标准基板,拥有比常规先进封装更远的连接距离。这可能意味着 HBM 不需要紧邻 ASIC 芯片,而是可以放得更远,从而支持更高的容量。他们的方案还减少了主机芯片的面积和边缘资源占用,从而可以增加通道宽度。标准化的 UMI 内存小芯片可支持 HBM、DDR、CXL 内存等多种类型,而无需固定于某一种类型,大大提高了灵活性。不过,尽管这一方法可能带来短期改进,却未能解决 HBM 的基本成本问题。

新兴内存

自 DRAM 和 NAND 占据主导地位以来,一直有针对更好替代品的研究。这类技术的统称是“新兴内存”,不过这一名称略显误导,因为迄今为止,还没有任何一种技术能够真正“崭露头角”成为高产量产品。然而,考虑到与 AI 相关的新挑战和激励,它们仍值得简要讨论。

FeRAM(铁电内存)

最有希望用于独立应用的内存是铁电内存(FeRAM)。这种内存在存储电容中使用铁电材料(在电场中会发生极化的材料),而非传统的电介质(绝缘材料)。其显著特点是非易失性,也就是说,即使电源关闭,数据仍然得以保存,无需浪费电力或时间进行刷新。

在 2023 年 IEDM 大会上,美光展示了具有密度(与其 D1β DRAM 相当)、良好耐久性和数据保持性能的 FeRAM,显示出它可能成为 AI/ML 应用的优良候选技术。但其最大问题是成本。其制造过程复杂,使用的特殊材料比传统 DRAM 更多,导致目前仍缺乏竞争力。

MRAM(磁阻式随机存取存储器)

MRAM 是另一个有前景的研究领域。与电荷存储不同,MRAM 通过磁性方式存储数据。大多数设计采用磁性隧道结(MTJ)作为位存储单元。

picture.image

MRAM 使用磁性机制而非电学机制存储数据。来源:SK 海力士

在 2022 年的 IEDM 大会上,SK 海力士和铠侠展示了一种采用 1-selector 磁性隧道结(MTJ)的存储单元,其节距为 45nm,关键尺寸仅为 20nm。这项技术实现了迄今为止最高的 MRAM 密度——0.49 Gb/mm²,比美光的 D1β DRAM 密度(0.435 Gb/mm²)还要高。该存储单元甚至采用了 4F² 的设计。他们的目标是将这种技术商品化,以独立封装的形式作为 DRAM 的替代品。

目前,尚没有任何一种替代内存能够真正挑战 DRAM 的地位。某些替代技术的存储单元更大或速度更慢;有些工艺成本更高;多数替代技术的耐久性有限;还有一些技术良率较低。在实际应用中,磁性或相变内存产品的容量通常以 MB 计算,而非 GB。尽管如此,这种状况可能会发生改变。考虑到其中蕴含的大量利益,一种成功的组合方案可能正在酝酿中,但无论是设备性能还是生产规模,都还有大量工作需要完成。

存内计算(Compute In Memory)

自诞生以来,DRAM 就因其架构而受到限制。它是一种简单的状态机,没有任何控制逻辑,这在降低成本方面是有利的,但也意味着它依赖于主机(CPU)的控制。 这种范式已经根深蒂固:现代 DRAM 制造工艺经过高度优化和专门化,因此实际上无法生产控制逻辑。此外,行业组织 JEDEC(联合电子器件工程委员会)在制定新标准时也强制要求尽量减少逻辑电路的介入。

picture.image

“愚钝”的 DRAM: 由于控制逻辑与内存分离,命令必须通过一个缓慢且低效的接口传输。图片来源:SemiAnalysis

DRAM 芯片完全依赖主机:所有命令都必须通过一个共享接口传递,该接口为内存中的多个存储体服务,并且由主机中的多个线程共享。每条命令需要经过 4 个或更多步骤才能被准确执行,以确保 DRAM 正常运行。而 DRAM 芯片甚至没有逻辑能力来避免冲突。

这一问题因使用古老的半双工接口而愈发严重:DRAM 芯片可以读取或写入数据,但不能同时进行。主机必须精确了解 DRAM 的模型,并在每个时钟周期内预测接口应设置为读取还是写入模式。命令和数据分别通过独立的线路传输,这虽然简化了定时复杂性,但也增加了线路数量,并造成 GPU 或 CPU 上的“前沿”区域拥堵。总体而言,与逻辑芯片使用的替代物理接口(PHY)相比,内存接口的位速率、接口密度和效率已经落后了一个数量级。

这些缺点的结果是,服务器中最常用的 DDR5 DIMMs 消耗了超过 99% 的读写能量在主机控制器和接口上。其他变体稍微好一些,例如 HBM 的能量分配为大约 95% 用于接口,5% 用于内存单元的读写操作,但依然远未达到 DRAM 的全部潜能。

功能被错误地放置在了主机中。 显然,解决方案是将控制逻辑移至正确的位置: 直接整合到内存芯片上。 这就是 存内计算(Compute in Memory, CIM) 的概念。

由于接口的限制,DRAM 存储体的巨大性能潜力几乎完全被浪费了。

存储体(Banks)是 DRAM 结构的基本单元。每个存储体由 8 个子存储体组成,每个子存储体包含 64Mb(8k 行 x 8k 位)的内存。存储体一次激活和刷新一行 8k 位,但在任意 I/O 操作中只能传输其中的 256 位。这种限制源于感测放大器的外部连接:尽管一行由 8k 个感测放大器支持,但每个子存储体中只有 32 分之一(256 个感测放大器)与外部相连,因此读写操作被限制在 256 位以内。

picture.image

(a) 高密度的高柱电容阵列限制了对感测放大器的访问。来源:SemiAnalysis (b) DDR4 DRAM 感测放大器区域的聚焦离子束 (FIB) 剖析图。 来源: Marazzi 等,《HiFi-DRAM: Enabling High-Fidelity DRAM Research by Uncovering Sense Amplifiers with IC Imaging》,ISCA 2024 (c) 1β DRAM 中 Mat 区边缘的示意图。 来源: 美光(Micron)

感测放大器被高柱电容环绕,仿佛处于一个“峡谷”中。在上方 ETH 苏黎世的 FIB 剖析图中可以看到,高层布线需要通过高深比的垂直通孔(vias)向下延伸以与感测放大器接触。

即便接口受限(任一时间只能访问 1/32 的感测放大器),单个存储体的读写峰值带宽约为 256 Gb/s,平均约为 128 Gb/s,因为切换到新的激活行至少占用了 50% 的时间。在 16Gb 的 DRAM 芯片中,32 个存储体的全部潜在总带宽可达 4 TB/s。

在更高层级上,存储体通过存储体组连接,然后与 DRAM 芯片的外部接口相连。在 HBM 中,每个晶圆提供 256 条数据线,单晶圆峰值吞吐量为 256 GB/s。这种瓶颈使得存储体潜在带宽的可用率仅为 1/16。

picture.image

更糟的是,从芯片中传输单个比特需要消耗 2 皮焦耳 (pJ) 的能量,这比将数据移入或移出存储单元所需的能量高出 20 倍。其中大部分能量消耗发生在数据线 (DQ, Data Question-mark) 两端的接口和主机上的控制逻辑中,这些数据线既用于读取,也用于写入。 在如此低效的架构下,努力挖掘更多潜在性能成为必然。

即使是简单的理论模型也表明,这里蕴藏着巨大的潜能。

采用 UCIe (Universal Chiplet Interconnect) 标准可以实现 每毫米边缘 11 Tbps 的吞吐量,几乎是 HBM3E 的 12 倍。每比特能耗将从 2pJ 降低一个数量级至 0.25pJ。

而且,UCIe 并非最先进的解决方案。以 Eliyan 的专有标准 Nulink 为例,仅仅作为一个示例,它宣称可以实现更大的改进。

picture.image

需要注意的是,如果主机的互连结构(fabric)扩展到接口的另一侧,则需要在 DRAM 端处理互连结构命令集的一个子集。每个内存 bank 将需要在本地实现状态机(如预充电、地址选择、激活、读/写、关闭等)。这要求在 DRAM 芯片上集成(相对)复杂的逻辑。

向 DRAM 芯片中添加逻辑显然并非易事。然而,好消息是,HBM 已包含 CMOS 基底芯片,而当 3D DRAM 面世时,可以确信良好的 CMOS 逻辑将被绑定在内存堆栈的顶部或底部。换句话说,这种架构非常适合在内存中集成一定的计算能力,并且芯片制造商会有动力去实现。

一些“低垂的果实”可以首先采摘:比如,假设 HBM 采用 GDDR7 的 32Gbps 数据线速率。GDDR7 已证明可以在 DRAM 芯片上制造足够快的晶体管,而通过硅通孔 (TSVs) 到基底堆栈的垂直距离不到 1 毫米,这应该可以将每比特能耗控制在 0.25pJ/bit 的范围内。这就引发了一个问题:为何 JEDEC 不积极推动改进这一标准?

基底芯片的外部接口可以通过现代设计进行显著升级,每毫米边缘可提供超过 1 TB/s 的传输速率,同时能耗仅为每比特的极小部分。最终,在知识产权的竞争中,将有某家公司获得巨大成功。尽管 JEDEC 可能会选择其中一种方案作为标准,但更可能的是这一进步将由动作更迅速的内存/ GPU 供应商合作实现,因为 JEDEC 通常需要数年时间来推动标准化。

picture.image

我们已经在 HBM4 中看到了变革的可能性,尤其是第三方基底芯片的接受,这必将激发各种实验。我们可能会见证以下改进:通道控制的卸载、互连中的纯粹互连结构扩展、更低每比特能耗的跨厘米距离传输,以及菊花链连接至更远离主机的其他 HBM 行,或连接至第二层内存如 LPDDR 内存银行。

通过这种方式,设计可以绕过尝试在内存堆栈中进行计算的功耗限制,转而使用基底芯片上的现代化接口,为邻近芯片提供高带宽和低能耗的“类内存计算”能力。

(未完待续)


扫描下方 二维码 ,关注“ 慢慢学AIGC ”

picture.image

0
0
0
0
关于作者
相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论