LoRA适配器无缝集成，创新4位量化技术，助力扩散模型在边缘设备上的高效部署！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

扩散模型已经被证明在生成高质量图像方面非常有效。然而，随着这些模型的增大，它们需要更多的内存，并且延迟更高，这给部署带来了巨大的挑战。在这项工作中，作者的目标是通过将扩散模型的权重和激活量化到4位来加速扩散模型。在如此激进的 Level 上，权重和激活都是高度敏感的，而传统的用于大型语言模型（如平滑）的课后量化方法变得不适用。

为了克服这个限制，作者提出了一种新的4位量化范式，称为 SVDQuant。与平滑方法不同，作者的方法使用低秩分支来吸收这些异常值。作者首先将异常值从激活转移到权重，然后使用高精度低秩分支通过奇异值分解（SVD）吸收权重异常值。

这个过程使得两边的量化都变得更容易。然而，独立运行低秩分支会因为额外的数据移动而导致显著的开销，抵消了量化速度的提升。

为了应对这个问题，作者设计了一个推理引擎 Nunchaku，将低秩分支的核函数与低位分支的核函数融合，以切断冗余内存访问。它也可以无缝支持即插即用的低秩 Adapter （LoRA），无需重新量化。

在SDXL、PixArt-和FLUX.1等大量实验中，作者验证了SVDQuant在保持图像质量方面的有效性。作者将12B的FLUX.1模型的内存使用降低了3.5倍，实现了在16GB笔记本电脑4090 GPU上的4位仅量化基准的3.0倍速度提升，为在PCS上实现更多交互式应用铺平了道路。作者的量化库和推理引擎都是开源的。

1 Introduction

扩散模型在生成高质量图像（Ho等人，2020年）方面显示出惊人的能力，而最近的进展进一步增强了用户对生成过程的控制。在大量数据上进行训练后，这些模型可以从简单的文本 Prompt 中创建出令人惊叹的图像，解锁了各种图像编辑和合成应用。

为了追求更高的图像质量和更精确的文字到图像对齐，研究行人越来越倾向于使用扩散模型。如图2所示，Stable Diffusion (SD) (Rombach等人，2022年) 1.4只有800M参数，而SDXL (Podell等人，2024年) 将此扩展到2.6B参数。AuraFlow v0.1 (fal.ai, 2024年) 进一步扩展到6B参数，最新的模型FLUX.1 (Black-Forest-Labs, 2024年) 将参数增加到12B。与大型语言模型（LLMs）相比，扩散模型的计算成本显著更高。随着模型大小的增加，计算成本增长得更快，这给实际模型的部署带来了内存和延迟上的巨大障碍，尤其是对于需要低延迟的交互式使用场景。

picture.image

随着摩尔定律的放缓，硬件供应商开始转向低精度推理以维持性能提升。例如，英伟达的Blackwell张量核心引入了新的4位浮点数（FPA）精度，与FP8（英伟达，2024年）相比性能翻倍（英伟达，2022年）。因此，使用4位推理加速扩散模型具有吸引力。在LLM领域，研究行人利用量化压缩模型大小并提高推理速度（Dettmers等人，2022年；Xiao等人，2023年）。然而，与LLM不同，扩散模型在计算上受到重约束，即使单个批次也是如此。因此，仅对权重进行量化压缩不能加速扩散模型。为了实现加速，权重和激活都需要量化到相同的位宽；否则，在计算过程中低精度一侧会被向上转换，抵消潜在的性能提升。

在本工作中，作者关注将扩散模型的权重和激活值量化到4位。这种具有挑战性和侵略性的方案通常会导致严重的质量退化。现有方法如平滑（Xiao等人，2023；Lin等人，2024），试图在权重和激活值之间传递异常值，由于两者都高度易受异常值影响，因此其效果不佳。为了解决这个问题，作者提出了一种新的通用量化范式_SVDQuant_.作者的核心思想是引入一个低成本的分枝来吸收两边的异常值。为了实现这一目标，如图3所示，作者首先通过平滑将异常值从激活值迁移到权重。然后，作者对更新后的权重应用奇异值分解（SVD），将其分解为一个低秩分枝和一个残差。低秩分枝在16位运行，允许作者仅将残差量化到4位，从而显著降低了异常值和幅度。然而，单独运行低秩分枝会导致大量的内存访问开销，抵消了4位推理速度的提升。为了克服这个问题，作者专门设计了一个推理引擎_Nunchaku_，将低秩分枝的计算融合到4位量化和计算核心中。这种设计使作者能够实现即使有额外的分支，也能测量到的推理速度提升。

picture.image

SVDQuant可以量化各种文本到图像的扩散架构，包括UNet（Ho等人，2020年；Ronneberger等人，2015年）和DiT（Peebles和Xie，2023年） Backbone ，同时保持视觉质量。它支持INT4和FP4数据类型，并与预训练的低秩 Adapter （LoRA）（Hsu等人，2022年）无缝集成，无需重新量化。据作者所知，作者是首次成功地将4位PTQ应用于扩散模型的权重和激活，并在NVIDIA GPU上实现了测量速度的提高。在最新的12B FLUX.1中，作者很大程度上保留了图像质量，并将原始BF16模型的内存占用降低到原来的3.5倍，同时在16GB笔记本级RTX4090 GPU上实现了3倍的加速，相对于NF4仅量化的 Baseline 。请参阅图1以查看视觉示例。

picture.image

2 Related Work

扩散模型

扩散模型（Sohl-Dickstein等人，2015年；Ho等人，2020年）已成为一种强大的生成模型类别，以其通过迭代去噪过程模拟数据分布来生成高质量样本的能力而著称。最近，在文本到图像扩散模型（Balaji等人，2022年；Rombach等人，2022年；Podell等人，2024年）方面取得了突破性进展，已经彻底改变了内容生成。研究行人进一步从基于卷积的UNet架构（Ronneberger等人，2015年；Ho等人，2020年）转向了 Transformer （例如，DiT（Peebles和Xie，2023年）和U-ViT（Bao等人，2023年））并将模型规模扩大（Esser等人，2024年）。然而，由于扩散模型具有过长的去噪序列和强大的计算，推理速度极其缓慢。为了解决这个问题，已经提出了各种方法，包括少步采样器（Zhang和Chen，2022年；Zhang等人，2022年；Lu等人，2022年）或从预训练模型中提取更少的步长模型（Salimans和Ho，2021年；Meng等人，2022年；Song等人，2023年；Luo等人，2023年；Sauer等人，2023年；Yin等人，2024年；Xing等人，2024年）。另一条工作线则选择通过高效架构设计（Li等人，2023b；2020年；Cai等人，2024年；Liu等人，2024a），量化（Shang等人，2023年；Li等人，2023a），稀疏推理（Li等人，2022年；Ma等人，2024b；A），和分布式推理（Li等人，2024b；Wang等人，2024c；Chen等人，2024b）来优化或加速计算。本工作专注于将扩散模型量化到4位，以减少计算复杂性。作者的方法还可以应用于少步扩散模型，以进一步减少延迟（参见第5.2节）。

量化。量化已被认为是减少语言模型模型大小并加速推理的有效方法（Dettmers等人，2022年；Frantar等人，2023年；Xiao等人，2023年；Lin等人，2024b；a；Kim等人，2024年；Zhao等人，2024年）。对于扩散模型，Q -Diffusion（Li等人，2023年a）和PTQ4DM（Shang等人，2023年）首先实现了8位量化。后续的工作通过诸如敏感性分析（Yang等人，2023年）和时间步长感知量化（He等人，2023年；Huang等人，2024年；Liu等人，2024b；Wang等人，2024年a）等方法改进了这些技术。一些最近的工作扩展了这些设置，应用于文本到图像模型（Tang等人，2023年；Zhao等人，2024c），Dilated Convolution（Wu等人，2024年），量化感知训练（He等人，2024年；Zheng等人，2024年；Wang等人，2024b；Sui等人，2024年），视频生成（Zhao等人，2024b），以及不同的数据类型（Liu和Zhang，2024年）。在这些工作中，只有MixDQ（Zhao等人，2024c）和ViDiT-Q（Zhao等人，2024d）实现了低位推理引擎，并在GPU上报告了8位速度提升。在本工作中，作者进一步将扩散模型量化到4位，支持整数或浮点数据类型，兼容UNet Backbone 网络（Ho等人，2020年）和最近的Dilated Convolution（Peebles和Xie，2023年）架构。作者的自定义推理引擎Nunchaku进一步确保了硬件加速。此外，在将LoRA应用于模型时，现有方法需要将LoRA分支合并到主分支并重新量化模型以避免LoRA分支中的巨大内存访问开销。Nunchaku通过 Kernel 融合切断了这种开销，使低秩分支作为单独的分支高效运行，无需重新量化。

低秩分解在深度学习领域受到了广泛关注，因为它可以提高计算和内存效率（Hu等人，2022年；赵等人，2024年；Jaiswal等人，2024年）。虽然直接将这种方法应用于模型权重可以降低计算和内存需求（Hsu等人，2022年；于等人，2023年；李等人，2023年c），但通常会导致性能下降。相反，Yao等人（2023年）将低秩分解与量化相结合用于模型压缩，使用低秩分支来补偿量化误差。低秩自适应（LoRA）（Hu等人，2022年）通过使用低秩矩阵来调整一组预训练权重的子集以实现有效的微调，从而开辟了另一项重要研究。这一方法催生了许多进展（Dettmers等人，2023年；郭等人，2024年；李等人，2024年c；何等人，2024年；许等人，2024年；Xu等人，2024年b），它们将量化模型与低秩 Adapter 相结合，在模型微调期间降低内存使用。然而，作者的工作有两个主要区别。首先，作者的目标不同，因为作者希望通过量化来加速模型推理，而以前的工作主要关注模型压缩或有效的微调。因此，他们主要考虑权重量化，导致没有加速。其次，如作者在实验（图6和第5.2节中的消融研究）中所见，直接应用这些方法不仅会降低图像质量，还会引入显著的额外开销。相比之下，作者的方法由于对权重和激活的联合量化以及推理引擎Nunchaku通过将低秩分支核融合到低位计算中而获得了更好的性能。

picture.image

3 Quantization Preliminary

量化是加速网络线性层的有效方法。给定张量，量化过程定义如下：

picture.image

在这里，是的低位表示，是缩放因子，是最大量化值。对于带符号位整数量化，。对于具有 1 位尾数和 2 位指数的 4 位浮点数量化，。因此，解量化的张量可以表示为。对于一个线性层，其输入为和权重，其计算可以近似为

picture.image

对于卷积层同样适用。为了加速计算，现代算术逻辑单元需要使用相同的位宽来同时处理和。否则，低位侧需要升级以匹配更高的位宽，这抵消了速度优势。遵循 QServe（Lin等人，2024b）的表示法，作者将位的权重表示为 WA。 "INT" 和 "FP" 分别表示整数和浮点数据类型。

在这项工作中，作者专注于W4A4量化加速，其中权值和激活值中的异常值给加速带来了巨大障碍。传统方法来抑制这些异常值包括量化感知训练（QAT）（He等人，2024年）和旋转（Ashkboos等人，2024年；Liu等人，2024年；Lin等人，2024b年）。QAT需要大量的计算资源，尤其是对于参数超过10亿的大型模型（例如，FLUX.1）。旋转不适用，因为扩散模型中使用了自适应归一化层（Peebles和Xie，2023年）。运行时生成的归一化权重阻止了旋转矩阵与投影层权值的离线集成。因此，在线旋转激活和权值会导致显著的运行时开销。

4 Method

在本节中，作者首先提出问题并讨论量化误差来源。接下来，作者提出SVDQuant，一种用于扩散模型的新的W4A4量化范式。作者的关键思想是引入一个额外的低秩分支，可以吸收权重和激活的量化困难。最后，作者提供一个与 Kernel 融合的协同设计推理引擎Nunchaku，以最小化4位模型中低秩分支的开销。

Problem Formulation

考虑一个线性层，其输入为，权重为。量化误差可以定义为

picture.image

翻译后的内容为：其中，表示 Frobenius 范数。

命题4.1（误差分解）。：量化误差可以分解如下：

picture.image

从命题中作者可以看出，误差被限制在四个元素中 - 权重和输入的模长 -

和

，以及它们各自的量化误差，

和

。为了最小化整体量化误差，作者旨在优化这四个术语。

SVDQuant: Absorbing Outliers via Low-Rank Branch

将异常值从激活值迁移到权重中。平滑（Xiao等人，2023年；Lin等人，2024a年）是一种有效的方法来减少异常值。作者可以通过缩放输入并相应地调整权重矩阵，使用每个通道的平滑因子对进行平滑。如图4（a）（c）所示，平滑后的输入具有减小的大小和更少的异常值，从而导致输入量化误差降低。然而，在图4（b）（d）中，变换后的权重在大小和存在异常值方面都显著增加，这反过来又提高了权重量化误差。因此，整体误差减少是有限的。

picture.image

吸收放大权重异常值使用低秩分枝。作者的核心思想是引入一个16位低秩分枝，并将权重量化困难进一步迁移到这个分枝。具体来说，作者将变换后的权重分解为, 其中和是两个秩为的低秩因子，是残差。然后，可以近似为

picture.image

与直接4位量化（即）相比，作者的方法首先在16位精度下计算低秩分支，然后使用4位量化近似残差。实验中，，通常设置为16或32。因此，低秩分支的额外参数和计算可以忽略不计，仅占总成本的。然而，仍需要仔细设计系统以消除冗余内存访问，作者将在第4.3节进行讨论。

从等式5中，量化误差可以表示为

picture.image

根据第4.1命题，由于

已经去除了异常值，作者只需关注

的模长，即

和其量化误差，即

的优化。

picture.image

首先，作者得到了一个直觉，即量化误差

是由残差

的幅度所限制的。因此，作者的目标是找到最优的

，使得

最小化，这个最优解可以通过简单的奇异值分解（SVD）得到。给定

的SVD，最优解是

和

。图5说明了原始权重

、变换后的权重

和残差

的奇异值分布。

原始权重

的奇异值分布非常不平衡。经过平滑后，变换后的权重

的奇异值分布变得更加尖锐，只有前几个奇异值显著较大。通过移除这些主导值，Eckart-Young-Mirsky定理8表明，残差

的大小将被显著减小，因为

，而原始大小

，其中

是变换后的权重

的第

个奇异值。此外，实际观察发现，与变换后的权重

相比，残差

的离群值较少，且压缩后的值范围显著减小，如图4(d)(e)所示。在实际应用中，作者可以通过迭代更新低秩分支，通过分解

并相应地调整

多次，然后选择最小误差的结果来进一步减小量化误差。

picture.image

Nunchaku: Fusing Low-Rank and Low-Bit Branch Kernels

尽管低秩分支在理论上的计算成本可以忽略不计，但将其作为单独的分支运行将产生显著的延迟开销--大约是4位分支延迟的50%，如图6(a)所示。这是因为，对于一个小秩r，尽管计算成本大大降低，输入和输出激活的数据大小保持不变，将 Bottleneck 从计算转移到内存访问。情况变得更糟，尤其是当激活无法放入GPU L2缓存。

例如，低秩分支的QKV投影的向上投影由于其输出超过可用的L2缓存而变得非常慢，导致额外的加载和存储操作到DRAM。幸运的是，作者观察到低秩分支的向下投影L1与低位分支的量化核共享相同的输入，而向上投影L2与4位计算核共享相同的输出，如图6(b)所示。

通过将向下投影与量化核融合和将向上投影与4位计算核融合，低秩分支可以与低位分支共享激活，消除额外的内存访问，并将 Kernel 调用数量减半。因此，低秩分支只增加了5%~10%的延迟，使其几乎免费。

5 Experiments

Setups

模型。作者使用以下文本到图像模型来评估作者的方法，包括UNet 和Dilated Backbone ：

FLUX.1 是基于 DiT 的开源扩散模型中的最先进版本。它包括 19 个联合注意力块和 38 个并行注意力块，总共拥有 120 亿个参数。作者在 50 步指导蒸馏（FLUX.1-dev）和 4 步时间步蒸馏的变体上进行评估。

PixArt-(Chen et al., 2024a) 是另一个基于 DiT 的模型。它没有使用联合注意力，而是堆叠了包含自注意力、交叉注意力和前馈层的 28 个注意力块，总共拥有 600M 个参数。作者在默认的 20 步设置上评估它。

稳定扩散XL（SDXL）是一种广泛使用的基于UNet的模型，参数数量为2.6亿（Podell等人，2024年）。该模型可以预测三种分辨率的噪声。最高分辨率阶段完全由ResBlocks（He等人，2016年）处理，而其他两个阶段则共同使用ResBlocks和注意力层。与PixArt-类似，SDXL也采用了交叉注意力层进行文本条件化。作者在30步设置下评估它，同时包括其4步浓缩变体，SDXL-Turbo（Sauer等人，2023年）。

数据集。 遵循先前的研究,作者在COCO Captions 2024（Chen等人，2015）中随机选择了 Prompt 语进行校准。为了评估作者的方法的一般化能力，作者采用了两种具有不同风格的 Prompt 集作为基准：

MHQ-30K（李等，2024a）包括来自Midjourney的30K个样本，分为10个常见类别，每个类别3K个样本。作者从这个数据集中均匀选择5K个 Prompt 来评估模型在艺术图像生成方面的性能。

密集标注图像（DCI）(Urbanek等，2024)是一个包含约8000张带有详细人机标注的图像的的数据集，平均每张图像有1000多字。在作者的实验中，作者使用摘要版（sDCI），其中标注被压缩为使用大型语言模型（LLMs）的77个 Token ，以容纳扩散模型。同样，作者随机选择5000个 Prompt 以进行现实图像生成的有效评估。

基准。作者将SVDQuant与以下PTQ（PTQ）方法进行比较：

4-bit NormalFloat (NF4)是一种用于仅量化权重（Dettmers等人，2023年）的数据类型。它假设权重遵循正态分布，并且是信息论上最优的4位表示。作者使用社区量化的NF4 FLUX.1模型（Lllyasviel，2024）作为基准。

ViDiT-Q (赵等，2024b) 通过每个token的量化和平滑（肖等，2023）来缓解不同批次和token之间的异常，并在PixArt-上实现了无损的8位量化。

MixDQ (赵等，2024c) 在文本嵌入的句子开头的 Token 中识别出异常值，并用16位预计算进行保护。这种方法在SDXL-Turbo上实现了高达W4A8的量化和几乎不降低性能。

TensorRT 包含一个行业级的 PTQ 工具包，可以将扩散模型量化到 8 位。它使用平滑技术，仅在选定的时间步长范围内使用百分位数方案校准激活值。

评价指标 参考之前的研究（Li等人，2022年；2024b年）（16位原模型产生的结果），作者主要评估图像质量和相似度。在图像质量评估中，作者使用弗雷歇斯 inception 距离（FID，越低越好）（Heusel等人，2017年）来衡量生成图像和真实图像之间的分布距离。此外，作者使用图像奖励（越高越好）（Xu等人，2024a年）来近似人类对生成图像的评分（LPIPS，越低越好）（Zhang等人，2018年）用于测量16位原模型的图像的感知相似性（PSNR，越高越好）。请参阅作者的附录B.1以获取更多评价指标（CLIP IQA（Wang等人，2023年）；CLIP得分（Hessel等人，2021年）和SSIM4）。

实现细节 对于8位设置，作者使用按词动态激活量化（per-token dynamic activation quantization）和按通道权重量化（per-channel weight quantization）以及低秩分支（low-rank branch）的秩为16。对于4位设置，作者采用对激活和权重都进行按组对称量化（per-group symmetric quantization）的方法，同时配合低秩分支（low-rank branch）的秩为32。INT4量化使用组大小为64，量级为16位的标度。FP4量化使用组大小为32，量级为FP8标度（Rouhani等人，2023）。对于FLUX.1模型，自适应归一化线性层中的输入保持为16位（即W4A16）。对于其他模型，交叉注意力中 Key和Value 投影在16位保留，因为它们的延迟仅占总运行时间的不到5%。

Results

作者报告了各种模型和精度 Level 下的定量质量结果，并在图7中展示了相应的4位定性比较。在所有模型中，作者的8位结果可以完美地反映16位结果，实现了比所有其他8位 Baseline 更高的PSNR（27）。在FLUX.1-dev上，作者的INT8 PSNR甚至达到了27分（MJHQ）。

picture.image

对于4位量化的FLUX.1，作者的SVDQuant在图像奖励方面超过了NF4 W4A16 Baseline 。在schnell变体中，作者的图像奖励甚至超过了原始BF16模型，这表明了人类偏好的强烈性。在PixArt-上，虽然作者的INT4图像奖励略有下降，但作者的FP4模型比FP16模型获得了更高的分数。这可能是由于PixArt-的小模型大小（600M参数）使其已经非常紧凑，并得益于较小的组大小。值得注意的是，作者的INT4和FP4结果在所有指标上明显优于ViDiT-Q的W4A8结果。对于基于UNet的模型，在SDXL-Turbo上，作者的4位模型显著超过了MixDQ的W4A8结果，且作者的FID分数与FP16模型相当，表明性能没有损失。在SDXL上，作者的INT4和FP4结果达到了与TensorRT的W8A8性能相媲美的质量，这代表了8位的最优水平。如图15所示，在附录中的图15，作者的视觉质量仅略有下降。

picture.image

内存节省与加速。 在图8中，作者报告了FLUX.1的模型大小、内存节省和加速情况。作者的INT4量化将原始 Transformer 大小从22.2 GiB减少到6.1 GiB，包括低秩分支的0.3 GiB开销，导致总体3.6倍减少。由于权重和激活值都进行量化，与仅对NF4权重进行量化的 Transformer 相比，作者的推理引擎Nunchaku甚至节省了更多的内存占用，并在桌面级和笔记本级NVIDIA RTX 4090 GPU上提供了3.0倍加速。值得注意的是，原始BF16模型在16GB笔记本电脑上的每一层都需要CPU卸载，而作者的INT4模型完全可以在GPU内存中运行，通过避免卸载实现了10.1倍加速。作者预计在NVIDIA下一代Blackwell GPU上的FP4量化模型将实现更大的加速，因为它们天生支持组量化，无需专门的GPU Kernel 。

picture.image

将LoRA集成到Nunchaku中。之前的量化方法需要将LoRA分支与低秩分支融合，并在融合LoRA时重新对模型进行量化。然而，作者的Nunchaku消除了冗余的内存访问，允许添加独立的LoRA分支。在实际应用中，作者可以通过稍微提高秩的方式，将LoRA分支融合到作者的低秩分支中，从而进一步提高效率。在图9中，作者展示了将五种不同风格（真实感、奇异天空插图、动漫、儿童素描和编织艺术）的LoRAs应用到作者的INT4 FLUX.1-dev模型中的视觉示例。作者的INT4模型成功适应了每种风格，同时保持了16位版本图像质量。更多视觉示例请参见附录B.2。

picture.image

在图10中，作者展示了SVDQuan在PixArt-上的几个消融实验。首先，仅使用SVD和Naive量化在4位设置下表现不佳，导致图像质量严重降低。尽管对量化进行平滑处理相对于Naive量化稍微提高了图像质量，但整体结果仍然不满意。LoRC（Yao等人，2023年）引入了一个低秩分支来补偿量化误差，但这种方法并非最优。量化误差呈现平滑的奇异值分布。因此，低秩补偿未能有效地减小这些误差，如第4.2节所述。相比之下，作者首先分解权重，仅量化残差。如图5所示，前几个奇异值显著大于其余的，使作者能够将它们转移到低秩分支，从而有效地减小权重大小。最后，平滑处理整合了离群点，进一步使低秩分支吸收激活中的离群点，从而显著提高图像质量。

picture.image

权衡增加秩的利弊。图11展示了在PixArt-Σ上使用SVDQuant的不同秩r的结果。将秩从16增加到64显著提高了图像质量，但增加了参数和延迟开销。在作者的实验中，作者选择秩为32，它提供了较好的质量，而开销较小。

picture.image

6 Conclusion & Discussion

在这项工作中，作者提出了一种新颖的4位PTQ范式SVDQuant，用于扩散模型。它采用低秩分支来吸收权值和激活中的异常值，从而简化量化的过程。作者的推理引擎Nunchaku进一步将低秩和低位分支核融合，减少内存使用并切断冗余数据移动开销。

大量实验表明，SVDQuant保持了图像质量。Nunchaku进一步实现了在原始16位模型上的内存使用减少3.5倍，并在NVIDIA RTX-4090笔记本上的仅量化权重实现3.0倍速度提升。这一进步使得大型扩散模型在边缘设备上的有效部署成为可能，解锁了交互式AI应用的更广泛潜力。

局限性。 在本研究中，作者没有报告作者的FP4模型的加速情况。这是因为作者没有访问Blackwell GPU，它们原生支持组量化所需的准确性和微缩。在Blackwell硬件上，作者预计与4090 GPU上的INT4结果相比会有更大的加速。

参考文献

[0]. SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

LoRA适配器无缝集成，创新4位量化技术，助力扩散模型在边缘设备上的高效部署 ！

1 Introduction

2 Related Work

3 Quantization Preliminary

4 Method

5 Experiments

6 Conclusion & Discussion