点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
Diffusion Transformer (DiT), 一种新兴的图像生成扩散模型, 已经展示了卓越的性能,但 却 遭受了巨大的计算成本。
作者的调查发现,这些成本源于不可避免的冗余计算,这种冗余计算出现在某些扩散时间步和空间区域。
为了应对这种低效性,作者提出了 Dynamic Diffusion Transformer (DyDiT) ,这是一种在生成过程中动态调整计算的架构,具体而言,作者引入了一种 Timestep-wise Dynamic Width (TDW) 方法,该方法根据生成时间步数动态调整模型宽度。
此外,作者还设计了一种 Spatial-wise Dynamic Token (SDT) 策略,以避免在不需要的空间位置上出现冗余计算。在各种数据集和不同大小的模型上的大量实验验证了 DyDiT 的优越性。
值得注意的是,在<3%的额外微调迭代次数下,作者的方法将 DiT-XL 的 FLOPs 减少了 51%,将生成速度提高了 1.73 倍,并在 ImageNet 上实现了 2.07 的 FID 分数。
代码公开在 https://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformer。
1 Introduction
扩散模型在视觉生成任务中展现出显著的优势。最近,Transformer 的惊人可扩展性导致了Diffusion Transformer(DiT)(Peebles & Xie,2023年)的日益崛起。DiT在各种生成任务中展现出强大的潜力,被认为是Sora(Brooks等人,2024年)的发展的基础组件,Sora是视频生成的先锋模型。
与其他视觉和语言领域的Transformer 一样,DiT在生成过程中面临着显著的效率挑战。
现有的提高DiT效率的方法包括高效的扩散采样器和全局加速技术。此外,通过模型压缩技术在DiT架构内减少计算冗余,如结构剪枝,也显示出巨大的潜力。
然而,剪枝方法通常在扩散过程中保持 静态 的架构,即在 时间步 和 空间维度 上始终保持不变。如图1(c)所示,原始的DiT和剪枝后的DiT在所有扩散时间步和所有图像块上均采用固定模型宽度,并将相同的计算成本分配给每个图像块。
这种静态推理范式忽视了不同时间步和空间区域之间的不同复杂性,导致显著的计算效率低下。为了更详细地探索这种冗余性,作者对DiT的训练过程进行了分析,该过程旨在优化一个噪声预测任务。作者的分析产生了两个关键见解:
b) 视角: 作者在图1(b)中绘制了预训练小型模型(DiT-S)和更大模型(DiT-XL)之间的损失值差异。结果表明,当时,损失差异显著减小,甚至当接近先验分布()时,损失值接近可忽略的水平。这表明预测任务在后续时间步逐渐变得更容易,甚至可以由一个较小的模型有效管理。然而,DiT在所有时间步都采用相同的架构,导致在任务复杂度较低的时间步上产生过高的计算成本。
b) 空间视角:作者观察到图1(b)中的损失图在图像的不同空间区域之间存在显著的不平衡。主要物体的对应区域损失值较高,而背景区域对应的区域的损失值相对较低。这表明噪声预测的难度在不同空间区域有所不同。因此,对所有区域进行统一的计算处理可能会引入冗余,并可能是次优的。
根据上述洞察,一种有望提高DiT计算效率的方法是动态计算。为此,作者提出了一种 Dynamic Diffusion Transformer (DyDiT),该方法在生成过程中适当地分配计算资源,如图1(c)所示。
具体而言,从时间步的角度来看,作者引入了一个 Timestep-wise Dynamic Width (TDW) 机制,其中模型根据当前的 timestep 学习调整注意力和MLP块的宽度。从空间的角度来看,作者开发了一种 Spatial-wise Dynamic Token (SDT) 策略,该策略识别出噪声预测相对较易的图像块,允许它们跳过计算密集的块,从而减少不必要的计算。
值得注意的是,TWD和SDT都是即插即用的模块,可以轻松地部署在DyDiT上构建DyDiT。此外,作者的方法由于硬件友好的设计,实现了显著的速度提升:
1)每个时间步的模型架构可以在离线时预先确定,消除了额外的宽调整开销,实现了高效的批处理(第3.2节);
2) Token 收集和分散操作的计算开销最小,实现起来也相对简单(第3.3节)。这种硬件效率使得作者的方法与传统动态网络区分开来,后者为每个样本调整其推理图,并在批处理推理中难以提高实际效率。
作者在多个数据集和模型规模上进行了广泛的实验来验证所提出方法的有效性。例如,与静态的DiT-XL相比,作者的DyDiT-XL将FLOPs减少了51%,并将生成速度提高了1.73倍,同时保持了在ImageNet(256x256)上的竞争FID分数2.07(Deng等,2009)。
当与高效的采样器(如DDIM,Song等人,2020a)和DPM Solver++(Lu等人,2022)结合时,作者的方法在进一步提高效率方面具有潜力,或者与全局加速技术(如DeepCache,Ma等人,2023)结合。作者预计DyDiT将在开发更高效扩散 Transformer 方面激发未来的研究。
高效扩散模型。尽管扩散模型在生成任务中取得了显著的性能,但其生成速度一直阻碍了它们的进一步应用,主要原因是采样步长过长和计算成本高。现有尝试使扩散模型高效的方法可以大致分为基于采样器的方法、基于模型的方法和全局加速方法。基于采样器的方法旨在减少采样步长。基于模型的方法或量化来压缩扩散模型的尺寸。全局加速方法如Deepcache(Ma等人,2023年)倾向于在不同时间步长之间重用或共享某些特征。
作者DyDiT主要与基于模型的方法相关,与其他两种工作线平行。然而,与产生_静态架构_的剪枝方法不同,DyDiT在不同扩散时间步和图像 Token 上执行动态计算。
动态神经网络。与静态模型相比,动态神经网络可以根据输入自适应其计算图,从而实现性能和效率之间的优越权衡。它们通常通过在推理过程中调整网络深度或宽度来实现动态架构。一些工作探索了图像识别的空间冗余性。尽管它们的理论效率具有前景,但现有的动态网络在批量推理(Han等人,2023b)期间通常难以实现实际效率,因为每个样本的推理图。此外,动态架构在扩散模型(引入了“时间步”维度)中的潜力尚未得到探索。
本工作将动态网络的研究扩展到图像生成领域。更为重要的是,作者的TDW仅根据_timesteps_调整网络结构,避免在批处理推理中出现样本相关的张量形状。
结合SDT高效的 Token 收集和分散机制,DyDiT展现出优化的实时效率。
3 Dynamic Diffusion Transformer
首先,在第3.1节中,作者概述了扩散模型和DyDiT(Peebles和Xie,2023)。接下来,在第3.2和3.3节中,作者介绍了DyDiT的逐步动态宽度(TDW)和空间动态 Token (SDT)方法。
Preliminary
扩散模型通过一系列扩散步骤从随机噪声中生成图像。
这些模型通常由一个正向扩散过程和一个反向去噪过程组成。在正向过程中,给定来自数据分布的图像,在个步骤中逐步添加高斯噪声。
这个过程定义为,其中和分别表示时间步和噪声计划。在反向过程中,模型从噪声中去除并从重构,使用,其中和分别表示高斯分布的均值和方差。
Diffusion Transformer (DiT) (Peebles和Xie, 2023)展示了Transformer (Brooks等人, 2024)的扩展性和良好性能。与ViT (Dosovitskiy等人, 2020)类似,DII由多头自注意力(MHSA)块和多层感知机(MLP)块组成。定义为:, 其中表示图像 Token 。在这里,是 Token 的数量,是通道维度。参数由自适应层范数(adaLN)块(Perez等人,2018)生成,该块的输入是类条件嵌入和时间步嵌入。
Timestep-wise Dynamic Width
正如所提到的,DiT在不同的时间步上花费相同的计算时间,尽管并非所有步骤都具有相同的生成难度(图1(a))。因此,静态计算范式在那些“容易”的时间步上引入了显著的冗余。受结构剪枝方法的启发,作者提出了一种_时间步动态宽度_(TDW)机制,该机制在不同的时间步上调整MHSA和MLP块的宽度。
需要注意的是,TDW并不是一种永久删除特定模型组件的剪枝方法,而是保留DiT的全部容量,并在每个时间步上动态激活不同的头/通道组。
Head 和通道组。给定输入 , MHSA 块使用三个线性层 将它分别映射到 Q, K, 和 V 特征。在这里, 表示 Head 数量,而在 DIT 中,。使用另一个线性层 进行输出投影。传统的 MHSA 的操作可以表示为:
MLP块包含两个线性层,权重分别为和,其中表示隐藏通道数,默认为4C。为了动态控制MLP的宽度,作者将个隐藏通道分成组,将权重重新表示为和,其中。因此,MLP的操作可以表示为:
动态宽度控制基于时间步长。在每个块中,作者将时间步长嵌入输入到路由器和(图2(a))中,以动态激活每个扩散时间步长处的头和通道组。每个路由器包括一个线性层和Sigmoid函数,分别产生每个头和通道组被激活的概率:
0.5作为阈值,将连续值量的和转换为二进制 Mask 和,表示注意力头和通道组的激活决策。第个头(组)只在()时激活。得益于分组操作,路由器引入的参数和计算可以忽略不计。
在获得离散决策 和 之后,每个 DyDiT 块在生成过程中只计算激活的 Head 和通道组:
令 和 分别表示激活的head/group的数量。TWD将MHSA计算从 减少到,并将MLP块从 减少到。
值得注意的是,由于激活选择仅取决于时间步长,作者可以在训练完成后离线预计算 Mask ,并在部署之前预定义激活的网络架构。
Spatial-wise Dynamic Token
除了时间步长维度外,由于不同 Patch (Figure 1(b))的复杂性变化,空间维度中的冗余性广泛存在。为此,作者提出了一种空间感知动态 Token (SDT)方法,以减少噪声估计为“容易”的 Patch 的计算量。
绕过MLP块。如图2(b)所示,SDT自适应地识别出与图像区域相关的 Token ,这些 Token 的噪声预测难度较低。然后允许这些 Token 绕过计算密集的MLP块。
从理论上讲,这种块跳过操作可以应用于MHSA和MLP。然而,作者发现MHSA对于建立 Token 之间的相互作用至关重要,这对于生成质量至关重要。更为关键的是,在MHSA中,不同图像中的 Token 数量可能不完全相同,导致批量中的张量形状不完整,从而降低生成的整体吞吐量。
因此,SDT仅在每个层的MLP块中应用。
具体来说,在每次MLP块之前,作者将输入输入到 Token 路由器中,该路由器预测每个 Token 被处理的概率。这可以表述为:
然后,作者使用0.5的阈值将之转换为二进制 Mask 。 Mask 中的每个元素 表示第i个 Token 是否应该由块处理(如果 )或者直接跳过(如果 )。路由器参数在不同层之间是不共享的。
推理(图2(b))阶段,作者根据 Mask 收集 Token 化的 Token ,并将其输入到MLP中,从而避免为其他 Token 不必要的计算成本。然后,作者采用散射操作来重新定位处理后的 Token 。这进一步将MLP块的计算成本从降低到,其中表示实际需要处理的 Token 数量。由于MLP内部没有 Token 交互,SDT操作支持批量推理,从而提高实际生成效率。
FLOPs-aware end-to-end Training
以下是作者首先介绍了端到端训练的详细信息,然后是用于控制DyDiT计算复杂度和稳定微调的技术的损失设计。
端到端训练。 在TWD中,作者在训练时将和与相应的特征(和)相乘以零,以分别消融不激活的head和channel组。同样,在SDT中,作者将与相乘,以使应该由MLP处理的分词不再激活。直线路径估计器(Bengio等人,2013年)和Gumbel-Sigmoid(Meng等人,2022年)被用来实现路由器的端到端训练。
利用FLOPs约束的损失进行训练。作者设计了一种FLOPs约束损失,以控制生成过程中的计算成本。由于总时间步数T很大(例如T=1000),在T个时间步内获得整个计算图是不切实际的。
幸运的是,在训练过程中,批量中的时间步是从t~Uniform(0,T)中采样的,这大约覆盖了整个计算图。作者制定了FLOPs约束损失:
λ 是超参数,表示目标 FLOPs 比,t_b 均匀地从区间 [0,T] 中采样。总体训练目标将这个 FLOPs 约束损失与原始 DiT 训练损失相结合,表示为 L = L_DiT + L_FLOPs。
微调稳定性。在实际应用中,作者发现直接使用 微调 DyDiT 可能会偶尔导致训练不稳定。为解决这个问题,作者采用了两种稳定技术。首先,在 Warm up 阶段,作者使用与 Diffusion 目标相同的完全 DiT 模型进行监督,同时引入一个额外的项目 以及 。在这个阶段之后,作者移除这个项目,仅使用 进行训练。
此外,在微调之前,作者根据幅度标准(He 等,2017)对 MHSA 和 MLP 块中的 Head 和隐藏通道进行排名。作者在 TDW 中始终选择最重要的 Head 和通道组。
这确保了在所有时间步长上,每个 MHSA 和 MLP 块中至少有一个 Head 和通道组被激活,从而减轻了训练的不稳定性。
4 Experiments
实现细节:作者的DyDiT可以通过微调预训练的DiT权重轻松构建。作者在三个不同大小的DiT模型上进行实验,分别表示为DiT-S/B/XL。对于DiT-XL,作者直接采用来自DiT仓库的预训练权重(Peebles和Xie,2023),而对于DiT-S和DiT-B,作者使用Pan等人(2024)提供的预训练模型。
所有实验均在具有8个NVIDIA A800 80G GPU的服务器上进行。有关模型配置和训练设置的更多详细信息遵循DiT(Peebles和Xie,2023)的设置,无分类器引导的强度(Ho和Salimans,2022)分别设置为1.5和4.0进行评估和可视化,分别使用250个DDPM(Ho等人,2020)采样步骤。所有速度测试均在NVIDIA V100 32G GPU上进行。
数据集 遵循DiT(Peebles和Xie,2023)的协议,作者主要在ImageNet(Deng等,2009)上的256×256分辨率上进行实验。为了全面评估作者的方法,作者还评估了Xie等人(2023)使用的四个细粒度数据集(Food(Bossard等,2014)、Arrbench 、Cars,2011))上的性能和效率。作者在这些数据集上分别进行了域内微调和跨域迁移学习实验。这些数据集上的图像也被重新缩放到256×256分辨率。
首先,作者遵循先前的研究,使用ADM的TensorFlow评估套件(Dhariwal和Nichol,2021)从50000张图像中选取样本,以测量Frechet Inception Distance(FID)(Heusel等人,2017)得分。同时,报告了Inception Score(IS) 和Prevision-Recall 作为补充。粗体字体和下划线分别表示最佳和次佳性能。
Comparison with State-of-the-Art Diffusion Models
在表1中,作者将作者的方法与其他代表性的扩散模型进行了比较,包括ADM,LDM,U-ViT(Bao等人,2023年),DiffuSSM(Yan等人,2024年),DiM(Teng等人,2024年),以及DiT(Peebles和Xie,2023年),在图像生成上的比较。
除作者的方法外,所有其他方法都采用静态架构。DyDiT-XL是根据DiT进行微调的,微调次数少于3%,以适应动态架构。
值得注意的是,作者的模型DyDiT在不到50%的计算量(FLOPs)下实现了2.07的FID分数,超过了其对比模型DiT-XL,显然表现更好。这验证了作者的方法可以有效减少DiT中的冗余计算,同时保持生成性能。通过将其生成速度提高了1.73倍(详细见附录B.1),将目标FLOPs比例从0.5增加到0.7,DyDiT在大多数指标上实现了与DiT-XL竞争的性能,并获得了最佳的IS分数。
这种改进可能是由于DyDiT的动态架构,相比静态架构提供了更大的灵活性,允许模型在生成过程中针对每个时间步和图像块进行特定处理。在约80G FLOPs的情况下,作者的DyDiT方法显著超过了U-ViT-L/2和DiT-L,进一步验证了动态生成范式的优势。
Comparison with Pruning Methods
基准测试。 提出的时步动态宽度和空间动态 Token 分别从模型架构和 Token 冗余的角度提高了效率。为了评估作者方法的优势,作者将作者的方法与代表性的静态结构和 Token 压缩技术进行比较。关于这个实验的更多细节可以在附录A.3中找到。
基于剪枝的方法。作者将Diff pruning Fang等人(2024)纳入比较,这是一种基于泰勒的剪枝方法,专门针对扩散过程进行优化,并在具有U-Net(Ronneberger等人,2015)架构的扩散模型上表现出优越性(Fang等人,2024)。遵循Fang等人(2024)的方法,作者还包括随机剪枝、幅度剪枝(He等人,2017)和泰勒剪枝(Molchanov等人,2016)在比较中。作者采用这四种剪枝方法来区分DiT中的重要头和通道,并将其移除以减少模型宽度。
Token merging. 作者还将作者的方法与无训练的Token裁剪技术进行比较,ToMe (Bolya等人,2022年),该技术通过自适应的Token合并逐步裁剪每个视觉Transformer(Dosovitskiy等人,2020年)层中的Token。其增强版(Bolya和Hoffman,2023年)还可以加速基于U-Net结构的扩散模型,例如Stable Diffusion Rombach等人(2022年)。作者在DiT的每个层中直接应用增强版。
结果。作者在图3中给出了S、B和XL大小模型的FLOPs-FID曲线。在不同的尺寸下,DyDiT显著优于所有类似的或甚至FLOPs更低的剪枝方法,突显了自注意力模型动态架构在扩散 Transformer 中的优越性。
有趣的是,在大规模剪枝(Magnitude pruning)在DiT-S和DiT-B上的表现稍微优于结构剪枝技术,而差异剪枝(Diff pruning)和泰勒剪枝(Taylor pruning)在DiT-XL上的表现更好。这表明不同大小的DiT有不同的剪枝标准。尽管ToMe(Bolya和Hoffman,2023)成功加速了U-Net模型,且性能损失可接受,但将其应用于DiT会导致性能下降,正如Moon等人(2023)所观察到的那样。
作者猜想,由于U-Net结构中存在卷积层和长程 Shortcut ,因此在DiT中由分词合并引入的错误变得不可恢复。
随着模型大小的增加,DyDiT和DiT之间的性能差距逐渐减小。具体来说,DyDiT-S在时,其FID与原始DiT相当;而DyDiT-B在较低的FLOPs比(如)下实现了这一点。
当扩展到XL时,DyDiT-XL在时,其FID略有改善。这要归因于大型模型中的计算冗余,使得作者的方法在不降低FID的情况下减少冗余。这些结果证实了作者的方法的可扩展性,这在大型模型时代尤为重要,鼓励未来继续探索更大的模型。
Results on fine-grained datasets
定量结果。 作者进一步在域内微调设置下,将作者的方法与结构剪枝和 Token 剪枝方法在细粒度数据集上进行比较,其中DiT最初在相应的数据集上预训练,然后在该数据集上进行微调以进行剪枝或动态适应。详细的实验设置参见附录A.4。结果汇总在表2中。使用预定义的FLOPs比例λ=0.5,作者的方法显著降低了计算成本并提高了生成速度,同时保持了与原始DiT相当的表现水平。为确保公平比较,作者将剪枝方法的宽度剪枝比例设置为50%,以实现相似的FLOPs。
在结构剪枝技术中,幅度剪枝表现出相对较好的性能,然而DyDiT始终以显著的优势超过它。使用20%的合并比例,ToMe也加快了生成速度,但牺牲了性能。正如所提到的,由于缺乏卷积层和 Shortcut ,将ToMe应用到DiT上是不最佳的。
定性可视化。图4展示了DyDiT-S在细粒度数据集上生成的图像,与原始或剪枝的DiT-S产生的图像进行了比较。这些定性结果表明,作者的方法在保持FID分数的同时,生成了与DiT-S质量相当的图像。
跨域迁移学习。 将预先训练好的模型转移到下游数据集是利用预训练模型的一种常见方法。在本实验中,作者将预先在ImageNet上训练好的模型微调,用于在目标数据集上进行跨域自适应,同时学习动态架构,得到了DyDiT-S!在表2中。更多详细内容参见附录A.5。
作者可以观察到,在跨域迁移学习过程中学习动态架构不会损害性能,甚至比DyDiT-S的略好平均FID分数。这进一步扩大了作者的方法的应用范围。
Ablation Study
主要组件。 首先,作者进行实验来验证作者的方法中每个组件的有效性。作者将结果汇总到表3中。"I"和"II"分别表示仅使用提出的时步动态宽度(TDW)和空间动态 Token (SDT)的DiT。作者可以发现,"I"的性能优于"II"。这可以归因于,当目标FLOPs比例λ设置为0.5时,大部分"II"中的 Token 需要绕过MLP块,只留下MHSA块来处理 Token ,这显著影响了性能(Dong等人,2021年)。"III"表示结合TDW和SDT的默认模型,比"I"和"II"实现了明显更好的性能。在计算预算有限的情况下,TDW和SDT的组合允许模型从时间和空间两个角度发现计算冗余。
路由器在时间相关动态宽度的作用。在TDW中,路由器会根据每个时间步长自适应调整每个模块的模型宽度。将可学习的路由器替换为随机选择,导致“I (随机)”,则在所有数据集上导致模型崩溃。这是因为头和通道组的随机激活,这阻碍了模型生成高质量图像的能力。
作者还尝试了一种由人工设计的方法,称为“I (手动)”,其中作者分别在每个时间段[0, 1/T],[1/T, 2/T],[2/T, 3/4T],和[3/4T, T]中激活5/6,1/2,1/3,1/3个头和通道。这导致平均FLOPs减少了约50%。由于这种策略与图1(a)中的观测一致,并将更多的计算分配给接近0的时间步,因此“I (手动)”明显优于“I (随机)”。然而,它并未超越“I”,强调了学习路由器的重要性。
作者还探索了一种替代设计来执行 Token 跳过。具体来说,每个 MLP 块采用路由器来确定图像中的所有 Token 是否应该跳过该块。这种修改使得 SDT 成为了一种层跳过方法(Wang 等人,2018)。作者在“III”中用这种设计替换 SDT,结果在表3 中得到了“III (层跳)”。
如第 1 节所述,图像的不同区域在噪声预测方面面临不同的挑战。统一的 Token 处理策略无法有效地解决这个问题。例如,来自复杂区域的 Token 可能会跳过关键块,导致噪声预测不理想。
Visualization
学习分步动态策略。图5显示了在250步DDPM生成过程中头和通道组的激活模式。在整个过程中,TWD随着从噪声到图像的转变,逐步激活更多的MHSA头和MLP通道组。如第1节所述,生成越接近噪声(较大的)时,预测越简单,而接近图像(较小的)时,预测变得越来越困难。作者的可视化结果证实了这一观察,表明模型在更复杂的时步上分配更多的计算资源。
值得注意的是,MLP块的激活率在和时超过了MHSA块的激活率。这可以归因于空间动态 Token (SDT)中的 Token 跳过操作,该操作减少了MLP块的计算负载,使TWD能够以最小的计算开销激活额外的通道组。
空间上动态的 Token 适应计算成本在每个图像块上。作者在图6中量化并归一化生成过程中不同图像块上的计算成本,范围从[0, 1]。这些结果证实了作者的SDT有效地学会了根据图像块的复杂性调整计算成本。SDT优先考虑包含详细和多彩主要目标的具有挑战性的块。
相反,它将较少的计算分配给由均匀和连续颜色特征的背景区域。这种行为与作者图1(b)中的发现相符。
Compatibility with Other Efficient Diffusion Approaches
结合高效的采样器。作者的DyDiT是一种可以无缝集成如DDIM(Song等人,2020年)和DPM-solver++(Lu等人,2022年)等高效采样器的通用架构。如表4所示,在采用50步DDIM时,DiT-XL和DyDiT-XL的生成速度显著加快,而由于其动态计算范式,作者的方法始终能够实现更高的效率。
当作者进一步将采样步骤减少到20和10,与DPM-solver++一起使用时,作者观察到所有模型上的FID增加,而作者的方法仍与原始DiT相比具有竞争力的性能。这些发现强调了将作者的方法与高效采样器集成的前景,为未来研究提供了一个有前景的方向。
与全局加速相结合。DeepCache (Ma等人,2023年) 是一种无需训练即可全局加速生成的技术,通过在特定时间步长处缓存特征图并在随后的时间步长中重用它们来实现。如表5所示,缓存间隔为2时,DyDiT仅具有微小的性能下降,实现了进一步的加速。
相比之下,使用DeepCache的DiT需要更长的间隔(例如5)才能达到与作者的速度相当的性能,导致FID分数较低。这些结果证明了与DeepCache相结合的作者方法的可兼容性和有效性。
5 Discussion and Conclusion
在这项研究中,作者研究了Diffusion Transformer(DiT)的训练过程,并确定了与特定扩散时间步和图像块相关的显著计算冗余。为此,作者提出了一种可自适应调整不同时间步和空间区域计算分配的动态Diffusion Transformer(DyDiT)架构。
在各种数据集和模型大小的广泛实验中,验证了DyDiT的有效性。作者预计,所提出的方法将促进基于 Transformer 的扩散模型的发展。
局限性和未来工作。与DiT类似,提出的DyDiT目前主要关注图像生成。在未来的工作中,DyDiT可以进一步探索应用于其他任务,如视频生成(Ma等人,2024年)和可控生成(Chen等人,2024年)。
[0]. Dynamic Diffusion Transformer.
点击上方卡片,关注 「AI视界引擎」 公众号