备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
尽管UNet基础的图像编辑方法近年来取得了进步,但在高分辨率图像中进行形状感知目标编辑的方法仍然缺乏。与UNet相比,扩散 Transformer (DiT)在捕捉 Patch 之间的长程依赖关系方面具有优越能力,从而实现更高质量的图像生成。
在本论文中,作者提出DiT4Edit++,这是第一个基于扩散 Transformer 的图像编辑框架。具体而言,DiT4Edit使用DPM-Solver反向算法获取反向潜在,与UNet基框架中通常使用的DDIM反向算法相比,所需的步骤较少。
此外,作者设计了一致注意力控制和 Patch 合并,专为 Transformer 计算流设计。这种集成使得作者的框架能够更快地生成高质量编辑图像。作者的设计利用了DiT的优势,使其在图像编辑中超越UNet结构,尤其是在高分辨率图像和任意大小图像中。
大量实验证明了DiT4Edit在各种编辑场景下的强大性能,突显了扩散 Transformer 在支持图像编辑方面的潜力。
1 Introduction
近年来,扩散模型的最新进展在文本驱动的视觉生成领域取得了显著的进步。例如,Stable Diffusion(SD) 、DALL-E 3 和PixArt[2]等文本到图像(T2I)模型的开发,对许多下游应用产生了重大影响,其中图像编辑是最具挑战性的任务之一。对于合成或真实输入图像,图像编辑算法旨在根据用户的意图,添加、删除或替换整个目标或目标属性。
文本驱动图像编辑的一个主要挑战是保持源图像和目标图像的一致性。早期的方法通常依赖微调扩散模型来解决这个问题。然而,这些方法通常需要大量的时间和计算资源,限制了它们的实际应用性。最近的方法通常使用DDIM[23]反向获取潜在图,然后控制扩散模型中的注意力机制进行真实图像编辑。然而,编辑后图像的一致性严重依赖于DDIM反向过程的可逆性。尽管有一些工作关注优化这个过程以获得更好的结果,但编辑框架仍然依赖于太多的时间步数。
此外,当前图像编辑任务的研究主要采用基于 UNet 的扩散模型结构[13]。这使得最终的编辑结果受到UNet生成能力的限制。尽管UNet中的注意力机制也源自 Transformer ,但基于纯 Transformer 的DiT[20]提供了一种在块之间进行全局注意力计算的方法,使得它们能够捕捉比具有卷积块的UNet更广泛和更详细的特征,从而产生更高质量的图像。此外,DiT的证据表明,基于 Transformer 的扩散模型具有更好的可扩展性,在大规模实验中优于UNet基模型。
为了应对这些挑战,作者研究了使用扩散 Transformer 架构的图像编辑任务,并为未来研究提供了有价值的实证 Baseline 。首先,作者旨在利用需要较少反向步骤的解算器来减少作者的推理时间,同时保持结果的质量。具体来说,作者采用了一种基于高阶DPM-Solver[11]的反向算法来获得更好的潜在图,所需的步骤更少。然后,作者实现了一个统一的注意力控制方案,用于文本引导图像编辑,同时保留背景细节。
第三,为了降低与UNet相比扩散 Transformer 的计算复杂性,作者使用块合并来加速计算。通过集成这些关键组件,作者引入了DiT4Edit,这是作者所知的第一个基于扩散 Transformer 的编辑框架。实验表明,作者的框架在更少的推理步骤下实现了卓越的编辑结果,并相对于传统的基于UNet的方法具有独特的优势。
总结一下,作者的贡献如下:
- 基于 Transformer 基础的扩散模型在图像编辑中的优势,作者提出了 DiT4Edit,这是首个无需调优的基于扩散 Transformer (DiT)的图像编辑框架。
- 为了适应基于 Transformer 的去噪机制,作者首先提出了一种统一的注意力控制机制来实现图像编辑。然后,作者引入了DPM-Solver反向和 Patch 合并策略,以减少推理时间。
- 广泛定量和定性结果证明了DiT4Edit在目标编辑、风格编辑和形状感知编辑方面的优越性能,适用于各种图像大小,包括、和。
2 Related Work
Text-to-Image Generation
自Dosovitskiy等人引入视觉 Transformer (ViT)并强调 Transformer 架构在图像任务中的潜力以来,基于 Transformer 的视觉应用层出不穷,包括高分辨率图像合成。在扩散模型出现之前,研究行人主要依赖生成对抗网络(GAN)进行图像合成。张等人开发了一个单流生成器,可以生成高分辨率图像,而梁等人(Liang等人,2020年)通过集成记忆自注意力文本编码器和目标感知图像编码器,提高了文本到图像合成的性能。随后,Ho等人提出的去噪扩散概率模型(DDPMs)实现了重大突破,在图像质量、可控性和多样性方面取得了突破。基于扩散的模型设计和应用可以分为可控制生成、风格化和质量改进等任务。
Dhariwal等人引入了一种分类器指导方法,以提高扩散模型的生成质量,而杨等人(Yang等人,2024年)使用CLIP潜在值在文本到图像生成任务中生成与人类预期高度一致的实时图像。在最近的文本到图像生成任务中,ControlNet 允许用户指定的条件信息集成到图像生成过程中。同时,ScaleCrafter解决了扩散模型生成过程中卷积层感知受限的问题,使得可以生成更高分辨率和更高质量的图像。此外,这些T2I模型还推动了视频生成和编辑应用系列的发展。
Interactive Image Editing
图像编辑涵盖了迭代生成、协作创建和图像修复等场景。研究主要关注在深度潜在结构中解耦高级概念和低级风格,以提高扩散模型在内容编辑(细节控制)、风格迁移[15]和文本反转[16]等任务上的性能。与其他生成模型相比,扩散模型在图像生成过程中提供了增强的可控性,允许精确操纵图像属性。这些优势使得扩散模型在图像编辑任务上取得了卓越的性能。赫兹等人[1]引入了一个通过文本 Prompt 进行图像编辑的框架,通过修改、添加和调整交叉注意力图的权重,将原始图像转换为目标图像。
方法如InstructPix2Pix[1]和Custom Diffusion[19]采用了用户引导的方法实现图像编辑。这些技术可以通过输入各种类型的引导 Prompt 进行修改,使扩散模型能够迅速适应新概念。参数等人[10]利用pix2pix-zero来解决在图像编辑过程中保持原始结构同时包含用户指定的变化的挑战。尽管在利用扩散模型进行图像编辑方面已经取得了显著的进步,但这些现有的图像编辑尝试仍然受限于UNet的预训练生成能力。与基于UNet的扩散模型相比,DiT更具可扩展性,并且具有更简洁的架构,但DiT在图像编辑中的应用仍然有待探索。
3 Methodology
作者提出的框架旨在基于扩散 Transformer 实现各种尺寸的高质量图像编辑。作者的方法是基于预训练文本到图像 Transformer 基础上的第一个编辑策略,例如 PIXART-α[1]。通过作者的方法,用户可以通过提供目标 Prompt 实现比现有基于UNet的方法更好的编辑结果。在本节中,作者首先介绍了潜在扩散模型和DPM反演。然后作者阐述了基于 Transformer 的图像去噪在图像编辑任务中的优势。最后,作者讨论了作者的编辑框架的实现细节。
Preliminaries: Latent Diffusion Models
潜在扩散模型(LDM)[12]提出了一种图像生成方法,该方法在潜在空间中包含去噪过程。具体来说,它使用预训练的图像编码器将输入图像编码为低分辨率潜在值。
在训练过程中,模型通过在文本 Prompt 嵌入和当前图像样本(在步骤处为的噪声样本)的条件下优化去噪UNet ,去除人工噪声:
经过训练后,它能够通过学习的去噪过程将随机噪声转换为图像样本。
在扩散概率模型(DPMs)的逆阶段,一个干净的图像 逐步添加高斯噪声并转换为一个嘈杂的样本 :
当 是信噪比(SNR)时,它是一个严格递减的函数,其值随时间 的增加而减小[13]。通过求解扩散偏微分方程,DPM 采样可以比其他方法更快:
在论文中,,且,[13]。在[13][14]的前期工作中,证明了使用指数积分器作为ODE解算器在求解方程3时,相比传统解算器表现出更快的收敛速度。通过设定的值,可以通过以下方式计算方程3的解:
随着t的增加, 是一个递减函数,其反函数为 。最近的研究表明,DPM-Solver可以在10-20步内采样出真实的图像。
Diffusion Model Architecture
PIXART-α. 与UNet结构相比,Diffusion Transformers(DiT)[16]在可扩展性方面具有优势,生成更高质量的图像并展现出更好的性能。
PIXART-α是一种基于Transformer的文本到图像(T2I)扩散模型,由三个主要部分组成:交叉注意力层、AdaLN-single和重参化。[1] 研究行人使用三种复杂的训练策略:分解训练策略、高效的T2I Transformer 和具有高信息量的数据来训练此T2I扩散模型。许多实验结果表明,PIXART-α在图像质量、艺术性和语义控制方面表现更好。与先进的T2I SOTA模型相比,PIXART-α具有更快的训练速度、更低的推理成本和卓越的综合性能。在本文中,作者将PIXART-α作为作者提出的图像编辑方法的 Baseline 。
采用Transformer作为去噪模型的原因。与UNet结构相比,Transformer内置了全局注意力机制,使得模型可以关注图像的更广泛范围。这种增强的可扩展性使得Transformer能够在大型图像(例如大于)上生成高质量图像,甚至可以任意大小。作者基于DiT的去噪框架的编辑结果如图1和2所示。这些代表了UNet基础框架未解决过的编辑任务。因此,作者采用基于Transformer的去噪模型作为作者的编辑框架,利用Transformer的能力来解决这些更复杂的编辑挑战。
### Diffusion Transformer-based Image Editing
在本节中,作者介绍了作者提出的DiT4Edit的组成部分。如图2所示,基于预训练的扩散 Transformer ,作者的图像编辑框架的流水线如下。
DPM-Solver反演 如前所述,使用高阶DPM-Solver(例如DPM-Solver++)可以有效提高采样速度。为了近似方程4中的积分项,给定在时间处的,利用在处的泰勒展开,并使用DPM-Solver++,作者可以在时间处得到精确的解值:
尤其是当时,等式5相当于DDIM抽样器[20]。
在实际应用中,通常设置 ,可以实现快速的推理并最小化离散化误差。这种名为DPM-Solver++(2M)[17]的DPM求解器:
2M 表示此解算器是一个二阶多步解算器。
然而,在诸如DPM-Solver++(2M)等高阶采样器的高阶阶段,为了在当前时间步长中得到反演结果,作者需要对等式5中的估计项和分析计算项在先验时间步长如中的值进行近似。
最近的一项工作[16]提出了一种通过反向欧拉法来获取方程8的高阶项近似策略如下:
然后,在当前时间步,作者可以通过以下公式得到反向潜在值 :
其中, 是去噪模型, 是通过DDIM反向估算得到的值, 是通过DDIM反向估算得到的()的值,.
其中 。在 DiT4Edit 中,作者使用 DPM-Solver++ 反向策略从输入图像 获得编辑任务的反向潜在。
此外,这种技术在以前基于 UNet 的图像编辑方法中并未使用。此外,作者观察到在没有使用 DDIM 反向计算 的值时,作者仍然可以获得一个好的反向潜在图。
统一控制注意力机制。 在前文Prompt to Prompt(P2P)[11]中,研究行人表明交叉注意力层包含 Prompt 文本丰富的语义信息。这一发现可以通过在扩散过程中替换源图像和目标图像之间的交叉注意力图来编辑图像。具体而言,两种常用的文本导向交叉注意力策略是交叉注意力替换和交叉注意力精炼。这两种方法确保了从目标 Prompt 到源 Prompt 的信息流畅 Stream ,从而引导潜在图向所需方向。
与交叉注意力不同,扩散 Transformer 中的自注意力机制用于指导图像布局的形成,这是无法通过交叉注意力机制实现的。如图3所示, Prompt 中的物体和布局信息并未完全捕获在 Transformer 浅层 Query 向量中,但它们在更深层中得到了很好的表示。此外,随着 Transformer 层数的增加, Query 向量捕捉物体细节的能力变得更加明确和具体。这表明 Transformer 的全局注意力机制在捕捉长程物体信息方面更为有效,使得DiT在大规模变形和编辑广泛图像方面特别有利。这一观察表明,通过控制自注意力机制可以实现图像的非刚性编辑。在MasaCtrl [14]中,研究行人引入了相互自注意力控制机制。具体而言,在扩散的早期阶段,编辑步骤,和中的特征将在自注意力计算中用于生成更接近目标 Prompt 的图像布局,而在后期阶段,重建步骤中的和中的特征将用于指导生成更接近原始图像的目标图像布局。
然而,MasaCtrl 仍可能遇到一些失败情况,这些情况可能由于其在整个编辑过程中始终使用 引起,正如最近的一项工作 [15] 中所提到的。为了解决这个问题,作者通过设置一个步骤数阈值 来确定何时采用 :
为了提高推理速度,作者受[1]中词元合并的启发,将 Patch 合并嵌入到去噪模型中。这种方法受到 transformer 架构内用于计算注意力机制的 Patch 数量显著大于 UNet 的观察。计算流程如图4 所示。对于特征图,作者首先计算每个 Patch 与特征图之间的相似性,并将最相似的 Patch 合并以减少被注意力机制处理的 Patch 数量。在计算注意力后,作者解开 Patch 以保持模型下一层的原输入大小。通过将 Patch 合并集成到作者的框架中,作者旨在简化过程并提高整体效率,同时不改变每层的基本操作。
4 Experiments
Implementation Details
对于涉及尺寸为512x512和更大尺寸(高达1024x2048)的图像的编辑任务,作者使用预训练模型PixArt-α-XL-512x512版本用于较小尺寸,以及PixArt-α-XL-1024x1024-MS版本用于较大尺寸[1]。作者对真实图像和生成图像进行编辑。对于真实图像输入,作者使用DPM-Solver反向求解潜在噪声图。作者将DPM-Solver配置为30步,无分类器指导4.5,以及0.8的 Patch 合并比例。所有实验都使用NVIDIA Tesla A100 GPU进行。
Qualitative Comparison
作者评估了作者的DiT4Edit编辑框架与六个先前的 Baseline 之间的定性性能差异,所有 Baseline 都使用官方的开源代码实现。
如图5所示,作者在512×512和1024×1024图像上比较了作者的方法。图5的第一行展示了作者的框架能够生成在编辑真实512×512图像时保持与原始内容一致的编辑图像,而现有方法通常会改变原始图像的背景或目标细节。此外,图5的第二和第三行说明了作者在大规模图像(任意尺寸)和目标图像上的实验,这些任务是以前基于UNet的方法难以解决的。结果表明,作者提出的框架在大规模图像上有效地处理了风格和目标形状的修改。
相比之下,尽管一些最先进的基于UNet的方法能够执行编辑任务,但它们通常会导致源图像的背景和目标位置发生显著的更改和损坏。此外,由于UNet结构的限制,这些方法通常在512×512的尺寸上生成目标图像。这些发现强调了在大规模图像编辑中基于变分自编码器扩散模型的巨大潜力。作者还进行了用户研究以进行全面比较。用户研究的详细信息可以在补充材料中找到。
### Quantitative Comparison
对于定量评估,作者使用了三个指标:Frechet Inception Distance(FID)[10],Peak Signal-to-Noise Ratio(PSNR)和CLIP,来评估作者的模型与最先进方法在图像生成质量、背景保留和文本对齐方面的性能差异。作者比较了三个大小的图像:,和,详细的结果请参见表1。作者使用Pix2Pix-Zero,PnPInversion,SDEdit,IP2P,MasaCtrl和InfEdit进行性能测试。需要注意的是,由于没有基于DiT的编辑框架,作者的比较 Baseline 都基于UNet架构。实验结果显示,作者提出的DiT4Edit编辑策略在图像生成质量、背景保留和文本对齐方面都超过了最先进方法。由于集成 Transformer 结构的全球注意力能力,DiT4Edit框架在各种大小的编辑任务上表现出强大的鲁棒性。生成的图像不仅显示更高的质量,还提供了更好的背景和细节控制,从而与原始图像具有更大的一致性。特别是对于大型或任意大小的图像,DiT4Edit在其他方法上具有显著优势,展示了 Transformer 架构的强大扩展能力。同时,作者的编辑框架具有更短的推理时间,与反向编辑方法(InfEdit)相当。
### Ablation Study
作者进行了一系列的消融实验来证明 DPM-Solver反演 和 Patch 合并的有效性。作者的 Patch 合并 消融实验的结果如图4和表2所示。Patch 合并导致了大型图像编辑时间的显著减少,同时保持了与不进行 Patch 合并时相当的质量。这表明 Patch 合并可以显著提高图像编辑框架的整体性能。此外,DPM-Solver和DDIM 的消融实验结果如图7所示。
当比较两种方法在相同推理步数()下,DPM Solver在图像编辑质量上始终优于DDIM。这表明作者使用DPM-Solver反演策略允许生成优质潜在图,从而在更少的步骤内获得更好的编辑结果。
5 Discussion and Conclusion
结论 。作者介绍了DiT4Edit,这是第一个基于扩散 Transformer 的图像编辑框架。与之前的UNet基础框架不同,DiT4Edit在编辑质量上具有优势,并支持各种大小的图像。利用DPM Solver反向,统一的注意控制机制和块合并,DiT4Edit在图像大小为和的编辑任务中超过了UNet结构。值得注意的是,DiT4Edit可以处理任意大小的图像,如,这展示了 Transformer 在全局注意力和可伸缩性方面的优势。作者的研究可以为基于DiT的图像编辑设定一个基准,并帮助进一步探索变换结构在生成AI中的潜力。
限制 . 在作者的实验中,作者观察到T5分词器偶尔会遇到词分割问题,这可能导致最终编辑过程失败。此外,作者的模型在与原始图像相比可能会出现颜色不一致的问题。补充材料中提供了进一步的编辑失败示例。
[0]. DiT4Edit: Diffusion Transformer for Image Editing.