GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 !

大模型向量数据库机器学习

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

作者提出了一个名为Diffusion Transformers(DiT)的新颖无训练空间定位技术,用于文本到图像生成。使用边界框进行空间定位因其简单性和通用性而受到关注,允许在图像生成中增强用户控制。

然而,先前的无训练方法通常依赖于通过自定义损失函数从反向扩散过程(通过反向传播)更新噪声图像,这经常难以精确控制每个边界框。

在本工作中,作者利用 Transformer架构的灵活性,证明了DiT可以生成每个边界框对应的噪声块,完全编码目标物体,并允许在每个区域内进行细粒度控制。

作者的方法基于DiT的一个有趣属性,作者称之为语义共享。由于语义共享,当一个较小的块与可生成大小的图像联合去噪时,这两个块将变得“语义克隆”。

每个块在其生成过程的每个分支中进行去噪,然后将其移植到原始噪声图像的相应区域,每个时间步都结果实现对每个边界框的强健空间定位。

在作者的HRS和DrawBench基准测试实验中,与先前的无训练空间定位方法相比,作者实现了最先进的性能。

项目主页:https://groundit-visualai.github.io/。

1 介绍

Transformer架构[45]在各种应用中推动了突破,其中扩散模型成为近期的重要受益者。尽管U-Net[42]作为去噪 Backbone [22; 43; 41; 39]的成功,但近期基于 Transformer 的扩散模型,如 Diffusion Transformers(DiT)[37],在性能上又取得了新的飞跃。这一点由最近的生成模型,如Stable Diffusion 3[13]和Sora[6]得到证明。开源模型如DiT[37]及其文本引导的后续者PixArt-[8]相较于先前的U-Net基于的扩散模型,质量也有所提高。考虑到Transformer的可扩展性,Diffusion Transformers预计将成为图像生成的新的标准,尤其是在互联网规模的数据集上进行训练时。

在高质量图像生成实现后,下一个关键步骤是增强用户可控性。在图像生成的各种用户指导方式中,最基本且最重要的一种是_空间定位_。例如,用户可能不仅提供一个描述图像的文本 Prompt ,还提供一个表示每个物体期望位置的一组边界框,如图1所示。这种空间约束可以通过在文本到图像(T2I)扩散模型中添加专门用于空间定位的额外模块来实现,并调整模型。GLIGEN [31] 是一个显著的例子,它将一个带有门控自注意力模块 [1] 的 U-Net 层集成到 Stable Diffusion [41] 中。尽管有效,但这种基于微调的方法每次引入一个新的 T2I 模型都会产生巨大的训练成本。

picture.image

最近的无训练方法 使得图像生成取得了新的进展,消除了微调的高昂成本。这些方法利用T2I扩散模型中跨注意力图可以传达每个文本 Prompt 中的概念在图像中生成位置的丰富结构信息的事实。在这些方法的基础上,这些方法旨在将特定物体的跨注意力图与给定的空间约束(例如边界框)对齐,确保物体在其指定区域内放置。这种对齐通常通过使用反向扩散过程的正向传播从自定义损失函数更新噪声图像来实现。然而,这种损失引导的更新方法往往很难为单个边界框提供精确的空间控制,导致目标缺失(图4,第9行,第5列)或目标与边界框之间的差异(图4,第4行,第4列)。这突显了在图像生成过程中对每个边界框需要更精细的控制。

picture.image

作者旨在为每个边界框提供更精确的空间控制,以解决先前基于损失的更新方法的局限性。在反向扩散过程中,用于操作噪声图像局部区域的著名技术是直接替换或合并这些区域中的像素(或潜在值)。这种简单但有效的方法已在各种任务中得到验证,包括组合生成和高分辨率生成。人们可以考虑为每个边界框定义一个额外的分支,使用相应的文本 Prompt 去噪,然后在每个时间步将噪声图像复制到主要图像的指定区域。然而,一个关键挑战在于创建一个与指定边界框相匹配且在同一噪声水平上 可靠地 包含所需目标的噪声图像块。这在现有的T2I扩散模型中是不实用的,因为它们是在有限数量的图像分辨率上进行训练的。尽管最近的一些模型如PixArt-[8]支持更广泛的图像分辨率范围,但它们仍然受到特定候选大小的限制,特别是对于较小的图像块。因此,当这些模型用于创建局部图像块时,它们通常只能去噪固定大小的图像,并将区域裁剪以适应边界框。这种方法可能无法将所需目标包括在裁剪区域内。

在这项工作中,作者证明了,通过利用Transformer架构的灵活性,Diffusion Transformers(DiT)可以生成对应于每个边界框大小的噪声图像块,从而可靠地包括所需物体。作者首先介绍了DiT的一个有趣特性:当同时去噪一个较小的噪声块和一个生成器大小的噪声图像时,这两个图像逐渐变得语义相同。作者将这种现象称为共享采样。在这个观察的基础上,作者提出了一种无需训练的框架,该框架涉及在单独分支中培养每个边界框的噪声块,然后将该块移植到原噪声图像的相应区域。通过迭代地将分别去噪的图像块移植到各自的边界框中,作者实现了对每个边界框的精细空间控制。这种方法导致了更强的空间定位,尤其是在以前的方法无法准确遵守空间约束的情况下。

在作者对HRS [3]和DrawBench [43]数据集的实验中,作者使用PixArt-[8]作为基础文本到图像DIT(DiT)模型,评估了作者的框架GroundDiT。与先前的无训练方法相比,作者的方法在空间定位方面表现出色,尤其是优于最先进的[47]方法,突显了其在提供细粒度空间控制方面的有效性。

2 Related Work

Spatial Grounding via Fine-Tuning

微调附加模块是一种强大的方法,用于增强具有空间定位能力的T2I模型 。SpaText [2]引入了一种结合分割和CLIP嵌入[40]的空间-文本表示。ControlNet [51]采用了一个可训练的U-Net编码器,处理诸如深度图、草图和人体关键点等空间条件,指导主U-Net分支内的图像生成。GLIGEN [31]使T2I模型能够接受边界框,通过在Stable Diffusion [41]中插入一个门控注意力模块。GLIGEN的强大空间精度使其被集成到后续空间定位方法[48; 38; 30]和应用中,如组成生成[15]和视频编辑[23]。

InstanceDiffusion [46]进一步引入了条件模块,通过各种条件(如 Box 、涂鸦和点)提供更精细的空间控制。然而,这些微调方法虽然有效,但需要特定任务的 dataset,并涉及大量成本,因为它们必须针对每个新的T2I模型进行重新训练,这强调了训练免费的替代方法的需求。

Spatial Grounding via Training-Free Guidance

针对微调的低效性,已经引入了训练零样本方法,将空间定位引入到T2I扩散模型中。一种方法涉及将噪声块按区域组合,每个块根据不同的文本输入条件化[5; 50; 32]。这些块,使用二进制 Mask 提取,旨在在生成的图像中生成它们所条件化的目标。然而,由于现有的T2I扩散模型限制在固定的图像分辨率集合中,每个块不能被视为完整的图像,因此无法确定提取的块是否包含所需的目标。另一种方法利用T2I模型中注意力模块的不同角色,自注意力捕捉图像特征之间的长程交互,而交叉注意力将图像特征与文本嵌入链接。

通过使用空间约束,如边界框或分割 Mask ,可以通过基于交叉注意力图的损失更新噪声图像来实现空间定位,也可以直接操纵交叉或自注意力图来遵循给定的空间布局[26; 4; 14]。虽然损失引导方法可以在零样本训练中实现空间定位,但它们仍然缺乏对单个边界框的精确控制,通常导致目标缺失或目标与边界框之间的错位。

在本工作中,作者提出了一种新颖的零样本框架,通过利用DiT中Transformer架构的灵活性,为每个边界框提供细粒度的空间控制。

3 Background: Diffusion Transformers

Diffusion Transformer (DiT) [37] 代表了一种新型的扩散模型,它们利用 Transformer 架构 [45] 进行其去噪网络。之前的扩散模型,如 Stable Diffusion [41] 使用 U-Net [42] 架构,其中每一层都包含卷积块和注意力模块。相比之下,DiT 是由一系列 DiT 块组成,每个块都包含一个点乘 FFN 和注意力模块,消除了卷积操作,而是通过注意力机制直接处理图像 Token 。

DiT 遵循扩散模型的公式 [22],其中前向过程将噪声施加到真实干净的数据 上。

picture.image

反过程通过高斯转变对噪声数据 进行去噪。

picture.image

其中, 是由一个通过最小化负的 ELBO 目标 [27] 训练的学习神经网络 计算的,而 也可以通过学习得到,但通常被设置为时间相关的常数。

位置编码。由于DiT是基于Transformer架构,噪声图像被处理为一组图像 Token 。假设一个噪声图像。在DiT中,首先被分割成 patches,其中每个 patch 通过一个线性嵌入被转换为图像 Token 。

这导致了一个包含个图像 Token 的序列,其中是 patch 大小。重要的是,在每个去噪步骤之前,2D正弦余弦位置编码被分配给每个图像 Token ,提供空间信息。这与U-Net扩散模型不同,通常它们不会利用位置编码来处理噪声图像。

令 表示位置嵌入的应用。已经应用位置嵌入的图像 Token 集合 在去噪步骤中通过 DiT 块进行如下处理:

picture.image

其中 表示 DiT 算法在时间步 上的单次去噪操作, 是文本嵌入。

4 Problem Definition

本研究旨在提出一个无训练框架,该框架利用文本到图像的Diffusion Transformer [8, 37]生成基于边界框的空间准确图像。令表示图像生成的输入文本 Prompt (即 Token 列表)- 作者称为全局 Prompt 。

是的文本嵌入。考虑一组个地面条件,其中每个条件指定了一个边界框的坐标以及要放置在其中的目标物体。

具体而言,每个由组成,其中边界框表示其左上角和右下角顶点的坐标,表示框内的目标物体,是对应的文本嵌入,表示全局 Prompt 中的索引,即。目标是生成符合全局 Prompt 且确保每个物体准确放置在其对应边界框内的图像。

5 GrounDiT: Grounding Diffusion Transformers

作者提出GrounDiT,一种无需训练即可实现空间定位图像生成的框架,利用文本到图像的Diffusion Transformer(DiT)进行实现。GrounDiT将反向扩散过程中的每个去噪步骤转换为两阶段流水线。

在第一阶段,全局更新,噪声图像通过梯度下降进行优化,利用了跨注意力图中的丰富结构信息,这在先前的U-Net扩散模型中(见第5.1节)通常使用。为了克服第一阶段每个定位条件在局部控制上的不精确性,作者引入了第二阶段,局部更新。

基于作者对DiT语义共享特性的观察(见第5.2节),局部更新通过一种新的噪声块培育和移植过程(见第5.3节)为每个定位条件提供细粒度控制。GrounDiT的两阶段去噪步骤的概述如图2所示。

picture.image

Stage 1: Global Update with Cross-Attention Maps

在 DiT 的逆扩散过程中, 表示第 个时间步的噪声图像。根据 Chefer 等人[7]的建议,文本到图像扩散模型的交叉注意力模块可以提取出关于输入提示 中每个文本 Token 对应图像区域的宝贵结构信息。为了利用这一信息,我们首先将噪声图像 传递给 DiT,并应用位置嵌入得到 。

假设 DiT 由 个连续的块组成。当 通过第 个块时,可以提取出与地面条件 对应的物体 的交叉注意力图 ,其中 表示 在 中的索引。对于每个地面条件 ,我们通过计算所有 个块上的注意力图的平均值,得到平均交叉注意力图 。

picture.image

在此处,作者定义了 ,该过程指的是,当 经过DiT去噪步骤时,提取出与 对应的全部交叉注意力图。这可以表示为:

picture.image

遵循先前的U-Net扩散模型研究[48, 47, 38, 9, 36, 7],作者使用预定义的定位损失来评估目标的平均交叉注意力图与其专用边界框之间的空间对齐。定位损失的定义采用R&B[47]中提出的。

然后,通过将所有定位条件上的定位损失相加得到归一化定位损失:

picture.image

最后,根据 的反向传播,输入噪声图像 通过梯度下降进行更新,如下所示:

全局更新在等式7中在空间定位方面取得了合理的准确性,与的边界框有关。然而,作者发现全局更新在更复杂的定位条件下往往难以应对。

例如,当包含多个边界框(如图4,第9行有五个)或较小的细长框(图4,第5行)时,目标物体可能会缺失或与边界框错位。如这些示例所示,全局更新对单个边界框缺乏细粒度控制,强调了针对每个定位条件的定制精确控制的重要性。

Semantic Sharing in Diffusion Transformers

在这里,作者提出了关于DiT[37, 8]的一个有趣属性——语义共享——的观察,该属性可以应用于为每个地面条件设计的细粒度局部控制。

无卷积性质的DiT. 回想一下,DiT不包括卷积操作,与U-Net扩散模型相反。在DiT的去噪步骤中,噪声图像被视为一组图像 Token 。因此,图像 Token 的位置信息仅依赖于分配给每个去噪步骤之前的位置嵌入(见公式3)。

联合图像去噪。利用DiT的卷积免费性质和位置嵌入在为每个图像 Token 分配空间信息方面的作用,作者提出了_联合图像去噪_。考虑两个不同的噪声图像和,它们都在反向扩散过程的时步处。

在和之间进行联合图像去噪,如图3-(A)所示。首先,根据各自的大小,为和分别分配位置嵌入,得到和。这使得DiT可以将和视为一个完整的图像。值得注意的是,两个噪声图像的大小不必相同。联合图像去噪的关键方面是,通过(算法1,第4行)将两个噪声图像或两组图像 Token 合并为一个集合。然后,将通过DiT进行去噪。去噪步骤后,DiT返回去噪输出,然后通过将其重新拆分为原始图像 Token 集合,得到去噪后的和。联合图像去噪的完整算法如图1所示。

picture.image

picture.image

语义共享。令人惊讶的是,作者发现将两个噪声图像进行联合分量去噪会导致它们对应像素产生语义相关的内容,即使初始随机噪声不同。作者通过一个简单的实验来证明这一点。考虑两个噪声图像, 和 , 都初始化为单位高斯分布 。作者定义了一个反向扩散过程,其中,在前 %()的去噪步骤中, 和 一起使用联合分量去噪进行去噪。剩下的 %,两个噪声图像分别独立进行去噪。在两种情况下,都使用相同的文本嵌入 作为条件。

图3展示了在不同γ值下,来自和生成的图像。图3-(B)说明了当和具有相同的分辨率()时,两种噪声图像可以完全独立地进行去噪,从而生成明显不同的生成图像(最左侧的列)。值得注意的是,在图3-(C)中,当的分辨率设置得比DiT的生成分辨率小得多时,输出结果是不合理的。

然而,随着γ的增加,允许通过初始步骤的联合分词去噪使和同时去噪,生成的图像变得越来越相似。当γ=1时,来自和生成的图像几乎完全相同。这种模式不仅适用于两种噪声图像具有相同分辨率(图3-(B)),甚至在一种图像的分辨率不是DiT的生成分辨率(图3-(C))时也成立。

这些结果表明,分配给每个图像 Token 的位置嵌入在塑造 Token 内部生成的内容方面起着关键作用。将相同或相似的位置嵌入分配给不同的图像 Token ,在自注意力(DiT)过程中促进了它们之间的强烈互动,从而影响了交叉注意力。在联合 Token 去噪期间这种相关行为导致两个图像 Token 向语义相似的输出收敛,作者称之为语义共享。

尽管在U-Net扩散模型中已经探索了自注意力共享技术以增强图像之间的风格一致性[20, 34],但它们仅限于相同分辨率的图像。通过利用在不同的分辨率之间分配位置嵌入的灵活性,作者的联合 Token 去噪方法跨越了异质分辨率,提供了更大的灵活性。

Stage 2: Local Update with Semantic Sharing

基于第5.2节中讨论的DiT语义共享特性,作者引入了GroundDiT降噪流程的第二阶段。 recall,第5.1节中的全局更新仅足以实现对每个特定地面条件的细粒度控制是不够的。为了解决这个问题,作者提出了一种新的噪声块培育移植机制,如图2所示,以增强对每个边界框的精确空间控制。

噪声patch培养。考虑逆扩散过程在时间步长t处的第i个目标分支。该分支的输入有两部分。首先,作者定义一个噪声目标图像,初始化为。的作用是培养包含从地面条件中提取的所需目标的丰富语义信息的噪声图像 Token 。

其次,作者从中选择一个子集,该子集位于中指定的边界框区域内。这个操作可以表示为,并称为噪声局部块。噪声patch培养的主要目标是将中编码的的语义信息传递到局部块中。这是通过应用作者的联合 Token 去噪(算法1)将和转化为去噪版本和来实现的,如下所示:

picture.image

在与嘈杂物体图像 共享语义的过程中,联合分词去噪的局部块 预计具有比前一个时间步更丰富的物体 的语义特征。这种方法的意义在于,即使嘈杂的局部块 不是 DiT(通常情况下,作者裁剪出 的小边界框区域以获得 )可以生成的常规分辨率,但它提供了一种简单而有效的方式,使 在物体 的信息方面变得更丰富。作者将这个过程称为 _嘈杂块培育_。

获得局部块 作为公式8中所述,图像 Token 被重新注入到主分支 中,具体指定为 的原始区域。

picture.image

表示哈达马积, 是一个二进制 Mask ,对应于边界框 , 将 零填充,使其与输出中的 区域对齐。这种注入为地面条件 提供了细粒度的局部控制。

一旦所有物体分支的输出都被注入,作者得到 ,它表示在时步 的 GroundDiT 去噪步骤的最终输出。在 中,对应于 区域的图像 Token 与从主分支获得的初始 相比,期望具有更丰富的关于物体 的语义信息,因为它们在方程 8 中的联合 Token 去噪过程中共享语义。这个过程被称为 _噪声块移植_。

6 Results

在本节中,作者呈现了作者的方法GroundDiT的实验结果,并提供了与 Baseline 的比较。对于基础文本到图像的DIT(DiT)模型,作者使用了PixArt-α[8],它通过在原始DIT架构[37]上结合额外的交叉注意力模块,以条件化于文本 Prompt 。

Evaluation Settings

Baseline . 作者将作者的方法与最先进的基于训练的自由方法进行比较,这些方法用于边界框图像生成,包括 R&B [47],BoxDiff [48],Attention-Refocusing [38],以及Layout-Guidance [14]. 为了进行公平的比较,作者还实现了使用 PixArt- 的 R&B,作者将其称为 _PixArt-R&B_,并将其视为内部 Baseline 。

(地面准确率) 作者遵循R&B [47]的评估协议,在HRS [3]和DrawBench [43]数据集上评估空间定位,使用三个标准:空间、尺寸和颜色。HRS数据集包括每个标准分别为1002、501和501张图像,边界框由Phung等人[38]的GPT-4生成。对于DrawBench,作者使用与R&B [47]中相同的20个位置 Prompt 。

作者使用CLIP得分[21]来评估生成的图像如何贴近文本 Prompt 。

此外,作者使用PickScore[28]和ImageReward[49]来评估作者的方法,这些方法根据文本 Prompt 和生成图像的一致性提供人类对齐得分。

Grounding Accuracy

定量对比。表1展示了作者的方法GroundDiT与 Baseline 之间的地面准确率定量比较。GroundDiT在地面准确率的各个方面(空间、大小和颜色)均优于所有 Baseline ,包括最先进的R&B [47]和作者内部的 Baseline PixArt-R&B。值得注意的是,GroundDiT在HRS基准[3](列1)上的空间准确性显著高于R&B和PixArt-,分别提高了+14.87%和+7.88%。

将PixArt-[8], PixArt-R&B和GroundDiT进行比较,突显了GroundDiT的两阶段 Pipeline 架构的有效性。首先,将基于损失的Global Update集成到PixArt-中,导致空间准确性(从17.86%提高到37.13%)取得了显著的改进。

picture.image

作者研究了 函数的行为,并进一步改进了局部更新方法,从而提高了准确率(从37.13%提高到45.01%)。在尺寸准确性(列2)方面,GroundiT 相对于 R&B 提高了+1.01%。在颜色准确性(列3)方面,作者的方法相对于 PixArt-R&B 提高了+6.60%,并比 R&B 提高了+3.63%。这强调了作者的 Patch 移植技术在准确为对应目标分配颜色描述方面的有效性。由于 DrawBench [43] 只包含两个边界框的图像,因此使用全局更新方法就足够实现地面 truth。

定性比较。图4展示了定性的比较。当基础条件涉及一个或两个简单的边界框(行1,2)时,作者的方法以及 Baseline 都能成功地在指定区域内生成物体。然而,随着边界框数量增加和基础条件变得更具挑战性, Baseline 在将每个物体正确放置在边界框内(行4,8)上时挣扎,甚至无法生成物体(行5,7,9)。相比之下,GroundiT在边界框数量相对较高的情况下(如行5,6,8),如四个边界框(行5,6),五个边界框(行7)和六个边界框(行9),都能成功地将每个物体放置在框内。

这突显了作者提出的 Patch 移植技术对每个边界框具有优越控制力,解决了之前基于损失的更新方法的局限性,如在5.1节中讨论的那样。由于作者的方法基于DiT,因此它可以生成具有多种 aspect ratios 的图像,同时结合定位能力。在补充材料中,图1和图5证明了这一点。对于更多的定性比较,请参阅补充材料(第A.7节)。

picture.image

Prompt Fidelity

7 Conclusion

在这项工作中,作者提出了GroundiT,一种用于文本到图像生成的无训练空间定位技术,利用Diffusion Transformers (DiT)。

为解决先前方法缺乏对单个边界框精细空间控制的问题,作者提出了一种新颖的方法,将单独去噪分支生成的图像块移植到主图像的指定区域。

通过利用DiT的一个有趣属性,即来自Transformer架构的灵活性和位置编码的使用,GroundiT可以通过同时去噪两个噪声图像生成一个较小的块:一个较小尺寸的块和一个由DiT生成的可生成尺寸的块。

通过语义共享,这两个噪声图像变成了“语义副本”,使得可以对每个边界框进行精细空间控制。作者在HRS和DrawBench基准测试上的实验表明,与先前的无训练空间定位方法相比,GroundiT实现了最先进的性能。

参考文献

GrounDiT: Grounding Diffusion Transformers.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论