备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
基于预训练扩散模型的拖拽式编辑为前景目标提供了精确且灵活的操作方式。传统方法直接优化DDIM反演得到的输入特征,通过迭代调整引导控制点朝向目标位置。
然而,这些方法由于运动监督中特征表示能力有限,以及点追踪所需的大搜索空间导致效率低下,往往存在精度限制。为解决这些局限性,作者提出了DragLoRA,一个将LoRA(低秩适配) Adapter 集成到拖拽式编辑流程中的新框架。
为增强LoRA Adapter 的训练,作者引入了额外的去噪分数蒸馏损失,通过使其输出与原始模型输出对齐来正则化在线模型。
此外,作者通过使用更新的LoRA Adapter 调整输入特征,提高了运动监督的一致性,为后续操作提供了更稳定和精确的输入特征。基于此,作者设计了一种自适应优化方案,该方案在两种模式之间动态切换,优先考虑效率而不牺牲精度。大量实验表明,DragLoRA显著提升了基于拖拽的图像编辑的控制精度和计算效率。
代码可在以下链接获取:https://github.com/Sylvie-X/DragLoRA。
- 引言
Stable Diffusion(SD)模型在根据文本 Prompt 合成高质量图像方面展现了卓越的能力。基于预训练的SD模型,许多研究工作(Hertz等人,2022年;Zhang等人,2023年;Hertz等人,2023年)致力于增强生成图像的控制能力,通常依赖于详细的文本 Prompt 或参考图像来指定生成条件。虽然这些方法提供了多种类型的编辑功能,但它们通常要求用户提供复杂的指令来描述期望的输出,这在仅需进行最小化修改的场景中可能会显得繁琐和受限。
基于拖拽的图像编辑技术使用户能够在预训练的生成模型中进行直观的点驱动操作。通过指定源点和目标点的配对,用户可以交互式地引导物体变形,迭代地将内容从源位置“拖拽”到目标位置。这些方法通常通过两个连续的阶段进行操作:运动监督,该阶段计算方向梯度以使特征与期望的运动对齐,以及点跟踪,该阶段根据不断演化的特征空间更新控制点位置。尽管这种范式减少了对外部复杂文本或参考输入的依赖,但现有方法在精度和效率方面通常存在挑战。直接优化潜在特征(如DDIM反转表示)由于运动监督中特征表达能力的局限性而引入不稳定性,而迭代跟踪过程则因搜索大范围空间区域而带来高昂的计算成本。
在这项工作中,作者通过将DragLoRA增强到预训练Unet的所有注意力层来解决这个问题,DragLoRA是一种动态优化的 Adapter 。与直接优化潜在特征的前置方法不同,llm-DragLoRA_2505在基于拖拽的编辑过程中执行在线自适应学习,能够根据用户交互调整LoRA参数。扩展的优化空间增强了模型表示前景变形的能力,允许在每个运动监督步骤中精确对齐控制点与目标位置。通过将变形控制与静态潜在表示解耦,DragLoRA减轻了由有限特征表达能力引起的稳定性问题,从而减少了依赖迭代大规模搜索。
然而,作者观察到仅由拖拽损失引导的无约束LoRA优化会导致与原始图像的偏差。为此,作者引入了增量去噪分数(DDS)损失来规范在线训练。具体而言,DragLoRA首先从DDIM逆变换的输入在时间步
处预测干净特征,然后在该特征上随机采样时间步
处添加噪声。DDS损失计算为原始UNet与DragLoRA增强UNet对扰动特征的噪声预测之间的差异。通过联合最小化额外损失与原始运动监督目标,llm-DragLoRA_2505在保持语义保真度的同时实现了灵活的变形。此外,为确保迭代编辑间的运动一致性,作者自适应输入特征以累积变形效果。每步中,输入特征使用DragLoRA预测的噪声从
去噪至
,然后使用随机扰动重新去噪至
,用于下一轮优化。该循环逐步使特征与累积变形轨迹对齐,将控制点调整传播至潜在空间,并通过连贯的特征更新稳定运动监督。
在实际应用中,作者观察到通过输入自适应即可将控制点驱动至目标位置,即使没有显式的运动监督。这是因为先前优化累积的梯度可以被用于在新位置移动控制点,而无需额外的驱动力。在每个梯度步中,尽管具体任务并不完全相同,但它们共享低方差的控制点特征和共同方向。DragLoRA能够学习这些共性并泛化,这类似于元学习。为了利用这一特性,作者采用了一种自适应优化策略:当点跟踪达到足够质量时,会跳过LoRA更新以优先考虑效率;相反,如果跟踪出现偏差(例如由于遮挡或模糊纹理),则会触发运动监督来优化LoRA参数,确保稳健的变形控制。通过在运动监督和输入自适应之间动态切换,DragLoRA能够以最少的优化步数实现高效的控制点定位,因为它只在必要时才对LoRA进行选择性优化。
本文的贡献主要体现在以下几个方面。
-
作者提出了DragLoRA,一种参数化 Adapter ,能够根据用户的交互进行在线优化。通过用动态模型适应替换直接潜特征优化,DragLoRA增强了细粒度变形能力,同时保留了预训练的扩散先验。
-
作者引入了一个双目标框架,结合了拖拽损失与DDS损失,通过比较原始Unet和LoRA增强Unet在扰动特征上的噪声预测来计算。结合循环去噪-重噪过程,该过程迭代地将控制点调整传播到潜空间,这一框架确保了与源图像的语义一致性,并通过累积变形轨迹稳定运动监督。
-
作者设计了一种自适应优化策略,该策略在两种模式之间动态切换。通过评估跟踪质量,DragLoRA在跟踪成功时优先进行高效的输入特征更新,并在出现偏差时激活运动监督以对LoRA进行细化,从而最小化冗余的优化步骤。
-
相关工作
扩散模型在图像编辑中的应用。扩散模型最初设计用于像素域的迭代去噪,后来通过在潜在特征空间中操作进行加速(Rombach等人,2022)。在大型图像-文本数据集上训练后,Stable Diffusion可以根据输入文本生成高质量图像。这些模型能够实现各种图像编辑任务,几乎无需额外的训练。通常,源图像被噪声处理到适合编辑的中间时间步长,然后使用目标条件进行去噪以修改内容。SDEdit(Meng等人,2022)在DDPM调度后直接应用随机噪声,而DDIM反演(Song等人,2020a)及其High-Level版本(Mokady等人,2023;Miyake等人,2023)已被证明能更好地保留源图像的细节。
在众多编辑技术中,基于文本的编辑是最受探索的一种。P2P(Hertz等人,2022年)通过调整UNet中的交叉注意力矩阵实现精确修改,而PnP(Tumanyan等人,2023年)和Masactrl(Cao等人,2023年)则专注于修改自注意力层。另一方面,基于优化的方法通常在单张图像或小规模图像集上进行训练,使模型能够学习编辑目标的详细外观并适应任意文本 Prompt 。相比之下,基于参考的编辑直接将参考图像输入模型,通常需要大规模数据集才能有效学习。参考可以采取多种形式,包括标准图像或从目标图像中提取的结构信息(Zhang等人,2023年)。
基于拖拽的图像编辑因其通过用户定义的操控点和目标点进行图像修改的直观方法而备受关注。DragGAN(Pan等人,2023)首次展示了在预训练StyleGAN模型中实现“拖拽”的可行性,引入了运动监督和点跟踪机制。后续的进展将这一概念扩展到扩散模型。DragDiffusion(Shi等人,2024b)将基于点的拖拽技术应用于SD模型,提升了生成质量并实现了精确的空间控制。SDE-Drag(Nie等人,2024)为基于扩散的图像编辑(包括拖拽)提出了统一的概率公式。DragNoise(Liu等人,2024)利用U-Net的噪声预测进行高效的基于点的编辑,同时保持语义一致性。FreeDrag(Ling等人,2024)通过缩小操控点的搜索区域和结合自适应特征更新,提升了稳定性和效率。EasyDrag(Hou等人,2024)简化了用户交互过程,使图像编辑更加直观和易用。GoodDrag(Zhang等人,2024)引入了交替拖拽和去噪框架,提升了结果保真度并减少了失真。
StableDrag(Cui等人,2024)通过开发判别性点跟踪方法和基于置信度的潜在增强策略,解决了点跟踪和运动监督中的挑战,实现了更稳定和精确的基于拖拽的编辑。AdaptiveDrag(Chen等人,2024)提出了一种无 Mask 的基于点的编辑方法,利用超像素分割进行自适应步长调整。ClipDrag(Jiang等人,2024)利用CLIP进行文本引导的编辑,实现了对图像内容的语义控制,而DragText(Choi等人,2024)通过优化文本嵌入与图像特征,促进了文本引导的拖拽。FastDrag(Zhao等人,2024)实现了无需迭代优化的快速图像修改。GDrag(Lin等人,2025)将基于点的操作分类为三种原子任务,并实现密集轨迹,从而得到更明确的输出。
除了基于点的拖拽编辑,DragonDiffusion、DiffEditor(Mou等人,2024)和RegionDrag(Lu等人,2024)将拖拽编辑扩展到区域或结合参考图像进行编辑。此外,InstantDrag(Shin等人,2024)和LightningDrag(Shi等人,2024a)训练通用模型用于基于拖拽的编辑,支持在各种任务和数据集上快速适应。
提出的DragLoRA是一种基于点的拖拽编辑方法。与其他同类方法相比,它在关键指标上实现了最先进的性能,同时降低了时间成本。与LightningDrag等通用模型相比,DragLoRA避免了离线训练的沉重负担,并提供了更好的结果。
- 方法
如图2所示,所提出的DragLoRA框架通过动态优化的 Adapter 增强了预训练的Stable Diffusion(SD)模型,以实现基于拖拽的交互式图像编辑。llm-DragLoRA_2505有两种驱动控制点的方式,即带运动监督的LoRA训练和不带运动监督的输入特征适配。作者设计了一种自适应方案来将它们结合起来,用于基于拖拽的
编辑
3.1. 预备知识:扩散模型与基于拖拽的图像编辑
扩散模型(Ho等人,2020;Rombach等人,2022)具有正向过程,在该过程中,输入图像或潜在表示
在
个时间步长内被高斯噪声逐步扰动:
其中
,且
是累积噪声保留系数,
定义了一个固定的噪声调度。当
时,
衰减至零,
变为纯噪声。逆向过程旨在通过迭代去噪
来恢复
。去噪扩散隐式模型(DDIM)[Song et al., 2020a] 提出了一种非马尔可夫采样过程:
提供加速生成。关键在于DDIM支持确定性反演:给定
,在任何
时刻的含噪潜在变量
都可以通过以下方式重建:
这种逆映射将
映射到不同任务的时间
的可编辑潜在表示,例如
用于拖拽编辑。
基于拖拽的图像编辑通常在预训练的生成模型中执行,例如GAN或基于扩散的模型。在此任务中,用户提供一组源点
和相应的目标点
,其中
表示图像平面中的二维像素坐标。对于SD,首先在输入图像上对LoRA Adapter 进行微调,以确保编辑结果与原始图像保持高度相似性。然后通过DDIM逆过程获得在时间步
时的潜在特征
,并将其作为优化目标。编辑过程中交替进行两个阶段:
运动监督:基于梯度的目标调整
以使时间目标点
的邻域变形为对应于控制点
周围的区域,利用从选定UNet层提取的特征来计算方向性引导,如公式(4)所示。
拖
曳
从指定的UNet层提取特征,
移除可能的梯度。
表示用户指定的处理点总数。
是归一化的位移向量
,
。为减少累积误差,作者采用初始潜在输入
和处理点
来获取固定目标特征,这与 (Pan et al., 2023; Shi et al., 2024b) 不同。为保留编辑区域外的原始内容,应用了一个可选约束
:
其中
通过模型的前向传递由 (2) 从
进行去噪处理,而
是一个给定的二进制 Mask ,用于指示可编辑区域。这确保了在优化过程中非目标区域保持不变。
点跟踪:更新的
通过UNet重新处理,以定位新的手柄位置
,这些位置作为后续运动监督的新指导。此处,
定义了一个以先前手柄点
为中心的矩形搜索区域,
控制其大小。
此外,新的处理点hh+1可用于评估拖拽质量。作者计算
与
之间的最佳匹配距离,如式(7)所述。minD的值越低,表明点跟踪的置信度越高,以及先前运动监督优化的成功。
此外,作者评估了一个几何度量,即欧几里得距离
,用于衡量
与
之间的差异。直观上,这个距离应该较小,因为运动监督要求
与先前优化步骤中的
高度一致。因此,跟踪点不应显著偏离该值。这些额外的度量在先前方法中未被使用,且专门针对作者提出的在线自适应优化策略。更多细节可参考第3.4节。
3.2. DragLoRA及其在线优化
基于现有研究,作者提出了DragLoRA,一个通过在线优化LoRA Adapter 来提升用户引导变形的精度和效率的新框架。DragLoRA并非直接优化潜在特征
,而是动态调整集成到由
参数化的UNet中的LoRA参数
。这种方法增加了模型的容量,并将变形控制与潜在特征解耦,实现了细粒度调整的同时保持语义保真度。为减少额外计算,作者使用输入图像重建微调的权重初始化LoRA,无需引入额外的LoRA模块。这使得模型大小与(Shi et al., 2024b)相同。
然而,作者发现仅针对拖拽式编辑优化LoRA会导致性能下降,因为迭代微调会使LoRA增强模型显著偏离原始预训练模型。为此,作者提出了一种双目标优化方案,将拖拽损失
与增量去噪评分(DDS)损失
(Hertz et al., 2023; Arar et al., 2024) 相结合。具体而言,作者首先使用DragLoRA基于DDIM反演得到的特征
预测干净信号
。然后应用正向过程,根据公式(1)添加噪声,将
转换为
,其中
是一个随机时间步。最后,将
分别通过LoRA增强模型和预训练模型,计算其噪声预测
和
之间的差异。DDS损失的梯度计算如下:
θ
ε
ε
θ
请注意,该梯度仅通过
起作用。总损失可以表示为
。虽然阻力损失将处理点与其目标位置对齐,但额外的梯度确保与预训练模型的一致性。这种双目标优化(DOO)有效地平衡了精确变形控制与对原始模型保真度,减轻了不受限制的LoRA优化引入的不稳定性。
3.3. 输入潜在特征自适应 (ILFA)
为增强运动监督的稳定性,作者引入了一种循环去噪-重噪过程,以适应基于拖拽的编辑输入潜在特征。在每次迭代中,首先使用DragLoRA的预测将时间步长
的输入特征
去噪至
,然后使用随机高斯噪声将其重噪回
。这一循环将控制点调整传播至潜在特征空间,确保在迭代过程中LoRA参数的更新具有一致性。
在去噪过程中,作者使用包含LoRA的完整模型执行DDIM去噪的一步操作,如公式(2)所述。尽管DDIM也可用于重新去噪,但研究发现其结果不如公式(1)中定义的DDPM调度方案。此外,该方案仅在前景 Mask 内执行,背景区域保持不变。所提出的ILFA方案结合双目标损失,实现了稳健且稳定的优化,有效解决了不受约束的LoRA微调的挑战。
3.4. 具有两种模式的自适应优化方案
输入自适应方案在运动监督下工作效果显著。在某些情况下,即使没有LoRA更新,它也能驱动控制点朝向其目标位置。这是因为DragLoRA通过先前的优化步骤学习将控制点移动到期望方向,从而减少了进一步LoRA调整的需求。该策略效率很高,因为它无需反向传播。
为了平衡效率与鲁棒性,作者基于点跟踪质量,提出了一种自适应切换方案(ASS),在两种模式之间切换:DOO加ILFA和仅ILFA模式。在仅ILFA模式下,DragLoRA更新潜在特征以引导控制点到达目标位置。当点跟踪定位到一个具有足够小最小距离minD(定义于公式7)的置信控制点,且该点距离时间目标
足够近时,仅ILFA模式被激活。然而,在遮挡或纹理模糊等挑战性情况下,点跟踪可能会退化,需要进一步精炼。在这种情况下,DOO加ILFA模式开始,利用基于梯度的目标调整LoRA参数并稳定变形。这确保了即使在困难场景中,控制点也能保持精确位置。所提出的ASS根据点跟踪质量动态在这两种模式之间切换。这种自适应方案使DragLoRA能够高效处理各种场景,同时保持鲁棒性。其详细信息在算法1中给出。
3.5. 高效点跟踪(EPT)
为进一步提升拖拽编辑的效率,作者研究了不同类型的控制点追踪策略,如图3所示。研究发现,DragLoRA能够有效缩小搜索区域,并且在效率方面优于传统方法。与传统邻近区域搜索不同,距离更近(Jiang et al., 2024)和角度更近的区域会约束控制点追踪的候选点,避免不必要的位置回退。具体而言,目标或当前控制点作为圆心,其与点的距离定义半径。只有位于圆(或扇形)与邻近区域交集内的网格点才会被考虑,用于与原始源点特征进行比较。Ling et al. (2024) 提出了一种更激进的搜索策略,该策略沿着控制点到目标点的直线进行搜索。在DragLoRA中,作者选择距离更近和角度更近的策略进行点追踪,前者性能最佳,后者效率最高。此外,为防止因点坐标快速变化导致优化不足,作者基于minD决定是继续优化还是保留上一个控制点。更多细节请参见附录B.3。
- 实验
4.1. 实现细节
作者使用Stable Diffusion 1.5(Rombach等人,2022年)作为基础模型。遵循DragDiffusion(Shi等人,2024b年),作者对每张图像进行80步的重建LoRA训练,学习率为0.0005。在总共50个时间步中,作者在
时以0.0001的学习率优化DragLoRA。这两个LoRAs的秩均设置为16,DragLoRA从RecLoRA初始化。作者采用Adam优化器,并设置
80,
。在EPT方面,DragLoRA主要利用距离更近的区域。为了加速拖拽过程,DragLoRA-Fast使用角度更近的区域。拖拽更新后,作者应用DragLoRA到所有剩余的时间步以增强拖拽效果。如无特别说明,作者所有的实验均在单个NVIDIA RTX 4090 GPU上进行。
4.2. 定性评估
为验证作者提出的DragLoRA的有效性,作者在DragBench(Shi等人,2024b)、Drag100(Zhang等人,2024)、VITON-HD(Choi等人,2021)以及私有数据集上进行了广泛的实验。作者将DragLoRA与现有的拖拽方法进行定性比较:DragDiffusion(Shi等人,2024b)、DragNoise(Liu等人,2024)、GoodDrag(Zhang等人,2024)。视觉结果展示在图4中。llm-DragLoRA_2505与GoodDrag均表现出更优的编辑性,而DragDiffusion和DragNoise未能达到输入标注指定的目标,例如无法关闭鸭子的嘴巴(第三行)。此外,与GoodDrag相比,作者的DragLoRA保持了更高的保真度。例如,在移动相机后,llm-DragLoRA_2505生成的面部看起来更自然(第一行)。
4.3. 定量评估
为了与更多方法(Cui et al., 2024; Hou et al., 2024; Ling et al., 2024; Choi et al., 2024; Chen et al., 2024; Jiang et al., 2024; Lin et al., 2025; Shin et al., 2024; Shi et al., 2024a; Nie et al., 2024; Zhao et al., 2024)进行进一步比较,作者在DragBench上进行了度量评估。作者使用了其他工作的公开代码,除了ClipDrag(Jiang et al., 2024)和GDrag(Lin et al., 2025),后者未开源其代码。作者将所有拖拽方法分为三类:基于优化(Optim)、基于编码器(Enc)和无训练(TrFree)。作者基于DragDiffusion(Shi et al., 2024b)测试了DragText(Choi et al., 2024)。作者评估了可训练参数数量、预训练重建LoRA所需的步数、在线优化的最大步数以及相关时间。请注意,由于重建LoRA可以离线训练并在多个拖拽编辑中复用,通过不同标注的点,因此该过程花费的时间不包括在内,在单个NVIDIA 4090 GPU上,每张图像超过80步大约需要48秒。由于EasyDrag(Hou et al., 2024)需要更多计算资源,作者单独在单个NVIDIA A40 GPU上对其进行了评估。
评估指标:遵循 (Shi et al., 2024b) 的做法,作者采用 1-LPIPS (Zhang et al., 2018) 和 MD(平均距离)分别评估与原始图像的一致性以及编辑精度。前者使用 AlexNet (Krizhevsky et al., 2012) 计算 1 减去原始图像与编辑图像之间的特征差异,而后者使用 DIFT (Tang et al., 2023) 计算编辑图像中控制点与目标点之间的坐标差异。然而,作者发现使用 DIFT 在整个图像中搜索点坐标可能不够准确,导致指标不可靠。类似于 (Lu et al., 2024),作者引入 m-MD( Mask 化 MD),将 DIFT 搜索限制在输入 Mask
指定的编辑区域内,从而减少不确定误差。虽然 m-MD 数值上低于 MD,但在图像变形的情况下, Mask 约束会迫使最终控制点更接近目标点,从而可能产生乐观评分。因此,这两个指标互为补充。如表1 所示,与当前最优方法 GoodDrag 相比,DragLoRA 实现了最佳的 MD 和具有竞争力的 m-MD,同时提高了效率。而作者的 DragLoRA-Fast 采用角度更近的 EPT,在基于优化的方法中展现出显著的时间效率,同时保持了强大的可编辑性。
拖回评估:随着编辑程度的增加,1-LPIPS自然地下降。特别是在进行重大编辑的情况下,它无法反映一致性。遵循(Ling等人,2024),作者采用拖回流程同时测量可编辑性和一致性。在完成一轮编辑后,作者在编辑后的图像上训练一个重建LoRA,交换源点和目标点,并执行第二轮拖回编辑。通过LPIPS和CLIP(Radford等人,2021)测量第二次编辑图像与原始图像之间的差异。CLIP指标计算CLIP图像编码器从两张图像中提取的特征的相似性。如图5和表2所示,较低的LPIPS和较高的CLIP表明两轮拖回编辑有效地保留了原始图像信息,同时也表明第一轮编辑将图像充分地接近目标。作者的DragLoRA在视觉和定量上都实现了更好的拖回结果。
4.4. 消融研究
为了系统地评估不同模块对整体性能的贡献,作者进行了一项消融研究,从 Baseline 开始逐步添加模块。作者评估了它们对性能指标1-LPIPS和MD的影响。结果总结在表3中。
作者的 Baseline 方法首先基于DragDiffusion优化LoRA,而不是输入潜特征
。由于LoRA的过度更新,图像发生了失真变化,导致性能不佳。应用DOO能有效稳定拖拽更新,提升LPIPS和CLIP表现。ILFA通过将输入特征的布局信息与LoRA权重对齐,有助于增强编辑精度。EPT和ASS主要设计用于提升效率。前者减轻了误差跟踪点带来的干扰,后者使训练过程更能适应多样化场景,从而也提高了可编辑性。更明显的结果可在附录B.4中找到。
- 结论
作者介绍了DragLoRA,一个基于拖拽的图像编辑新框架,通过在线优化LoRA Adapter 提高了精度和效率。通过用动态模型适应替代潜特征优化,DragLoRA能够在保持语义保真的同时实现更精细的变形。结合拖拽损失和DDS损失的二元目标优化,确保与预训练的扩散先验对齐,解决了不受限制的LoRA微调带来的不稳定性。
循环输入特征适应和自适应优化进一步稳定了运动监督并提升了效率。
实验表明,DragLoRA在精度和运行时间上均优于现有方法,成为交互式图像编辑的强大工具。未来工作将扩展该框架以支持灵活的拖拽任务,包括基于区域的拖拽、引入参考图像以及各种类型的拖拽适应。
参考
[1]. DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model.