备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
风格迁移涉及将参考图像的风格转移到目标图像的内容中。基于LoRA(低秩适应)的方法的最新进展展示了有效地捕捉单张图像风格的潜力。
然而,这些方法仍然面临诸如内容不一致、风格错位和内容泄露等重大挑战。在本文中,作者全面分析了标准扩散参数化方法在风格迁移上下文中限制性的缺陷,这种方法学习预测噪声。
为了应对这些问题,作者引入了ConsisLoRA,这是一种基于LoRA的方法,通过优化LoRA权重以预测原始图像而不是噪声来增强内容和风格的一致性。作者还提出了一种两步训练策略,将内容和风格的学习与参考图像分离。
为了有效捕捉内容图像的全局结构和局部细节,作者引入了一步式损失过渡策略。此外,作者提出了一个推理引导方法,能够在推理过程中连续控制内容和风格的强度。
通过定性和定量评估,作者的方法在提高内容和风格一致性的同时,有效地减少了内容泄露。
- Introduction
扩散模型已成为文本到图像合成的强大范式,实现了在个性化生成[13, 38]、图像编辑[2, 16]和图像风格化[8, 55]等可控生成任务中的重大突破。尽管取得了这些进展,但由于风格本身的内在复杂性和未确定性,风格迁移仍然具有挑战性。风格迁移的目标是将内容图像转换为与样式参考图像中的期望风格相匹配。
扩散模型已被广泛应用于风格迁移,利用了基于微调的方法[43, 55]和无微调方法[8, 26, 45]。最近,基于LoRA的技术[24, 28, 41]在从单张图像捕获风格方面显示出了显著的效果。
值得注意的是,B-LoRA [11] 通过联合学习两种不同的低秩 Adapter (LoRA)来区分图像中的内容和风格。然而,正如图2所示,当前基于LoRA的方法仍然面临着重大挑战。首先,准确捕捉高层结构和风格特征仍旧困难,常常导致输出与原始内容不一致或风格对齐不佳。其次,精确分离风格与内容也依然是一个挑战,有时会导致内容泄漏 [45]。
先前的研究[38, 39]表明,基于DreamBooth-LoRA[39]的文本到图像个性化方法倾向于捕捉输入图像(通常是图像的一部分)的主要概念,而不是其整体结构。这一局限性尤其对风格迁移提出了挑战,因为风格迁移需要实现1)从整个风格图像中学习全局风格信息,以及2)捕捉内容图像的整体结构以确保内容一致性生成。作者认为这些问题源于现有LoRA基方法[11, 41]中不适当的噪声预测损失,该损失未能充分关注全局和高层次特征。
为了克服这些挑战,作者引入了ConsisLoRA,这是一种新颖的方法,通过预测原始图像来优化LoRA权重,其中预测的图像是从预测的噪声中重构出来的。这种重新定义的损失函数显著提高了基于LoRA样式迁移的内容和风格一致性。为了进一步分离风格和内容的学习,作者采用了一种两步训练策略:首先学习一个内容一致的LoRA,然后在固定内容LoRA的情况下学习风格LoRA。此外,作者还提出了一种逐步损失过渡方法,以捕捉内容图像的整体结构和细部特征。作者也引入了一种推理指导方法,在推理过程中可以连续控制内容和风格的强度。
为了展示ConsisLoRA的有效性,作者通过定性和定量评估,将其与四种最先进的 Baseline 方法进行了全面比较。结果表明,ConsisLoRA在内容保留和风格对齐方面优于 Baseline 方法,并且有效地减少了内容泄露。
- Related Work
微调扩散模型。近年来,文本到图像模型[37, 40]利用了微调技术进行个性化处理,从而使扩散模型能够从几个给定图像中生成新概念的图像。Textual Inversion [13]通过对文本嵌入进行优化来学习新概念,而DreamBooth [38]则对扩散模型中的整个U-Net进行了微调。为了提高微调效率,已经提出了一些参数高效的方法[14, 21, 25, 35]。值得注意的是,LoRA [21]最初是为微调大规模语言模型而开发的,但由于其效果显著且参数高效,因此在微调扩散模型领域得到了广泛应用。在这种背景下,
-预测[20]的参数化方法常用于微调,因为它能够生成高质量和多样的视觉输出。本文中,作者提出用
-预测替换
-预测,以提高风格转换中的内容和风格一致性。最近,一项并行研究[15]也利用
-预测来实现高质量的密集预测,通过直接将U-Net的输出改为
。相比之下,作者的方法是从预测噪声推导出预测图像,而不修改U-Net的输出。
风格迁移。风格迁移涉及将参考图像的视觉风格转移至目标内容图像,一直是计算机视觉领域的重大挑战 [10, 18]。近期扩散模型的发展彻底革新了风格迁移领域。这些基于扩散的方法主要可以分为两大类。第一种方法 [1, 7, 47, 52] 通过微调扩散模型(如 InST [55] 和 StyleDrop [43])来学习风格表示。第二种方法 [4, 9, 17, 22, 29, 45, 51] 探索无需调整参数的方法以加速风格化过程。尤其是,IP-Adapter [53] 和 Style-Adapter [48] 训练轻量级 Adapter ,向 UNet 的交叉注意力层注入风格特征。一些方法利用大规模数据集进行训练以实现这一目标 [5, 26, 34, 49]。此外,还有一项研究趋势致力于改进内容保留 [6, 8, 23, 27, 46, 50, 57]。
基于LoRA的风格迁移。近年来,基于LoRA的方法[11, 24, 28, 32, 41, 42, 54]在风格迁移方面显示出有效性。这些方法通常涉及训练两个独立的LoRA来分别捕捉内容和风格。ZipLoRA[41]提出了一种有效合并独立训练的风格和内容LoRA的方法,从而能够生成任意样式的任何主题。Pair定制[24]通过捕捉一对内容和样式图像之间的风格差异,联合学习内容和风格LoRA。B-LoRA[11]揭示了在SDXL架构中联合训练两个特定块的LoRA权重,可以有效地在一个图像内分离内容和风格。尽管取得了这些进展,但在生成既保留内容结构又符合所需风格的风格化图像方面仍然存在挑战。
- Preliminaries
隐式扩散模型。隐式扩散模型(LDM)[37] 使用了一个自编码器来提供一个低维度的隐空间。编码器
将图像
映射到隐表示
,解码器
则从这个隐表示重构图像,即
。隐式去噪扩散概率模型(DDPM)[20] 被用来在自编码器的隐空间中训练模型。
扩散模型的参数化形式。DDPM [20] 介绍了两种用于模型训练的目标函数参数化形式:
-预测和
-预测。
B-LoRA。通过对SDXL架构[33]进行LoRA优化的研究,B-LoRA[11]发现联合优化两个特定的Transformer块
和
的LoRA权重能够有效地区分单张图像中的内容和风格。受到DreamBooth-LoRA[39]的影响,该模型通过使用扩散损失(方程1)进行微调以重建输入图像。训练完成后,这两个学习到的LoRA可以独立或结合用于各种风格化任务,例如风格迁移和基于文本的风格化。
- Method
生成图像的风格与风格图像的风格不一致,且3) 风格图像中的内容泄露到了生成图像中。
这些问题是由于e-p预测固有的关注低 Level 局部细节,而不是高级结构和风格。在图3中,作者展示了不同时间步阶段ε-p预测的平均损失值,表明在小的时间步t时损失较高,并随着t的增加而降低。这种模式发生在较大的t值时,噪声图像接近纯噪声,简化了模型预测噪声的任务。相反,在较小的时间步t时,噪声图像与原始图像相似度高,模型必须区分细节点以有效地预测噪声。因此,ε-p预测在早期时间步强调低 Level 的特征而在后期时间步忽视高 Level 的特征。鉴于风格迁移需要捕捉内容图像的全局结构和风格图像的整体风格,ε-p预测对于这种应用来说并不理想。
4.1. Analysis of
prediction for Style Transfer 4.2. ConsisLoRA
-预测损失,如式1所示,通常用作训练[20, 37]或微调[11, 38]扩散模型的目标函数。然而,如图2所示,在风格迁移中应用
-预测会导致三个重要问题:1)生成图像的结构与内容图像的结构不一致;2)作者的方法基于B-LoRA [11],该方法可以从单张图像中联合学习两个特定块在SDXL中的内容和风格LoRA。作者引入了CinsiLoRA,这是一种基于LoRA的方法,旨在增强风格迁移中的内容和风格一致性。CinsiLoRA基于三个主要想法。首先,作者将标准的
预测损失替换为
-预测损失,以解决第4.1节中详细说明的挑战;其次,作者提出了一种两步训练策略,更有效地分离风格图像中的内容表示和风格表示;第三,作者提出了逐步损失过渡策略,以同时捕获内容图像的整体结构和细微细节。CinsiLoRA的概览如图4所示。
内容和风格一致的LoRA。如第4.1节分析所示,
-预测损失倾向于关注低级局部细节而非高级结构和风格,使其不适合用于风格转移。为解决这一问题,作者提出用
-预测(公式2)来替代传统的
-预测(公式1),从而优化内容和风格LoRA。需要注意的是,作者并没有直接将从预测噪声
到预测潜在变量
的U-Net输出进行修改。相反,作者通过公式2中的预测噪声推导出预测潜在变量。
其中,
,
表示方差调度。然后,作者最小化预测的潜在变量
与原始潜在变量
之间的差异:
如图3所示,与
-预测不同,所提出的损失函数在大
时具有较大的值,在小
时具有较小的值。这种行为是因为
-预测损失被一个因子
放大了,而在大时间步长时这个因子变得显著。这表明,相比于
-预测,x
-预测更有效地强调了高层特征,因为这些特征主要是在大时间步长时确定的[16]。
基于ε预测和(x_{0})预测的分步损失过渡方法。如图15(附录E所示),作者比较了使用ε预测和(x_{0})预测的结果。如图所示,尽管(x_{0})预测更准确地捕捉到了内容图像的整体结构,但它偶尔会丢失一些局部细节。为了解决这一问题,作者提出了一种针对内容LoRA的分步损失过渡策略。最初,作者使用ε预测优化部分训练步骤中的LoRA权重,随后切换到使用(x_{0})预测的剩余步骤。如图15所示,这种方法有效保留了全局结构和局部细节。作者还尝试了从ε预测到(x_{0})预测的渐进过渡(例如,在时间步上进行线性变化),但没有观察到性能提升。重要的是,这种分步损失过渡不应用于样式LoRA,因为作者的实验发现,在样式LoRA优化中使用ε预测会导致无意间捕捉到局部内容细节的问题,从而引发内容泄漏问题(参见第5.4节)。
风格与内容分离的 Style LoRA 方法。为了有效地将风格的学习和内容的学习从参考图像中分离出来,作者的策略首先准确地学习一个内容 LoRA,然后在此基础上固定已学习的所述内容 LoRA 并学习一个风格 LoRA。作者采用提出的损失过渡训练策略来从参考图像中学习一个内容一致的 LoRA。如图9 所示,共同学习的风格 LoRA 倾向于出现内容泄漏,这主要是由于两个主要原因:1) 同时优化风格和内容 LoRAs 可能使它们学习到既与风格又与内容相关的共享特征;2) 损失过渡策略中的
预测导致风格 LoRA 不自觉地捕捉局部内容细节。为了克服这些问题,作者提出从头开始单独训练风格 LoRA,并使用
预测来固定已学习的内容 LoRA。此外,这种单独训练的方法可以通过使用特定于风格的 Prompt 词(例如“一种风格为 [v] 的图像”)来进行更聚焦的风格学习,而不是在 [11] 中使用的通用 Prompt 词“一个 [v]”,从而引导 LoRA 仅捕获风格属性。
图像风格化应用。类似B-LoRA [11],作者的方法支持多种图像风格化应用,如图6所示。通过结合内容和风格LoRA,实现了风格迁移,使得生成的图像能够准确反映所需的内容和风格。仅使用内容LoRA可以实现基于文本的图像风格化,其控制由风格 Prompt 完成。相反,仅使用风格LoRA则可以生成与任意文本描述内容风格一致的图像。
4.3. Controlling with Inference Guidance
借鉴无分类器指导[19]的方法,之前的研究所探索了多种用于样式化[24]、图像编辑[56]和组合生成[30]等任务的推理指导方法。受这些方法的启发,作者引入了两种指导项,使得在推理过程中能够连续控制内容和风格强度。具体而言,在对内容和风格图优化LoRA参数后,作者获得了四组不同的LoRA权重:来自内容图的内容和风格LoRA权重(分别表示为
和
),以及来自风格图的内容和风格LoRA权重(分别表示为
和
)。作者的推理算法定义如下:
其中,
是无分类器指导项 [19],使用了 LoRA 权重
和
,
控制该指导项的强度,而
是与对应的 LoRA 相应的文本条件向量。内容指导项定义为
和
所产生的噪声之差,用于增强从内容图像获取的内容强度。类似地,风格指导项则增强了从风格图像获取的风格强度。需要注意的是,在与基准方法对比实验时,作者并未应用此推理指导,以确保比较的公平性。
- Experiments
5.1. Implementation and Evaluation Setup
实现细节。作者的实现基于SDXL v1.0 [33],模型权重和文本编码器均被冻结。LoRA权重的秩设置为64。所有的LoRA均在一个图像上进行训练。对于内容图像,作者首先使用
预测训练500步,然后切换到
-预测并额外训练1000步。对于风格图像,作者首先使用上述训练策略获得其内容LoRA,然后独立地使用
-预测训练一个新的风格LoRA共计1000步。整个训练过程在一块单个的4090 GPU上大约需要12分钟。作者的方法和 Baseline 的更多实现细节详见附录A。
评价设置。作者将作者的方法与四种最先进的风格化方法进行了比较,包括StyleID [8]、StyleAligned [17]、ZipLoRA [41] 和 B-LoRA [11]。为了进行公平比较,作者从不同研究 [8, 11, 38, 43, 45] 中收集了20张内容图像和20张风格图像。利用这些图像,作者组成400对内容和风格图像用于定量评估。
5.2. Results
定性评估。图5展示了作者方法与其他 Baseline 方法在风格迁移结果上的可视化对比。如图所示,B-LoRA、ZipLoRA 和 StyleAligned 的输出与内容图像存在结构性不一致,因为
-预测损失倾向于捕捉宏观概念而非精准的整体结构。此外,从第一行和第二行可以看出,B-LoRA 有时会出现风格对齐问题和内容泄漏。ZipLoRA 在平衡合并的内容和样式 LoRA 时遇到困难,有时会忽视参考图像中的风格。虽然 StyleID 通过 DDIM 反转 [44] 实现了良好的内容保留,但其往往无法准确捕捉参考图像的风格,从而减弱了风格的影响。StyleAligned 输出与内容图像存在显著的结构性不一致,并且有时会加入来自参考图像的结构元素。相比之下,作者的方法生成了内容一致且风格化精确的图像,并有效防止了内容泄漏。图6展示了使用作者方法进行的不同风格化应用的结果。附加的定性评估见附录B。
定量评估。作者从风格和内容对齐的角度对每种方法进行了定量评估。生成图像与参考图像之间的风格对齐使用DreamSim距离[12]和CLIP分数[36]进行测量。生成图像与内容图像之间的内容对齐则分别通过DINO分数[3]、DreamSim距离和CLIP分数进行评估。每种方法在400对风格和内容图像上进行了评估,具体结果见表1。StyleID在内容对齐方面表现最佳,但在风格对齐方面排名最低。这与定性的观察结果一致,即StyleID往往会削弱风格的影响。除了这种极端情况外,在风格和内容对齐方面,作者的方法均优于所有 Baseline 方法。特别是与B-LoRA相比,在内容对齐方面,作者的方法表现出显著的改进,尤其是在DINO分数方面。尽管B-LoRA在风格对齐方面的CLIP分数与作者相当,但由于参考图像中的内容泄漏,该分数可能被夸大了。
用户研究。作者还进行了一项用户研究以评估作者的方法。在该研究中,参与者被展示了一张内容图片、一张参考图片以及两张风格化图片:一张由作者的方法生成,另一张由基准方法生成。参与者需要选择与参考图片风格更相符且保留内容图片内容的图片。作者共收集了50位参与者总计1,500份反馈意见,如表2所示。结果显示,参与者对作者的方法有着明显的偏好。
内容和风格分解。给定一张单张输入图像,作者将作者的方法与B-LoRA进行了对比,用于内容和风格分解,分别应用了内容和风格LoRA,如图7所示。当B-LoRA使用文本 Prompt 描述的新风格时,它难以保留输入图像的全局结构,并且无法使生成的图像与 Prompt 中的指定风格对齐。此外,B-LoRA无法从输入图像中学习到分离风格的LoRA,导致生成的图像中出现严重的内容泄漏问题。相比之下,作者的方法能够有效地分离输入图像的内容和风格,显示出在内容和风格分解方面的明显优势。更多分解结果详见附录C。
5.3. Inference Guidance
在本节中,作者评估了第4.3节中提出的内容和风格强度推理引导方法,以控制推理过程中内容和风格的强弱。如图8所示,相应增加内容和风格强度可以增强它们对生成图像的影响。此外,作者在附录F中提供了作者推理引导方法与LoRA权重缩放方法的详细比较。作者观察到,在调整内容强度时,作者的方法更能有效地保留内容结构。在调整风格强度方面,两种方法都能够生成高质量的风格化图像。
5.4. Ablation Study
作者进行了消融研究以评估作者方法中每个组件的有效性。具体来说,作者评估了三种变体:
1)用
预测替换
预测;
2)移除风格LoRA的两步训练策略;
3)仅使用
预测而不是损失过渡来进行内容LoRA。图9展示了每种变体生成的风格化图像的视觉对比。结果突显了每个组件的关键作用。若不使用
预测,模型将无法捕捉内容图像的整体结构以及风格图像中的风格特征。移除风格LoRA的两步训练策略会导致显著的内容泄露问题。
此外,仅使用
预测来执行内容LoRA会使模型在捕捉局部细节(例如,顶部行图片挂在墙上的照片)方面遇到困难。
参考
[0]. ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer .