备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
- Introduction
文本到图像生成的扩散模型[11]已经彻底改变了基于文本 Prompt 的图像合成,这在从Stable Diffusion[29]、Imagen[33]和DALL-E 2[27]取得的重大进展中得到了体现。这些模型的个性化技术进一步提升了其灵活性,使其能够生成特定概念(如角色、物体或艺术风格)的个性化图像。低秩适应(LoRA)[12]已成为一种强大的工具,可用于对预训练模型进行小量再训练以实现定制化,从而实现灵活且高效的个性化。通过将LoRA与高级个性化方法(如DreamBooth[30])结合使用,用户不仅可以保留高保真度,还能捕捉他们独特的创意愿景。
然而,将多个LoRA模型组合成单一的综合模型仍然是一个重大挑战。当前的多概念模型往往难以保持各个概念的质量,需要同时在多个概念上进行训练[20],或者需要针对每张图像进行优化[21]。
替代方法面临特定的限制:一些方法只能合并风格LoRA和内容LoRA[35],而其他方法则随着组合的LoRA数量增加变得不稳定[13]。像Mix-of-Show [9]这样的方法需要专门的LoRA变体,如嵌入分解LoRA(EDLoRAs),这些变体与社区中广泛使用的标准LoRA格式不同。更为最近的方法,如OMG [19],则采用分割方法在生成过程中隔离主体,但这些方法在很大程度上依赖所使用的分割模型的准确性。这些挑战限制了从文本到图像模型的更广泛应用,特别是在单个输出图像中必须共存多个不同的概念时。
为了解决这些问题,作者提出了LoRACLR,这是一种新颖的方法,能够将多个LoRA模型组合成一个模型,该模型能够在生成多种概念的同时保持高准确性。
作者的方法引入了一种新颖的对比目标,该目标能够对齐每个模型的权重空间,避免相互干扰,并通过确保每个模型在其联合组成中分别表示其各自的概念来保持保真度。重要的是,作者的方法允许使用现有的LoRA模型而无需重新训练或访问原始训练数据。通过采用对比学习,LoRACLR实现了可扩展的模型组合,能够在不需额外微调或计算开销的情况下实现高质量的多概念图像生成。
- Related Work
基于文本条件的图像生成。通过GAN和扩散模型的发展,基于文本条件的图像生成取得了显著进展。早期基于GAN的方法主要集中在生成条件化于类别的图像或文本属性的图像 。最近,研究重点转向了大规模的文本到图像的扩散模型,这些模型在大规模数据集 [34] 上进行训练,使得图像生成更加细腻和准确。
个性化图像生成与定制。个性化图像生成旨在嵌入用户特定的概念,这些概念可以在不同上下文中重复使用,从不同的角色到独特的风格。早期的方法,如文本反转(Textual Inversion, TI) [6] 和 DreamBooth (DB) [30] 为此奠定了基础,通过学习有限图像集的表示。TI 优化了文本嵌入,利用基于扩散的损失函数重建目标图像,从而实现灵活和个性化的图像合成。而 DB 则通过对模型权重进行微调来学习独特的概念表示,使用稀有 Token 来编码自定义特征,以确保可靠的重现。后续的研究工作,例如 [39],在纹理反转的基础上引入了更丰富的 Token 表示方法,增强了生成的主题匹配度和保真度。进一步的发展致力于提高定制化的可扩展性和效率。(Custom Diffusion [20] 通过仅对交叉注意层进行微调,平衡了定制精度和计算效率。在此基础上,DB-LoRA [32] 引入了 LoRA [12] 技术到 DB 中,以实现更高效的参数调整,减少了全面重新训练的需求。近年来,StyleDrop [37]、HyperDreamBooth 以及一系列基于 FFN 的技术进一步通过直接从数据预测适应参数来减少计算需求。
融合多种概念。将用于风格和主题控制的 LoRA 结合起来仍是一个开放的研究挑战。当前的多概念合成方法往往存在明显的局限性。加权求和 [32] 是一种简单的做法,但容易出现特征干扰的问题。Mix-ofShow [9] 要求为每个概念使用专门的嵌入分解 LoRA(ED-LoRA),这限制了其与标准 LoRA 的兼容性。ZipLoRA [35] 可以将风格和内容 LoRA 结合在一起,但在需要多个内容 LoRA 时会遇到困难。OMG [19] 依赖现成的分割方法来隔离主题,因此其性能高度依赖于分割的准确性以及模型生成多个目标的能力。
最近的研究重点在于将多个专业模型整合到一个统一的生成框架中。Mix-of-Show[9]通过使用ED-LoRAs有效地合并了多种模型,但需要访问原始训练数据,这限制了其与社区LoRA的兼容性,例如在civit.ai等平台上可用的LoRA。正交适应[24]引入了约束条件以在LoRA之间分离属性,从而减少相互干扰;然而,这种方法通过直接修改微调过程增加了训练复杂性,同样也需要访问原始数据。
作者的方法LoRACLR使用对比目标对专门化的LoRA模型的权重空间进行对齐,从而实现最少干扰下的多概念一致性组合。与以往方法不同,LoRACLR无需重新训练即可结合现有的LoRA模型,保留每个模型的独特属性,以实现可扩展且高保真的多概念图像合成。
- Method
作者提出的LoRACLR方法能够在后训练阶段无缝地合并独立训练的LoRA模型,实现多概念合成。不同于对每个模型进行修改或重新训练以确保兼容性,LoRACLR采用基于优化的方法,将预先存在的LoRA模型适应为在一个共享模型中协同工作,能够生成所有目标概念。利用对比学习,作者的方法对齐了各个模型的权重空间,确保每个概念在联合组成中既保持高保真度又具有兼容性。LoRACLR的概述如图2所示。
3.1. Low-Rank Adaptation Models
LoRA [12] 通过向冻结的基础层添加低秩矩阵,其中 (W_{\mathrm{in}}) 和 (W_{\mathrm{out}}) 远小于 (W),使得模型存储空间减少到仅需 15-100 MB,而完整模型的存储空间为 3.44 GB。这种微调方法可以在扩散模型的潜在空间中高效地嵌入新的风格或概念。
3.2.LoRACLR
LoRACLR 融合过程的核心是一个对比损失目标,旨在确保统一模型内独立训练的 LoRA 模型之间的兼容性,作者的对比目标背后的思想如下:由同一 LoRA 模型生成的正配对应吸引,而由不同 LoRA 模型生成的负配对则应排斥,参见图2(b)。对比损失目标定义如下:
其中, 表示每对的正距离, 表示负距离, 是间隔参数,定义了负对之间的最小允许距离,用于确保分离并防止特征重叠,而 则是被结合的概念的数量。正成分和负成分定义如下:
其中, 是原始LoRA模型的输出特征与合并模型在同一概念下预测的特征之间的距离。
其中 (d_{n,i}) 是负距离,计算方法是给定概念 (i) 的输出特征 (Y_i) 与与之无关的概念 (j \neq i) 的预测特征 (\hat{Y}_j) 之间的最小距离。这种对比目标使得无关的概念保持独特性,同时将每个概念的输出特征与合并模型的预测特征对齐,从而使 LoRACLR 能够在最小干扰的情况下进行连贯的多概念合成。
基于Δ的合并。LoRACLR 使用一个增量 ΔW 来合并 LoRA 模型,而不直接修改基础权重。ΔW 初始化为零,作者学习 ΔW 以调整预训练权重,从而保留每个模型的完整性并确保兼容性。对 ΔW 应用 L2 正则项以限制其幅度,确保稀疏性和最小调整。优化目标结合了对比合并损失 (L_{contrastive}) 和 (\mathcal{L}_{\delta})。
其中, 控制了概念有效融合与保持 的稀疏性之间的权衡。总目标为:
在每一步中, 被更新以最小化 ,使用梯度下降方法。正样本和负样本构成了对比对,强化了每个概念的独特边界,并确保合并的概念之间的一致性对齐。这个迭代过程最终收敛到一个优化的权重配置。通过限制对 的更新而不是直接修改基础权重,LoRACLR 实现了平衡的适应性,在保留每个概念特征完整性的前提下,使多个概念能够在统一模型中无缝合并。
- Experiments
实现细节。在所有实验中,作者使用Stable Diffusion模型[29]及ChilloutMix预训练权重,以利用其高质量图像生成能力。作者的方法利用预训练的LoRA模型,从而无需从头开始训练每个LoRA模型,并显著减少了计算开销。在合并过程中,作者使用学习率,控制对比学习中正负样本对之间分离程度的参数设为0.5,并使用正则化系数来确保学习到的的稀疏性。所有实验,包括模型输出和处理,均在弗吉尼亚理工大学的NVIDIA A100 GPU上进行。结合12个概念通常只需大约5分钟,这使得作者的方法具有可扩展性和实际应用中的实用性,能够无缝集成多个概念。对于实验,作者使用预训练的一概念LoRA模型或ED-LoRA模型作为起点。
Baseline 方法。作者评估了作者的方法与其他在多主题定制方面领先的 Baseline 方法的性能对比,包括:DB-LoRA [30]、 [39]、Custom Diffusion [20]、Mix-of-Show [9] 和 Orthogonal Adaptation [24]。每种方法都采用了不同的策略将微调模型合并在一起。对于 DB-LoRA,使用了联邦平均(FedAvg)进行模型合并。Custom Diffusion 使用其基于优化的方法来进行合并,而 Mix-of-Show 则通过梯度融合来实现合并。Orthogonal Adaptation 引入了正交变换以减轻合并过程中概念间的干扰。至于 ,并没有对模型权重进行微调;相反,合并是通过直接 Query 每个概念的 Token 表征来实现的。
数据集与评估指标。所有评估均使用文献[24]提出的相同实验设置和数据集,该数据集包含12个概念标识,每个标识由不同上下文中16张目标概念的图像表示。按照先前工作的做法[9, 24],作者使用三个关键指标来评估作者的方法:文本对齐、图像对齐和身份对齐。文本对齐通过CLIP模型[26]衡量生成图像与输入 Prompt 之间的相似性,以确保生成的图像符合输入 Prompt 。图像对齐在CLIP特征空间中评估生成图像与参考图像之间的相似性。身份对齐则利用ArcFace模型评估生成图像中目标人类身份的保留准确性。
4.1. .Qualitative Results
作者展示了本方法在单个人和多个人情况下的定性结果。利用[24]中识别出的12个主体,作者首先通过作者的新颖对比目标将它们统一到一个模型中,且这一过程适用于所有实验。与需要为每个概念单独微调的方法不同[24],作者的方法可以使用预训练模型,如LoRA或ED-LoRA模型。
单个概念。作者首先展示作者的方法在保留个体身份方面的能力。图3(底部行)证明了作者的方法能够保持每个身份的完整性,适用于单一概念。这一能力同样适用于多种场景。例如,“<概念>赛博朋克风格”展示了行人被描绘成类似于游戏角色的形象,正如图3底部行第四张图片所示。
多概念。图3展示了使用作者方法生成的具有不同概念数量(分别为6个、5个、4个、3个和2个)的图像。这些视觉效果证明了作者的方法不仅能够准确捕捉每个个体的身份,还能够根据文本 Prompt 生成复合图像。特别地,作者的方法通过利用单一合并模型,能够在多种 Prompt 下生成广泛的概念,从而避免为不同的概念数量训练单独的模型。此外,作者注意到,针对各个主题的原始LoRA模型是在变化的扩展数据集上进行训练的。
对于名人的图像,这些图像可能会有不同的发型或肤色。因此,在同一名人模型的不同世代中(例如,Taylor Swift LoRA 的不同世代可能显示出不同的发色或发型),即使是在同一代序中,也可能出现发型或肤色的变化,这反映了名人现实生活中的变化。这些变化并不是作者模型中的不一致性,而是反映了原始 LoRA 模型中固有的多样性。重要的是,尽管存在这些变化,作者的模型仍然能够保持对名人面部的真实性和身份性,并确保不同主题的细节(如发型)不会混淆。
定性比较。在图4中,作者可视化地将作者的方法与几种最先进的方法进行了比较,包括正交适应、MoS和,涉及多种概念。图4显示,作者的方法成功地保留了各自的个体身份,而其他方法则遇到了问题。例如,正交适应[24]意外地将特征,如女性角色的头发,转移给了其他人,而MoS[9]和[39]则难以精确描绘身份。此外,在处理两个或三个概念时,这些模型表现尚可,但随着概念数量的增加,它们准确表示多个概念的能力会减弱。例如,在包含六个概念的场景中(参见图4的第一部分),除了LoRACLR的方法未能保留莱昂内尔·梅西的身份,这凸显了随着概念数量增多,它们的局限性。
Style LoRA 综合 为了展示作者方法的灵活性,作者将风格特定的 LoRA 模型集成进来,生成结合概念和风格化元素的场景,从而能够产出类似漫画艺术或油画等不同风格的输出。如图6 所示, Prompt 词“...在城市中,以漫画风格”捕捉到了漫画艺术的生动美学,而“...在花园里,手持花朵,以油画风格”则反映了油画的艺术质感。复杂的场景“...在城堡中,签署文件,以油画风格”展示了模型在保持内容一致性的同时调整风格的能力。这些结果证明了作者方法在保留内容准确性并实现高度风格化的效率,使其适用于创意和艺术流程。
非人类示例。作者展示了涉及非人类概念的例子,包括动物、物体和纪念碑。作者的模型在这些场景中无缝地进行了泛化,同时保持高质量的输出和风格的一致性。如图7所示,作者的方法有效地将各种概念整合到一致的场景中。它在处理桌子、椅子和花瓶等物体时表现出色,能够准确捕捉它们独特的纹理。此外,它在处理如金字塔和岩石这样的宏伟元素方面也表现出很强的鲁棒性,能够与其他概念无缝融合。这些结果突显了作者的方法在生成广泛范围内的非人类概念(包括动物、物体和地标)的一致且视觉上吸引人的组合方面的适应性。这种灵活性使得该方法适用于创造性和实际应用,例如野生动物插图、室内设计和建筑可视化。
4.2. Quantitative Results
在表1中,作者展示了每个方法在进行身份合并前后的结果,以说明其对评价指标的影响。作者的方法在图像和身份对齐方面取得了最高分,这通过图4中的定性示例得到了证实。尽管Custom Diffusion和DB-LoRA在文本对齐方面表现优异,但在图像和身份对齐方面却逊色不少,这突显了作者在所有关键方面的多样性和均衡性能。
概念数量的影响。与其他方法不同,LoRACLR 在结合的概念数量增加时能够维持文本对齐、图像对齐和身份保存等指标,详见第5章。
用户研究。为了补充表1和图5中的发现,作者在Prolific.com [25] 上进行了涉及50名参与者的用户研究。该研究包含40个问题,参与者在随机顺序中被展示由作者的方法和竞争方法生成的个体概念参考图像与复合图像配对。参与者需要基于以下标准评估每对图像:身份匹配:给定左侧的参考图像,右侧的图像多大程度上捕捉了第二个概念的身份?(评分尺度:1=完全不,5=非常)。作者的方法在身份匹配方面的评价明显高于其他方法,表明其在保持复合图像中概念身份方面具有更优的能力,见表2。
时间效率方面,作者的方法显示出显著的优势。合并12个LoRA模型仅需5分钟。相比之下,[24]需要从头开始微调每个LoRA模型,每个模型大约需要10-15分钟。虽然[24]的实际合并过程只需1秒,但在此之前需要进行微调,这总共耗费了120分钟。而Mix-of-Show则需要15分钟来合并模型。完成合并后,生成图像所需的时间对于所有方法来说大约为10秒。这一比较清楚地表明,在合并模型方面,作者的方法比其他方法要快得多。一旦使用LoRACLR将LoRA模型合并为一个统一模型,便无需进一步对个别概念进行重新训练或访问原始训练数据即可生成合成图像。
4.3.Ablation Study
作者进行了消融研究以评估关键参数的影响。通过探索余量、 和概念数量的效果,作者确定了在复杂组合中实现稳健的身份保真和连贯性的最优设置。
不同Margin和的影响。如图8所示,作者探索了不同的Margin值和。实验结果表明,当Margin值在0.25到0.5之间,且设置为0.001时,作者的方法能够实现稳健的身份保留和视觉一致性。这两个参数的较高值会导致个体身份和 Prompt 一致性保持能力下降。
概念数量的影响。图8中的定性结果进一步表明,即使在复杂的多概念组合中,作者的模型仍能保持身份一致性和视觉连贯性,突显了其可扩展性和鲁棒性。
- Limitation and Societal Impact
作者的方法采用了一种新颖的对比学习目标,将预训练的LoRA模型相结合,并在多主题图像合成方面取得了成功的结果。
然而,类似地,其性能从根本上取决于作为输入提供的底层LoRA模型的能力。因此,LoRACLR在生成连贯且高质量图像方面的成功取决于这些初始模型的鲁棒性和适应性。这种依赖性强调了使用训练良好且具备多样性的LoRA模型以确保最佳结果的重要性。
此外,由于作者的方法能够实现复杂组合功能,因此必须考虑其潜在的滥用风险,比如生成深度假相。因此,作者主张谨慎使用该方法,防止此类应用,促进道德使用,并确保图像合成的进步对技术和社会产生积极影响。
- Conclusion
参考
[0]. LoRACLR: Contrastive Adaptation for Customization of Diffusion Models .