U-StyDiT：基于Transformer扩散与内容 - 风格解耦的新颖艺术风格转换法，借Aes4M数据集生成超高质量图像！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

超高质量的艺术风格转换是指使用风格图像中学到的风格信息重绘超高质量的内容图像。现有的艺术风格转换方法可以分为基于风格重建和内容风格解耦的艺术风格转换方法。尽管这些方法能够生成一些艺术风格化的图像，但仍存在明显的伪影和不和谐的模式，这限制了它们产生超高质量艺术风格化图像的能力。

为了解决这些问题，作者提出了一种名为U-StyDiT的新颖艺术图像风格转换方法，该方法基于基于Transformer的扩散（DiT），并学习内容-风格解耦，从而生成超高质量的艺术风格化图像。具体来说，作者首先设计了一个多视角风格调制器（MSM），从局部和全局的角度学习风格图像中的风格信息，并以此条件化UStyDiT，使其生成带有学习到的风格信息的艺术风格化图像。然后，作者引入了StyDiT块，通过单一风格图像同时学习内容和风格条件。

此外，作者还提出了一套包含10个类别的超高质量艺术图像数据集Aes4M，每个类别包含40万张风格图像。该数据集有效地解决了现有风格转换方法因数据集大小和图像质量而导致无法生成高质量艺术风格化图像的问题。

最后，广泛的定性与定量实验验证了作者的U-StyDiT相较于最先进的艺术风格转换方法能够生成更高质量的风格化图像。据作者所知，作者的方法是首个利用基于Transformer的扩散生成超高质量风格化图像的方法。

Introduction

给定一幅内容图像，超高质量的艺术风格迁移是指将学习到的风格信息转移到该内容图像上，生成一幅超高质量的艺术风格化图像。现有的艺术风格迁移方法主要可以分为两大类：基于风格重建的方法和基于内容-风格解耦的艺术风格迁移方法。

更具体地，基于风格重建的风格迁移方法通常只在风格图像上训练一个风格 Adapter ，以便条件化稳定的扩散（SD）生成具有所学风格信息的目标图像。例如，Ip-adapter [41] 在基于Unet的稳定扩散中引入了一个风格 Adapter ，从风格图像中学习风格信息。最近，FLUX [20] 利用DiT基于的稳定扩散 [26] 进行训练，并展示了在生成高质量图像方面的出色能力。InstantX 在FLUX上训练了一个风格 Adapter 以注入风格信息。然而，在实现风格转移时，这些方法使用Canny图像 [5] 作为额外的条件，以保留风格化图像的内容结构。作者认为，由于风格条件和Canny通常分别在风格图像数据集和内容图像数据集上进行训练，这不可避免地导致在同时使用时会发生信息混淆，从而引入明显的伪影和不和谐的模式（例如，图2第4列）。

picture.image

基于内容风格解耦的风格迁移方法同时关注内容和风格条件的训练。例如，CSGO [39] 创建了一个包含内容图像、风格图像和风格化图像的三元组数据集。通过训练模型将风格化图像分解为相应的内容和风格条件，可以在推理时利用内容和风格图像生成风格化图像。StyleShot [13] 在预训练的内容条件下训练了一个混合专家（MoE）[28] 模块，以提取多级风格嵌入。然而，尽管这些方法在一定程度上学习了内容与风格的解耦，但它们仍然无法生成超高质量的风格化图像。

作者认为这种局限性的主要原因是两个方面：

1）与基于Transformer的扩散相比，基于Unet的扩散在捕捉 Patch 之间的长程依赖关系方面存在一定限制，这阻碍了其生成超高质量风格化图像的能力。

2）缺乏超高质量的艺术风格图像以及有效的风格图像获取方法。为了解决上述问题，作者介绍了一种新的框架U-StyDiT，用于生成超高质量的风格化图像。首先，作者专注于设计一种调制器，将其风格信息注入到基于Transformer的扩散模型中 [21]。

具体地，作者提出了一种新颖的多视角风格调制器（MSM），从局部和全局两个角度提取风格信息。具体而言，作者同时从整个风格图像以及风格图像内的多个 Patch 中提取风格信息。与之前的方法 [42, 48] 不同，作者并没有将与整体图像相似度较低的风格图像 Patch 直接丢弃；相反，作者将其在Token Level 进行合并，并采样风格信息以减少计算复杂度。

此外，作者引入了一个StyDiT块来替换现有的DiT块，解决了基于Transformer的稳定扩散模型同时学习内容和风格条件的挑战。据作者所知，这是第一篇在基于Transformer的稳定扩散模型中同时训练内容和风格条件以生成超高质量风格化图像的研究论文（例如，作者在图1中展示了由作者的方法生成的一些超高质量风格化图像）。此外，作者发现现有方法通常使用Canny [5] 来提取内容条件。然而，当应用于现有艺术图像（例如来自Wikiart [24] 的图像）时，Canny往往会遇到困难。这是因为Wikiart中的艺术图像往往具有高频的详细纹理特征，使得从人类创作的艺术作品中提取Canny图像和风格信息并用于训练内容和风格条件变得具有挑战性。为此，作者提出了一个名为Aes4M的超高质量艺术图像数据集，该数据集包含10个类别，每个类别的艺术图像有40万张，总计400万张艺术图像。每张艺术风格图像都有很高的美学价值和文本-图像一致性，且具有清晰的Canny图像。总之，作者展示了以下几方面的贡献：

picture.image

作者提出了一种新颖的艺术图像风格迁移方法 U-StyDiT，该方法基于基于Transformer的扩散(DiT)，能够生成超高质量的艺术风格化图像。
作者提出了一种新颖的多视角风格调节器(MSM)以从局部和全局两个视角提取样式信息，并引入了StyDiT块以同时在基于Transformer的稳定扩散中解决学习内容条件和风格条件的挑战。
作者构建了一个包含10个类别的超高质量艺术图像数据集 Aes4M，每个类别包含40万艺术图像，总计400万张图像。与以往的数据集相比，Aes4M具有高美学价值、高文本-图像一致性以及清晰的Canny图。
Related Works

基于样式重建的风格迁移。基于样式重建的风格迁移方法是指通过仅在样式图像上训练一个样式 Adapter 来条件化稳定的扩散过程，以生成所需的图像。例如，PerText [12] 在预训练的文本到图像模型的嵌入空间中使用伪词作为特定概念，从样式图像中获取样式信息。Inst [44] 从样式图像中学习文本嵌入，并使用所学的文本嵌入来条件化稳定的扩散过程以生成所需的风格化图像。Artbank [47] 引入了一种隐式的样式条件，以便从多个样式图像中学习样式信息。StyleID [9] 通过用样式特征的关 Key和Value 替换内容特征的关 Key和Value ，将样式信息注入到稳定的扩散过程中。Ip-adapter [41] 使用样式 Adapter 向基于Unet的稳定的扩散模型注入样式信息，从而使其能够从给定的样式图像中学习全局样式信息。

InstantStyle [35] 发现，在基于Unet的稳定的扩散模型中，样式信息仅由特定层控制。这一现象促使InstantStyle仅向特定层注入样式信息。StyleAligned [15] 在扩散过程中实现了最小的注意力共享操作，并生成了样式一致的风格化图像。

尽管这些方法可以有效地实现风格迁移，但它们忽略了有效内容条件的学习，无法生成高质量的风格化图像。因此，生成的风格化图像往往表现出明显的伪影和不和谐的模式。

内容风格解耦的风格迁移。基于内容风格解耦的方法同时从风格图像中学习内容和风格条件。例如，CSAST [19] 首次引入三重风格损失来学习不同风格图像内的风格变化，并引入内容解耦损失以确保风格化不依赖真实输入照片的内容结构。LSAST [46] 提出了一个步骤感知和层感知 Prompt ，用于从风格图像中学习风格模式，有效地解耦了风格图像的内容结构与风格模式。Stylediffusion [38] 引入了一种基于CLIP [27] 的风格解耦损失，以实现从风格图像中提取内容风格解耦。Prospect [43] 在DDPM [16] 的步骤维度中分离了内容信息和风格信息。Styleshot [13] 使用了一个混合专家（MoE）模块，该模块在预定义的内容条件下进行训练，以捕捉多层级的风格嵌入。CSGO [39] 创建了一个包含内容、风格和风格化图像的三元数据集。通过训练模型将风格化的图像分解为其相应的内容和风格图像，可以利用两者生成新的风格化图像。

尽管这些方法考虑到了内容结构和样式信息的解耦，但它们受限于高质量数据集的可用性和基于Unet的扩散模型的使用，这妨碍了它们生成超高质量的风格化图像。

Methods

给定一个内容图像和一个风格图像，U-StyDiT 的目标是将风格图像中的风格信息转移到内容图像上，并生成超高质量的风格化图像。由于作者的网络基于基于Transformer的扩散机制设计，并采用FLUX.1-dev [20] 作为主干网络，作者将其命名为U-StyDiT。

图4展示了训练作者提出的U-StyDiT的整体框架，该框架包含两个关键组成部分：1）多视图风格调制器（MSM）和2）StyDiT块模块。在训练阶段，U-StyDiT学习根据给定的文本

、内容条件和风格条件来重建风格图像

。一旦U-StyDiT完全训练完成，作者可以从风格图像中提取风格条件，并从内容图像中提取内容条件，以指导U-StyDiT生成所需的风格化图像（见补充材料中的推理Pipeline）。

picture.image

3.1. Multi-view Style Modulator

作者相信，基于现有的大规模数据训练具有高分辨率（1024×1024）的网络结构一般可以使模型产生更高的图像质量。然而，作者发现将FLUX在高分辨率下完全调优会带来额外的计算负担，比如增加的计算复杂度和内存需求。为了解决这个问题，作者将分辨率为1024×1024的图像缩小到512×512，然后对FLUX进行完全调优。直接从1024×1024缩小到512×512可能会导致一些风格信息的丢失。因此，作者提出了一种多视图风格调节器（MSM），以平衡图像分辨率和计算需求。具体来说，给定一个分辨率1024×1024的风格图像(I_s)，作者将(I_s)调整大小以获得具有512×512分辨率的调整后图像(I_{gs})。

然后，作者使用相同的方法压缩 ( T_{ls}^2 ) 至 ( T_{ls}^n )，得到压缩局部风格 Token：(\hat{T_{ls}})，如下所示：

当 ( T_i^s = { t_{l-1}^s, t_{l-2}^s, \ldots } )。然后，作者可以通过在空间维度上合并全局风格 Token 和局部风格 Token 来获得混合风格 Token ( T_{lsg} )，如下所示：

此外，作者使用混合风格Token

生成Query

、Key

和Value

。

然后，可以通过注意力机制计算混合样式Token之间的关系如下：

其中，

表示多头自注意力[34]，而

表示前向全连接网络。作者重新定义上述过程如下：

3.2. U-StyDiT Blocks

FLUX.1-dev 是一种基于扩散Transformer（DiT）[8, 26, 32] 的文本到图像模型，能够生成超高质量的图像。

FLUX.1-dev 架构包括文本编码器、一个VAE [18] 和一个DiT模块，输入由两种类型的Token组成：图像Token和文本条件Token。在FLUX.1-dev中，每个DiT块包含 LayerNorm 后接多模态注意机制（MMA）[10]。对于图像Token

和文本

Token，多模态注意机制（MMA）将它们投影到 Query （Query）、键（Key）和值（Value），以便计算注意：

其中，

表示图像 Token 和文本 Token 的拼接。Softmax 表示softmax函数[4]。基于 FLUX.1-dev [20]，OminiControl [32] 引入了一个条件图像 Token

到多模态注意力计算中，以支持条件图像信息的注入，如下所示：

其中，

表示图像、文本和条件图像 Token 的连接。基于式 9，作者通过混合风格 Token

来替换条件图像信息，引入风格信息如下：

其中，

表示由调整大小后的风格图像生成的图像 Tokens。然而，以这种方式简单地添加风格信息往往会导致仅注入风格条件，使得同时学习内容和风格条件变得困难。为解决这一问题，作者引入了一种新颖的 StyDiT 块（如图5 所示），该块将 Canny Tokens

添加到图像 Tokens

中，从而获得混合视觉 Tokens

如下：

其中，

表示 Canny 条件的控制强度，

。作者重新定义上述过程如下：

值得注意的是，StyDiT 解决了如何在基于Transformer的扩散模型中学习内容和风格条件的问题。

3.3. Aes4M datasets

Aes4M 包含 10 个类别，每个类别有 40 万幅艺术图像，总计 400 万张。每张图像的分辨率为

。为了收集这些图像，作者从 Civitai [1] 收集了 10 组 LoRA 权重 [17]，这些权重可以生成与实际业务应用高度相关的高质量风格图像。作者使用这些 LoRA 权重来控制 SD3.0、SD3.5、SDXL [29] 和 FLUX [20]，以生成高质量的风格化图像。这些图像主要包含以下 10 种风格信息：油画、卡通、顾风、像素画、彩绘、3D、素描、京剧、可爱和水墨画（详见补充材料）。Aes4M 的构建步骤如下所示：

· Prompt生成。作者首先使用GPT-4o生成了170万条多样化的描述文本，这些描述涉及风景、物体等。这些描述旨在尽可能全面地描绘一个开放的世界。

· 图像风格合成。对于每组LoRA权重，作者将它输入对应的扩散模型，并利用170万条描述文本生成170万张图像。作者基于文本-图像一致性、审美评价和Canny图像相似性筛选生成的图像。筛选后，每个类别约包含40万张图像。

· 文本-图像一致性。为了确保Aes4M数据集中图像与描述文本之间的高度一致性，作者使用了一种文本-图像一致性评估模型[25]，筛选掉一致性评分低于30的图像。

· 审美评价。为了确保Aes4M数据集中每张图像都有较高的审美分数，作者使用了一种审美评估模型[31, 40]对生成的图像进行筛选，去除那些审美分数低于7的图像。

· Canny图像相似性约束。相比于Wikiart数据集[24]，作者提出的数据集Aes4M具有更清晰的Canny边缘信息。作者使用CLIP Score[27]来计算每张图像与其对应Canny图像之间的相似度，以及每张图像与其他图像之间的相似度。

其锐化图像的值超过了0.67。

Experiments

4.1. Implementation Details

作者使用FLUX.1-dev [20] 作为基模型，并对基模型进行了全面微调。在训练过程中，作者从Aes4M中随机选取风格图片，并统一调整分辨率为

像素。U-StyDiT使用批量大小为2且梯度累积4步进行训练。实验在32块NVIDIA A100 GPU（每块80GB）上进行。模型总共训练了200万次迭代。此外，在从风格图片提取Canny图时，高阈值设为200，低阈值设为100。

4.2. Comparisons with SOTA Methods

作者从定性和定量比较的角度将作者的U-StyDiT与七个最新方法[9, 13, 15, 33, 35, 39, 44]进行了对比。

与当前最先进的艺术风格转换方法进行定性比较。作者将作者的方法与最先进的艺术风格转换方法进行了比较，包括基于风格重建的艺术风格转换方法（例如，InstantX [33]，StyleID [9]，InstantStyle [35]，InST [44] 和 StyleAligned [15]），以及基于内容-风格分离的艺术风格转换方法（例如，CSGO [39] 和 StyleShot [13]）。作为基于风格重建的艺术风格转换方法的代表，InstantX 倾向于生成一些风格化图像但纹理模糊（例如，第 1 行和第 5 行）。StyleID 无法保留内容结构（例如，第 2 行）。InstantStyle 有时会产生风格度过高的风格化图像（例如，第 3 行）。InST 总是无法保留输入内容图像的内容结构（例如，第 4 行和第 6 行）。StyleAligned 在平衡内容结构和风格模式方面存在一些局限性，并引入了不和谐的图案（例如，第 5 行和第 6 行）。作为基于内容-风格分离的艺术风格转换方法的代表，CSGO 有时会引入明显的伪像（例如，第 1 行和第 2 行）。StyleShot 生成的风格化图像具有明显的伪像和不和谐的图案（例如，第 5 行）。

与上述方法相比，作者提出的UStyleDiT可以在不引入明显_artifacts_和不和谐图案的情况下生成超高质量的艺术风格化图像。

4.3. Quantitative Comparisons

为了评估内容图像与风格化图像之间的内容相似性，作者使用了平均结构相似性指数（SSIM）[3]。为了比较作者提出的方法在内容保留方面的优越性与现有的风格迁移方法，作者收集了50张内容图像和20张风格图像，并生成了1000张风格化图像以计算这些风格化图像与其对应内容图像之间的平均SSIM值。如表1第2行所示，结果表明作者的方法在风格化图像与内容图像之间的结构相似性方面优于其他现有的风格迁移方法。

picture.image

CLIP 分数[27]通常用于评估风格化图像与相应图像之间的风格相似性。如表1第3行所示，作者计算了1,000张风格化图像与其对应的风格图像之间的平均CLIP分数。结果显示，作者方法生成的图像与参考风格图像在风格一致性方面表现更佳。

为了进一步评估由作者提出的方法生成的图像质量，作者采用了审美评估模型[31, 40]对1,000张风格化图像进行了全面评估，并计算了平均审美评分。如表1第四行所示，作者的方法获得了最高的审美评分为6.974，这进一步证明了在审美评估模型视角下，作者方法在生成高质量图像方面的优越性。

用户研究虽然作者已经使用SSIM、CLIP得分和美学得分评估了生成的风格化图像，但风格化图像的评估仍然受到主观视角的影响很大。因此，作者进行了一次偏好评分[7]来评估作者的方法。偏好评分通常用于比较两种方法的受欢迎程度。具体地，作者随机选择了100对内容图像和风格图像。对于每一对内容图像和风格图像，作者向用户展示了由作者方法生成的风格化图像和其他先进方法生成的风格化图像。用户被要求基于风格模式和内容结构选择他们更喜欢的图像。每位用户回答了40个问题，每个问题获得了2000票，并展示了支持作者方法多于其他方法的投票百分比，如表1第4行所示。得分越高表明作者的方法更受用户青睐。作者可以轻易得出结论，与其它风格迁移方法相比，由作者方法生成的风格化图像更受用户的喜爱。

此外，作者使用了欺骗评分[30]来评估合成图像是否容易被感知为人类创造的。作者为每种方法随机选择了100张合成图像，并要求50名参与者猜测生成的图像是否由人类创建。如表1第5行所示，有78%的参与者认为作者的生成图像是由人类创建的，这表明作者提出的方法能够生成更接近人类创作样式的图像。

时间信息如表1中的第7行所示，在A40上，作者以512×512像素的分辨率与[37, 45, 48]进行推理时间比较。由于采用了更强大的FLUX.1-dev [20]，该方法基于Transformer扩散结构，作者的方法在推理时间上存在一定劣势。然而，无可否认的是，作者的方法可以生成超高质量的风格化图像。

4.4. Ablation Studies.

多视图风格调节器。作者提出了一种多视图风格调节器（MSM），用于从高分辨率图像中学习风格信息并平衡计算需求。为了验证MSM的有效性，作者分别移除全局风格Token ( T_{gs} ) 和局部风格Token ( T_{ls} )，以验证作者方法的有效性。如图8所示，在移除 ( T_{ls} ) 后，局部风格信息变得混乱（第1行，第4列），导致相同的目标无法保留相同的颜色（第2行，第4列）。此外，经过风格化的图像与参考风格图像之间的风格相似度降低（通过较低的CLIP分数表示），且经过风格化图像的艺术质量也下降（通过较低的艺术评分表示）。而在移除 ( T_{gs} ) 后，经过风格化的图像表现出明显的伪影（第1行，第3列），在某些细节上未能实现理想的风格化效果（第2行，第3列）。

picture.image

StyDiT块。提出的StyDiT块可以同时学习内容条件和风格条件。一旦StyDiT经过训练，作者可以通过控制内容条件系数

来控制生成的风格化图像与内容图像之间的结构相似性。如图7所示，作者将系数

从0.1线性调整到1以展示内容可控性。随着系数

的增加，生成的风格化图像与内容图像之间的结构相似性也增加。

picture.image

Conclusion

在本文中，作者提出了一种新颖的艺术图像风格转移框架U-StyleDiT，该框架基于Transformer驱动的扩散技术，并能够生成超高质量的艺术风格化图像。具体而言，作者设计了一个多视图风格调制器，可以从局部和全局两个角度学习风格信息。为了同时学习内容和风格条件，作者在基于Transformer的扩散模型中引入了StyDiT块，以从图像中学习内容与风格的解耦。

当前的艺术图像数据集，如Wikiart[24]，通常无法提供清晰的Canny边缘信息。这一限制阻碍了这些数据集在基于扩散模型的方法中的应用，因为这些方法需要同时训练Canny边缘作为内容条件和风格条件。

为解决这一挑战，作者引入了一个新的超高质量艺术图像数据集Aes4M，该数据集涵盖了10个类别和400万张高美学质量和艺术性的图像。此数据集的特点是其高美学质量、一致的文字图像对齐以及清晰的Canny边缘条件。

参考

[0]. U-StyDiT: Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers .

点击上方卡片，关注「AI视界引擎」公众号

U-StyDiT：基于Transformer扩散与内容 - 风格解耦的新颖艺术风格转换法，借Aes4M数据集生成超高质量图像 ！

3.1. Multi-view Style Modulator

3.2. U-StyDiT Blocks

3.3. Aes4M datasets

4.1. Implementation Details

4.2. Comparisons with SOTA Methods

4.3. Quantitative Comparisons

4.4. Ablation Studies.

参考

U-StyDiT：基于Transformer扩散与内容 - 风格解耦的新颖艺术风格转换法，借Aes4M数据集生成超高质量图像！