静态图像训练动态模型, 引导扩散模型精准分离, Adapter+CS-CFG双剑合璧超越现有Baseline ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

作者研究使用diffusion models进行视频风格迁移的任务，其目标是在保留输入视频上下文的同时，用文本 Prompt 指定的目标风格对其进行渲染。一个主要挑战是缺乏用于监督的成对视频数据。作者提出PICKSTYLE，一个视频到视频风格迁移框架，该框架通过风格 Adapter 增强预训练的视频扩散 Backbone 网络，并利用具有源-风格对应关系的成对静态图像数据进行训练。

PICKSTYLE将低秩 Adapter 插入到条件模块的自注意力层中，从而实现高效的针对运动-风格迁移的专门化，同时保持视频内容与风格之间的强对齐。

为了弥合静态图像监督与动态视频之间的差距，作者通过应用模拟相机运动的共享增强，从成对图像中构建合成训练片段，以确保时间先验得以保留。此外，作者引入Context–Style Classifier-Free Guidance (CS–CFG)，这是一种将classifier-free guidance分解为独立的文本（风格）和视频（上下文）方向的新颖方法。

CS–CFG确保在有效转移风格的同时，上下文在生成的视频中得以保留。在多个基准测试上的实验表明，yinqin-PICKSTYLE实现了时间上连贯、风格忠实且内容保留的视频转换，在定性和定量上均优于现有 Baseline 模型。

unsetunset1 引言unsetunset

视频扩散模型的最新进展使得生成逼真且时间连贯的视频成为可能。随着这些进展，越来越多的研究探索为文本到视频扩散模型添加可控性的方法，从而能够对生成内容进行更细粒度的指导。尽管图像领域的风格转换已取得显著进展，但视频领域的改进仍然有限。这一限制主要归因于涵盖多种风格的精心策划成对视频数据集的稀缺，与此相反，图像领域这类资源丰富。

为了缓解数据限制，几种方法利用图像先验对关键帧应用风格迁移，并随后将其整合到视频中，然而，实现连贯的运动与外观仍然是一个持续的挑战。StyleMaster 通过利用 VisualAnagrams的幻觉特性来合成训练数据，生成共享一种共同风格但内容不同的图像对。基于静态-动态范式，它随后在冻结的视频表示上训练一个运动 Adapter 。然而，仍然存在两个关键限制。首先，这些合成的图像对主要捕捉艺术变化，不足以建模更复杂的风格，例如LEGO。其次，在冻结的视频上训练运动 Adapter 预设了空间和时间注意力之间的分离，而近期的架构越来越多地采用 spatiotemporal attention 机制，使得这种解耦更具挑战性。

为解决这些局限性，作者利用GPT-4o（Achiam等人，2023）强大的风格转换能力，将Unity3D渲染的脱口秀转换为三种不同风格（动漫、黏土和皮克斯风格），从而构建了一个精心策划的图像数据集。然后，作者使用OmniConsistency（Song等人，2025）的一个子集来扩充这个数据集，以进一步增加风格多样性。为了将这些图像对转换为视频，作者应用了合成相机运动（例如，缩放、滑动），创建具有简单运动的序列，并减少对静态、无动作视频过拟合的风险。接下来，作者保持基础模型冻结，并在以RGB视频为条件的辅助分支上训练一个LoRA模块。

受免训练扩散引导方法的进展启发，作者通过将无分类器引导扩展到上下文-风格无分类器引导（CS-CFG）来进一步强化上下文条件，该方法在去噪过程中同时强调风格的文本 Prompt 和上下文信息的视频。作者的实证结果表明，该方法显著优于现有模型，在保持与条件视频一致性的同时有效地转换风格。

unsetunset2 相关工作unsetunset

视频风格迁移与图像先验

已有一些模型通过引入时序机制来扩展基于图像的扩散模型，并将其应用于视频风格迁移。ControlVideo (Zhang et al., 2023b) 通过添加完整的跨帧自注意力和交错帧平滑，将 ControlNet 从图像适配到视频，从而在文本和条件引导下实现了高度的结构保真度。然而，该方法严重依赖于控制信号（如深度或边缘）的质量，因此当这类引导存在噪声或不可用时，其鲁棒性会降低。ReRender-AVideo (Yang et al., 2023) 首先利用图像扩散模型，在分层跨帧约束下生成风格化关键帧，然后通过基于块的混合方式将其传播到整个视频。这种混合设计在效率和质量之间取得了平衡，但在发生大幅度运动或场景变化时，可能会引入模糊的细节或伪影。FRESCO (Yang et al., 2024) 在图像先验的基础上，通过强化空间和时间对应关系，并引入一种特征混合机制，该机制能够聚合空间相似区域并沿光流路径进行传播。尽管该方法减少了闪烁并提高了运动稳定性，但它对光流误差仍然敏感，并增加了计算复杂度。尽管取得了进展，但所有这些基于图像的方法仍然难以在完全保留输入视频自然运动的同时，避免产生明显的闪烁。

使用视频扩散模型进行视频风格迁移

基于视频扩散进行风格迁移的模型包括Control-A-Video (Chen等人, 2023)、V-Stylist (Yue等人, 2025)和StyleMaster (Ye等人, 2025)。Control-A-Video通过时间层和时空注意力扩展了图像扩散 Backbone 网络，并集成了运动感知初始化和首帧条件化，同时还支持每帧控制（如边缘、深度或光流图）；这使其能够在应用 Prompt 中描述的风格的同时保持结构和运动，尽管其输出通常局限于短片段和中等分辨率。V-Stylist将此问题作为多Agent流程处理：它将输入视频解析为镜头，使用LLM解释开放式风格请求，并通过平衡风格和结构的自优化循环指导，使用特定风格的扩散模型和多个ControlNet渲染每个镜头。这种设计使其对长而复杂的视频有效，同时产生强大的风格保真度。相比之下，StyleMaster将局部和全局风格线索整合到视频扩散 Backbone 网络中，采用运动 Adapter 增强时间一致性，并使用分块ControlNet进行视频到视频的转换；其风格通常更具艺术性，因为它们基于使用VisualAnagrams创建的精选训练数据集，该数据集强调独特的绘画和创意效果。

unsetunset3 PICKSTYLEunsetunset

作者的目标是将文本到视频扩散模型应用于视频风格迁移任务，即保留输入视频的内容，同时将其外观转换为文本 Prompt 指定的目标风格。一个关键挑战是缺乏用于风格迁移的配对视频数据集。为解决此问题，作者从具有不同艺术或视觉风格的图像对构建训练数据，这些数据为学习一致的外观转换提供监督。

3.1 预备知识

条件扩散模型

在条件扩散模型中，前向过程逐步将一个干净样本

破坏为一个带噪隐变量

通过

直到

近似于高斯噪声。反向过程通过逐步去噪来恢复

，建模为

其中

表示条件信号（例如，类别标签、文本或图像）。这个转换由一个神经去噪器

参数化，该去噪器预测每一步注入的噪声。训练最小化条件目标。

确保学习到的反向动力学生成与条件

一致的样本。无分类器引导。无分类器引导（CFG）是一种广泛使用的采样技术，它增强了条件扩散模型与给定条件

的对齐，而无需外部分类器。去噪器不是仅依赖于

，而是在有条件和没有条件的情况下进行联合训练，产生一个无条件分支

。在推理过程中，这两个预测被插值为

VACE 基于ACE (Han et al., 2024)，VACE (Jiang et al., 2025) 通过视频条件单元(VCU)为文本到视频生成引入了多模态输入调节。正式地，VCU被定义为

其中

表示文本 Prompt ，

是归一化的视频条件，而

是一个二进制 Mask ，其中1表示可以被修改的tokens，0表示保持固定的tokens。然后模型计算反应帧

和非活动帧

，它们被连接为

以形成最终的视频条件输入。

为了注入条件，VACE在训练过程中使用光流、深度图、灰度视频、涂鸦、人体2D姿态和边界框等信号作为

。遵循ControlNet（Zhang et al., 2023a）的方法，它将预训练的文本到视频块复制为上下文块，并将其作为单独的分支进行训练。这些上下文块比主要块少，并且跳过某些层，这使得模型更加轻量级并提高了收敛性。然后，每个上下文块的输出被添加回主分支中相应的DiT块。虽然VACE在训练过程中融入了多样化的条件信号，但RGB帧始终被视为非活动帧。因此，该模型可以处理图像修复和图像外推等任务，但无法将RGB输入编码为反应帧，这限制了其执行风格迁移等任务的能力。

3.2 使用图像对进行训练

为了使模型能够从静态图像对泛化到动态视频内容，作者在训练过程中模拟运动。具体而言，作者应用传统的数据增强技术，如放大/缩小和滑动裁剪窗口，这些操作充当合成相机运动。对于每对图像（源图像，风格图像），作者生成长度为

帧的两个相应视频片段，其中两个片段经历相同的增强轨迹。这确保了配对的片段展现出对齐的合成运动，同时在风格上有所不同，使模型能够在风格转换过程中学习时间一致性。

图2展示了作者的训练和推理流程。作者采用基于Wan2.1中构建的

个DiT块的预训练VACE模型，并添加

个上下文块（

）来编码额外条件。作者仅对上下文块的self-attention层进行微调。处理文本条件的cross-attention层保持不变，因为模型已经展现出强大的语言理解能力。将适应性调整限制在self-attention层可以避免破坏预训练的文本-视频对齐，同时仍然使模型能够专注于跨视频领域的运动和外观迁移。

picture.image

形式上，自注意力层中的标准QKV投影定义为：

其中

是噪声和上下文 Token 的输入特征，而

是在所有分支中使用的共享投影矩阵。作者仅在上下文块上引入 LoRA 变换：

其中

和

是低秩矩阵，且

。

上下文块的QKV随后更新为：

当噪声分支保持不变时：

3.3 上下文-风格 Classifier-Free Guidance (CS–CFG)

令

表示扩散步长

处的含噪潜变量，并令

为一个以文本 Prompt

（风格）和视频条件张量

（上下文）为条件的噪声预测网络。作者通过独立地置换其时间轴和空间轴来构建上下文的一个“null”版本。具体来说，如果

是潜空间中编码后的上下文张量，作者则抽取独立的均匀置换

、

，其中

（分别地

、

）表示集合

（分别地

、

）的所有置换构成的对称群。“null”上下文张量则被定义为

其中

并且类似地适用于

和

。

然后作者评估三个forward passes：

其中

表示丢弃的文本条件（即无分类器的"null" Token ）。

CS–CFG将引导分解为风格（文本）方向和上下文（视频）方向：

给定用户选择的尺度

(风格) 和

(上下文)，引导预测为

3.4 噪声初始化策略

为了增强时间连贯性并保留输入视频的上下文结构，作者偏离了从纯高斯噪声初始化采样的标准扩散过程。相反，作者建议从原始视频内容

的部分噪声版本来初始化采样。给定总共

个去噪步骤，作者选择一个超参数

，并通过对

应用前向噪声过程直到步骤

来构建

：

然后，作者使用

(Lu et al., 2025) 采样器运行从

到

的反向过程：

其中

是以风格 Prompt

和视频内容

为条件的去噪器。

通过从

而不是纯高斯噪声初始化，模型保留了原始视频内容

的空间和运动结构，同时仍然允许足够的随机性来适应由

指定的风格。超参数

控制风格强度（较大的

）和内容/运动保真度（较小的

）之间的权衡。

unsetunset4 实验unsetunset

实现细节

作者使用支持RDMA的(Modal)多节点训练框架来高效优化LoRA参数。作者的风格 Adapter 在Wan2.1-VACE-14B变体上使用32个H100 GPU训练3000步，学习率为

，秩

。在推理过程中，作者在CS–CFG中应用

个去噪步骤，其中

且

。为了进一步改进结果，作者使用TeaCache (Liu et al., 2025)来加速生成，并使用APG (Sadat et al., 2024)来减轻过饱和问题。附录中提供了更多细节。

评估指标

作者基于内容对齐、风格对齐和视频质量来评估yinqin-PICKSTYLE。对于内容对齐，作者使用DreamSim (Fu et al., 2023)距离计算原始视频和生成视频中对应帧之间的帧级相似度，并通过所有帧的平均值报告最终得分。作者进一步使用UMTScore (Liu et al., 2023)评估生成视频与其High-Level文本描述的匹配程度。对于风格对齐，作者计算每个生成帧与文本风格 Prompt 之间的CLIP分数(Hessel et al., 2021)，然后对所有帧取平均以获得最终得分。作者还通过首先计算每个生成帧与目标风格示例之间的相似度平均值，然后对所有帧取平均来计算CSD分数(Somepalli et al., 2024)，从而产生整体风格对齐分数。作者进一步使用Gemini (Team et al., 2023)评估top-

R精确度，方法是将每个生成视频的中间帧与所有候选风格 Prompt 进行分类。对于每一帧，Gemini按顺序返回最可能的top-

风格，作者计算每帧的top-

精确度，并通过对所有帧取平均来产生最终的精确度分数。对于视频质量，作者使用VBench (Huang et al., 2024)基准中的运动平滑度、动态质量和视觉质量。运动平滑度利用AMT (Li et al., 2023)模型中的运动先验来评估生成视频的平滑度。动态质量使用RAFT (Teed & Deng, 2020)来估计动态程度，视觉质量使用MUSIQ (Ke et al., 2021)对每一帧进行评估，以评估如过曝、噪声或模糊等失真情况。

数据集。作者的训练数据集包含多种风格的配对图像。作者首先从Unity3D渲染的动画3D脱口秀中提取250个多样化的帧，这些帧作为作者的源图像。使用GPT-4o，作者将每一帧转换为三种不同的风格：Anime、Pixar和Claymation。为确保生成样本与原始图像在内容上的一致性，作者对每个案例的手动进行了 Prompt 词优化。这一过程产生了一个精心策划的750个风格化样本的数据集，包含原始参考帧及其三种风格变体。为了进一步增强训练数据的多样性，作者纳入了OmniConsistency数据集(Song et al., 2025)中的六种风格：3D Chibi、Vector、LEGO、Rick & Morty、Origami和Macaron，并且作者使用他们的样本进一步增强了作者的Claymation风格。

4.1 与其他方法的比较

定量比较

表1在内容和风格对齐指标上将PICKSTYLE与先前的方法进行了比较。在内容对齐方面，PICKSTYLE实现了最低的DreamSim分数（0.34）和最高的UMTScore（3.33），表明与 Baseline 相比，它具有更强的帧级一致性和与High-Level内容描述的更好对齐。在风格对齐方面，PICKSTYLE达到了最高的CSD分数（0.37）。虽然CLIP分数与Control-A-Video持平（0.57），但PICKSTYLE在所有top-

Level 上都实现了显著更高的R Precision，展示了与目标风格更准确的对齐。

picture.image

图3进一步表明，yinqin-PICKSTYLE在风格对齐方面实现了更快的推理速度和更好的CSD分数，而Rerender和FRESCO依赖于Ebsynth融合（Jamriska et al. ˇ , 2019），这在推理过程中引入了主要 Bottleneck 。

picture.image

定性比较

图4展示了PICKSTYLE与Rerender、Control-a-Video、FLATTEN和FRESCO在LEGO和动漫风格上的定性比较。这些竞争方法依赖于深度图或HED边缘(Xie & Tu, 2015)作为输入，无法获取颜色信息，通常在生成的视频中产生不匹配的色调和明显的颜色伪影。此外，作为基于图像的模型，Rerender和FRESCO表现出较差的时间一致性，并遭受帧间闪烁的问题。最后，虽然这些 Baseline 方法中的几何约束有时能够成功地在 Head 等局部区域形成类似LEGO的结构，但它们经常无法将这些风格细节传播到整个身体。相比之下，PICKSTYLE在整个视频中始终提供忠实的颜色再现、稳定的时间连贯性和一致的几何结构。附录和补充视频中提供了更多跨风格的定性比较结果。

picture.image

图5展示了作者在Unity3D动画上收集的定性结果，这些动画被用于训练动漫、皮克斯和黏土风格。尽管该数据集与用于训练其他风格的照片级真实感数据不同，PICKSTYLE仍然能够从OmniConsistency中转移LEGO、瑞克和莫蒂以及马卡龙等风格，而这些风格最初是在照片级真实感对应物上训练的。这表明PICKSTYLE能够有效跨领域泛化，处理照片级真实感和非照片级真实感的输入。此外，它突出了动画内容的一个实际应用：无需依赖3D引擎的高质量输出，而是可以依靠简单的Unity3D渲染并利用风格迁移来实现视觉上引人注目的结果。

picture.image

在图6中，作者进一步在Macaron风格生成方面比较了PICKSTYLE与VACE。在此，使用RAFT (Teed & Deng, 2020)提取的光流作为VACE的输入条件。由于这些光流不包含颜色信息，VACE无法在其输出中保留丢失的外观细节。此外，由于VACE最初并非为风格迁移而设计，并且对输入几何形状高度敏感，它难以捕捉预期的风格模式，无法实现可靠的风格迁移。附录中提供了与VACE支持的替代输入模态的更广泛比较。

picture.image

4.2 消融研究

运动增强效果

图7展示了运动增强对PICKSTYLE生成的动漫和皮克斯风格视频的影响。对于动漫样本，同时提供了视频描述和风格 Prompt ，而对于皮克斯样本，仅给出了风格 Prompt 。当包含视频描述时，生成结果既实现了良好的运动质量，又实现了忠实的风格迁移。然而，没有运动增强时，一些小的背景运动，如在跑步机上行走的人，经常被忽略，因为模型较少关注精细的运动细节。当不提供视频描述时，这种差距变得更大。在皮克斯示例中，没有运动增强的模型无法完全保留视频末尾的跳跃等动作，而主要关注风格迁移。有了运动增强，即使没有详细描述，模型也能更好地捕捉大规模和细微的运动。

picture.image

CS-CFG的效果

图8突显了CS-CFG在改善风格迁移方面的有效性。在CFG中，只有文本 Prompt 中的风格指导会影响输出，因此虽然视频呈现了预期的黏土风格，但它缺乏对原始内容的保真度。在这种情况下，由于其生成先验，模型将狗与天鹅混淆，并产生了一种混合外观，降低了上下文准确性。一种替代设计将CS-CFG中的空视频上下文替换为零像素，这比CFG有部分改进，但导致过度饱和和黏土风格的不完整保留，例如在人的手上可以看到精细细节的丢失。相比之下，CS-CFG利用时空置换来更好地捕捉上下文线索，从而产生更清晰的细节、忠实的黏土风格迁移，以及对预期内容的更强遵循。

picture.image

unsetunset5 局限性unsetunset

PICKSTYLE基于Wan2.1构建作为底层生成 Backbone ，因此继承了该模型中存在的伪影和弱点。典型问题包括面部和手部等精细区域的扭曲，基础模型在这些区域难以捕捉小细节。随着更先进的视频 Backbone 模型的出现，相同流程可以直接受益于这些模型，减少此类伪影并进一步提高整体质量。

unsetunset6 结论unsetunset

作者介绍了PICKSTYLE，一个基于VACE构建的视频到视频风格转换框架，该框架具有上下文-风格 Adapter 和一种新颖的CS-CFG机制。尽管在相对有限的数据集上进行训练，PICKSTYLE在渲染多种目标风格时仍能有效保持运动和上下文。通过利用合成的运动增强训练对和噪声初始化策略，与现有方法相比，它实现了卓越的风格保真度、时间稳定性和感知质量。

除了定量改进外，PICKSTYLE在不同风格上始终产生连贯的色彩再现和忠实的几何形状，同时避免了基于图像的方法中常见的时间闪烁和混合伪影。这些结果强调，即使在有限的监督下，PICKSTYLE也能提供高质量的风格转换，并为可控视频风格化领域的未来研究建立一个强有力的 Baseline 。

unsetunset参考unsetunset

[1]. P PICKSTYLE: VIDEO-TO-VIDEO STYLE TRANSFER WITH CONTEXT-STYLE ADAPTERS

点击上方卡片，关注「AI视界引擎」公众号