MagicMotion：革新轨迹可控视频生成，借三 Level 条件精准控轨，搭配数据集与基准测试超越旧法 ! - 文章 - 开发者社区

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

近期在视频生成领域的进展显著提升了视觉质量和时间连贯性。在此基础上， trajecory-controllable 视频生成技术应运而生，能够通过明确定义的空间路径实现精确的目标运动控制。

然而，现有的方法在处理复杂目标运动和多目标运动控制时存在困难，导致轨迹跟踪不精准、目标一致性差以及视觉质量下降。

此外，这些方法仅支持单一格式的轨迹控制，限制了其在各种场景中的应用。另外，尚无专门针对 trajectory-controllable 视频生成的数据集或基准测试，阻碍了稳健的训练和系统的评估。

为解决这些问题，作者提出了 MagicMotion—— 一种新颖的图像到视频生成框架，可通过从密集到稀疏的三个 Level 条件实现轨迹控制： Mask 、边界框和稀疏框。给定一张输入图像及其轨迹，MagicMotion 能够平滑地沿定义的轨迹动画化目标，并保持目标的一致性和视觉质量。此外，作者还推出了 MagicData——一个大规模的轨迹控制视频数据集，以及一个自动化的标注和筛选 Pipeline 。

作者还引入了 MagicBench——一个综合基准测试，可对不同数量目标的视频质量和轨迹控制精度进行全面评估。大量的实验表明，MagicMotion 在多个指标上优于先前的方法。

作者的项目页面已公开，网址为 https://quanhaol.github.io/magicmotion-site/.

Introduction

随着扩散模型的快速发展，近年来视频生成取得了显著进步。早期的视频生成方法，例如AnimateDiff [16] 和SVD [3]，主要依赖于UNet [48]结构，导致生成的视频长度和质量有限。Sora [4]展示了DiT [38]架构在文本到视频（T2V）生成方面的强大能力。在此基础上，后续利用DiT架构的模型实现了更高的输出质量和更长的视频时长。

尽管基于DiT的模型在生成高质量和较长视频方面表现出色，但许多文本到视频的方法[16, 66, 68]在控制目标运动和相机运动等属性方面缺乏精确性。细粒度轨迹可控视频生成 emerged 作为一种解决方案，特别是在现实世界场景中生成可控视频时尤为关键。

以往基于轨迹可控性的视频生成方法可以根据所使用的控制信号类型进行分类。这些方法包括基于点的控制、基于光学流的控制、基于边界框的控制、基于 Mask 的控制 [74] 和基于三维轨迹的控制 [13, 15, 57]。然而，这些方法也存在一些局限性。首先，这些方法使用的轨迹控制条件单一。每种方法仅支持一种类型的控制信号。

然而，稀疏轨迹（例如，点和光学流）会导致对物体形状和大小的控制不够精确，而密集轨迹（例如， Mask 和三维轨迹）对于用户来说则难以提供。其次，缺乏一个公开的大规模数据集用于轨迹可控性视频生成。现有的视频目标分割（VOS）数据集在短视频长度、小规模 [9, 10, 21, 39] 或前景目标数量有限 [12] 方面存在不足。再次，缺乏一个统一的标准来评估不同的方法。此外，先前的工作仅专注于视频质量和轨迹准确性，而忽视了移动目标数量的影响。作者认为，控制较少或较多的目标带来了不同的挑战，因此将这一因素纳入评估标准中至关重要。

为了解决这些问题，作者提出了MagicMotion，这是一种带有稠密到稀疏轨迹指导的可控视频生成框架。为了将轨迹条件注入生成过程，作者利用了一个类似于ControlNet [77] 的架构称为Trajectory ControlNet来编码轨迹信息，并通过一个零初始化的卷积层将其添加到原始DiT模型中。MagicMotion支持三种类型的轨迹条件： Mask 、框和稀疏框，并采用了渐进式训练策略。实验表明，该模型能够利用前一阶段学到的知识，在不从头开始训练的情况下实现更好的性能。此外，作者还提出了一种新的潜在序列损失，这种损失有助于视频生成模型在最少计算量的情况下更好地理解物体的精细形状。

作者还构建了MagicData，这是一个高质量的公开数据集，包含51,000个视频样本，每个样本都标注了一个<视频，文本，轨迹>三元组。作者设计了一个数据 Pipeline ，使用大语言模型[53]来提取视频中的主要移动目标，并使用Segment Anything Model (SAM2) [45, 46]来标注这些目标的分割 Mask 和边界框。此外，作者引入了MagicBench，这是一个大规模的全面可控制轨迹的视频生成基准。该基准根据前景目标的数量将所有视频分为6类，并分别从视频生成质量和轨迹控制精度两个方面评估各类模型的表现。

总之，作者工作的主要贡献总结如下：

作者提出了MagicMotion，这是一种轨迹可控的图像到视频生成模型，支持三种类型的控制信号： Mask 、框和稀疏框。
作者引入了一种数据整理和过滤机制，并构建了MagicData，这是首个用于轨迹可控视频生成的公开数据集。
作者提出了一套综合基准MagicBench，用于评估不同数量受控目标的轨迹可控视频生成模型在视频质量及轨迹控制精度方面的表现。
Related Works

视频扩散模型
扩散模型在图像生成方面取得了显著进展，这促进了视频生成技术的快速发展。VDM[20]首次将扩散模型应用于视频生成。早期的研究如AnimateDiff[16]和SimDA[66]尝试在预训练的T2I模型中插入时间层以实现视频生成。随后，VideoCrafter[6]和SVD[3]使用大规模和高质量的数据进行训练，从而获得了更好的性能。然而，这些方法在生成高质量长视频时存在困难，主要归因于UNet架构本身固有的限制。Sora[4]的出现是一个重要的突破，展示了DiT[38]模型生成数十秒高质量视频的巨大潜力。最近的视频生成方法[11, 73, 80]主要基于DiT架构，并在开源社区中取得了巨大成功。然而，这些方法仅仅依赖于文本或图像指导进行视频生成，缺乏对物体或摄像机轨迹的精确控制，这是高质量视频生成的关键因素。

轨迹可控视频生成近年来，轨迹可控视频生成因其能够在视频合成过程中精确控制物体和相机轨迹的能力而引起了广泛关注。此前的方法 [31, 50, 75, 78] 通过轨迹编码器将光流图整合到视频生成中。近期的研究 [17, 59] 建议使用点图作为指导形式。MotionCtrl [59] 对点图进行高斯滤波处理，并采用可训练编码器来编码物体轨迹。Trackgo [17] 使用少数关键点表示物体，并通过编码器和自定义设计的 Adapter 结构注入这些信息。

其他工作 [23, 36, 40, 56] 则利用边界框来控制物体轨迹。Boximator [56] 利用一个可训练的自我注意层融合了由 GLIGEN [30] 启发的边界框和视觉 token。一些无需训练的方法 [23, 36, 40] 的目标是修改注意力层或初始噪声视频隐状态，以注入边界框信号。此外，某些方法探索三维轨迹的潜力，以实现更为复杂的运动控制。LeViTor [55] 使用丰富了深度信息的关键点轨迹图，而其他方法通过构建自定义的三维轨迹来表示物体运动。然而，稀疏的轨迹会导致对物体形状和大小的控制不够精确，而密集的轨迹则难以由用户提供。相比之下，MagicMotion 可以控制密集和稀疏的轨迹，为用户提供更为灵活的视频生成控制。

Method

3.1. Overview

作者的工作主要集中在轨迹可控的视频生成。在接下来的部分中，作者首先在第 3.2 节详细介绍了作者的模型架构。随后，在第 3.3 节中概述了作者的渐进式训练过程。

在第 3.4 节中，作者引入了潜在分割损失，并展示了该损失如何增强模型在细粒度物体形状方面的性能。接着，在第 3.5 节中描述了作者的数据集策划和过滤流程。最后，在第 3.6 节中，作者全面介绍了 MagicBench。

3.2. Model Architecture

基于基础的图像到视频生成模型作者使用CogVideoX-5BI2V [73] 作为基础的图像到视频模型。CogVideoX 基于 DiT（扩散 Transformer ）架构，并结合了3D全注意机制以生成高质量的视频。如图2所示，该模型接受一个输入图像

和对应的视频

并使用预训练的3D VAE [27] 将其编码成潜在表示

。随后，

被填充到

帧并与其噪声版本的

连接，然后输入到扩散 Transformer 中，在预定义的步骤数内逐步去噪。最后，经过去噪处理的潜在表示由3D VAE解码器解码得到输出视频

。

picture.image

轨迹控制网络为确保生成的视频遵循由输入轨迹图

给定的运动模式，作者采用了类似于ControlNet [77] 的设计来注入轨迹条件。

如图2所示，作者使用3D VAE编码器将轨迹图编码为

，然后将其与编码后的视频

连接起来并作为轨迹控制网络的输入。具体而言，轨迹控制网络由所有预训练DiT块的可学习副本组成，用于编码用户提供的轨迹信息。每个轨迹控制网络块的输出随后通过一个零初始化的卷积层处理，并添加到基础模型中的相应DiT块中，从而提供轨迹指导。

3.3. Dense-to-Sparse Training Procedure

稠密轨迹条件，例如分割 Mask ，相比于稀疏条件（如边界框）提供了更精确的控制，但使用起来不够友好。为解决这一问题，MagicMotion采用了一种渐进式训练流程，在每个阶段都会用前一阶段的权重初始化模型。这使得作者可以实现从稠密到稀疏的三种轨迹控制类型。作者发现，这种渐进式训练策略比从零开始用稀疏条件训练更能提高模型的性能。

具体而言，在各个阶段作者采用了以下轨迹条件：第一阶段使用分割 Mask ，第二阶段使用边框，第三阶段使用稀疏边框，其中少于10帧有边框标注。此外，作者始终将轨迹条件的第一个帧设为分割 Mask ，以指定应移动的前景目标。

作者的模型采用[73]中的速度预测。令

表示初始视频隐变量，

表示高斯噪声，

表示扰动后的视频隐变量，

表示模型输出。扩散损失可以写为：

3.4. Latent Segmentation Loss

基于边界框的轨迹能够控制物体的位置和大小，但缺乏对精细形状的感知能力。为了解决这个问题，作者提出了一种潜在分割损失，该方法在模型训练过程中引入了分割 Mask 信息，从而增强模型对精细物体形状的感知能力。

先前的研究[2, 61, 70, 79]利用了扩散生成模型进行感知任务，表明由扩散模型提取的特征包含了丰富的语义信息。然而，这些模型通常在像素空间中操作，导致计算时间较长且需要大量的GPU内存。

为了在保持计算成本合理的情况下融入密集轨迹信息，作者提出利用一个轻量级的分割头直接在潜在空间中预测分割 Mask ，从而消除解码操作的需要。

具体来说，作者的分割头接收来自每个DiT块的一系列扩散特征

，并输出一个潜在的分割 Mask

。作者采用了受Panoptic FPN [28] 启发的轻量级架构。每个扩散特征首先通过一个卷积层提取视觉特征

，然后将得到的特征进行拼接，并通过另一个卷积层和上采样层来生成最终的潜在分割 Mask 。

作者计算潜在段落损失，它是

与 GT Mask 轨迹潜在值

之间的欧氏距离，这可以表示为：

在实际应用中，

只在 stage2 和 stage3 中使用，当使用稀疏条件训练时，它为模型提供了密集条件信息。具体而言，作者将

的权重设置为 0.5，并保持原始的扩散损失为 1。总体而言，作者最终的损失函数可以表示为：

在第一阶段中，

设置为 0；在第二阶段和第三阶段中，

设置为 0.5。

3.5. Data Pipeline

轨迹可控视频生成需要具有轨迹标注的视频数据集。然而，现有的大规模视频数据集[1, 7, 25]仅提供文本标注而缺乏轨迹数据。此外，几乎所有先前的工作[17, 31, 59, 75, 78]都使用了私有收集的数据集，这些数据集并未公开提供。

作者提出了一种全面且通用的数据Pipeline，用于生成带有密集（ Mask ）和稀疏（边界框）标注的高质量视频数据。如图3所示，该Pipeline由两个主要阶段组成：编目Pipeline和筛选Pipeline。编目Pipeline负责从视频-文本数据集中构建轨迹信息，而筛选Pipeline则确保在训练前移除不合格的视频。

picture.image

数据集编目Pipeline。作者从Pexels [24]开始作者的数据集编目过程，这是一个包含396,000个带有文本标注的视频片段的大规模视频-文本数据集。该数据集涵盖了各种主题、场景以及多种运动形式的视频。作者使用Llama3.1 [53]从每个视频的文本标注中提取前景移动物体。如图3所示，作者将视频的描述输入到语言模型中，并 Prompt 它识别句中提到的主要前景物体。若模型判定句子不包含任何前景物体，则直接返回“空”，并过滤掉这些视频。随后，作者采用GroundedSAM2 [44, 46]，这是一种基于场景的分割模型，该模型接受视频及其主要目标作为输入，生成每个主要目标的分割 Mask 。每个目标用一个独特的颜色进行标注。最后，通过分割 Mask 中左上角和右下角坐标的坐标提取边界框，并绘制相应的框。每个目标的边界框颜色与其对应的分割 Mask 颜色保持一致。

过滤Pipeline。许多视频包含静态场景，这对训练轨迹控制视频生成模型没有帮助。为解决这一问题，作者使用光流分数筛选几乎没有运动和动态的视频。具体而言，作者利用UniMatch [69] 提取帧间的光流图，并计算这些光流图的平均绝对值作为光流分数，以此表示视频的运动强度。然而，背景中有移动但前景静止的视频也可能获得高的运动分数。为此，作者进一步利用UniMatch基于分割 Mask 和边界框提取前景目标的光流分数。光流分数低的视频被过滤掉，以确保MagicData只包含具有移动前景目标的视频。

由标注流水线生成的轨迹注解需要进一步细化。如图3所示，有些视频包含过多的前景目标注解，或者这些目标的大小可能过大或过小。为了应对这一问题，作者在合理范围内调节这些因素，并过滤掉超出可接受范围的视频。

具体而言，基于广泛的manual评估，作者实证地将光学流得分阈值设置为2.0，限制前景物体注解的数量从1到3，并将标注区域的比例限定在0.08到0.83之间。整个数据整理和过滤Pipeline为作者带来了MagicData，这是一个用于轨迹可控视频生成的高质量数据集，包含51,000个既有密集又有稀疏轨迹注解的视频。

3.6. MagicBench

以往关于轨迹控制视频生成的研究工作主要是在DAVIS数据集上进行验证（该数据集规模相对较小），或在VIPSeg数据集上进行验证（其中每个视频的标注帧数不足），或者在私有构建的测试集上进行验证。因此，在这个领域迫切需要一个大规模的公开基准，以实现不同模型之间的公平比较。为了填补这一空白，作者采用了第三章第五节中提到的数据流水线来构建MagicBench，这是一个由600个带相应轨迹标注的视频组成的大规模开放基准。MagicBench不仅评估视频质量和轨迹精度，还将控制目标的数量作为关键评估因素之一。具体来说，它根据控制目标的数量划分为6个组别，从1个到5个以及超过5个目标，每组包含100个高质量的视频。

评价指标。对于评价指标，作者采用FVD [43]来评估视频质量，并采用FID [18]来评估图像质量，遵循[17, 55, 59, 64]的做法。为了量化动作控制精度，作者使用Mask_IoU和Box_IoU，分别衡量 Mask 和边界框的准确性。具体而言，对于生成的视频

，作者将第一帧的真实 Mask

作为输入，利用SAM2 [44]预测

中前景目标的 Mask

。对于每个前景目标，在每一帧中计算

与真实 Mask

之间的交并比(IoU)，然后求平均值得到Mask_IoU。同样地，作者计算每一帧中每个前景目标的预测边界框与真实边界框之间的IoU，并取平均值得到Box_IoU。

Experiment

4.1. Experiment Settings

实现细节。作者使用CogVideoX 5B [73]作为基底图像到视频模型，该模型经过训练，以

分辨率生成49帧的视频。MagicMotion中的每个阶段均在MagicData上训练了一个周期。训练过程包括三个阶段：第一阶段从零开始训练轨迹控制网络（Trajectory ControlNet）。第二阶段通过使用第一阶段的权重进一步优化轨迹控制网络，并从零开始训练分割头（Segment Head）。最后，在第三阶段中，轨迹控制网络和分割头继续使用第二阶段的权重进行训练。所有训练实验均在4块NVIDIA A100-80G GPU上进行。作者使用AdamW [33]作为优化器，学习率为

，每块GPU上的批量大小为1。在推理过程中，默认设置推理步数为50，指导尺度为6，轨迹控制网络的权重为1.0。

数据集。在训练过程中，作者使用MagicData作为训练集。MagicData通过第3.5节中描述的数据 Pipeline 进行了密集到稀疏轨迹信息的标注。数据集总共包含51,000个<视频, 文本, 轨迹>三元组。在训练过程中，每个视频被调整为

的大小，并从每段视频中抽取49帧。在评估阶段，作者将所有方法在MagicBench和DAVIS [39]上进行评估，并采用第3.6节中所示的比较指标。

4.2. Comparison with Other Approaches

为了进行彻底且公平的比较，作者将作者的方法与7个公开的轨迹可控的I2V方法[31, 36, 50, 55, 64, 75, 78]进行对比。定量比较和定性比较的结果如下所示。

定量比较。为了将MagicMotion与以往的工作进行对比，作者使用DAVIS和MagicBench中每一视频的前49帧作为GT视频。由于某些方法[31, 36, 50, 55, 64, 75]不支持生成49帧长度的视频，作者从这49帧中均匀抽取

帧用于评估，其中N代表每种方法支持的视频长度。作者利用这些选定帧中的 Mask 和框标注作为基于 Mask 或框的方法的轨迹输入。对于基于点或流的方法[31, 50, 55, 64, 75, 78]，作者提取每一帧 Mask 的中心点作为输入。

如表1所示，作者的方法在MagicBench和DAVIS上的所有指标上都优于所有先前的方法，展示了其生成更高质量视频和更精确轨迹控制的能力。此外，作者还根据受控目标的数量，在MagicBench上评估了每种方法的性能。如图4所示，作者的方法在所有受控目标数量类别中均取得了最佳结果，进一步证明了作者方法的优越性。

picture.image

定性比较。图5展示了定性的比较结果，包括输入图像、 Prompt 和轨迹。如图5所示，Tora [78] 准确地控制了运动轨迹，但难以维持物体的形状。而DragAnything [64]、ImageConductor [31] 和 MotionI2V [50] 则难以保持原始主题的一致性，在后续帧中产生了显著的变形。与此同时，DragNUWA [75]、LeviTor [55] 和 SG-I2V [36] 经常在细节点上产生伪像和不一致性。相比之下，MagicMotion 允许移动的物体沿指定的轨迹平滑地移动，同时保持高质量的视频效果。

picture.image

4.3. Ablation Studies

在本节中，作者展示了消融研究以验证MagicData数据集的有效性。此外，作者还展示了作者的渐进式训练流程和潜在片段损失如何增强模型对稀疏控制条件下精确物体形状的理解，从而提高轨迹控制精度。

数据集消融实验。为了验证MagicData的有效性，作者通过结合两个公开的视频目标分割(VOS)数据集MeViS [9]和MOSE [10]构建了一个消融数据集。为了进行公平比较，作者在两个训练集中分别使用相同stage1权重对MagicMotion阶段2进行了一个epoch的训练，一个是MagicData，另一个是消融数据集。随后，作者在MagicBench和DAVIS上评估了这两种模型。

如表2所示，使用MagicData训练的模型在所有指标上均优于基于消融数据集训练的模型。定性的比较见图6。在这种情况下，作者的目标是逐渐将右下角的男孩移动到图像中心。然而，不使用MagicData会导致出现一个意想不到的孩子出现在男孩旁边。相比之下，使用MagicData训练的模型表现良好，能够沿着指定轨迹移动男孩并保持视频质量。

picture.image

逐阶段训练过程的消融研究。逐阶段训练过程允许模型利用前一阶段学习到的权重，在使用稀疏轨迹条件进行训练时，整合密集轨迹控制信息。为了验证该方法的有效性，作者从零开始训练一个周期的模型，并使用边界框作为轨迹条件。然后作者将其性能与MagicMotion 第二阶段进行比较。

如表3所示，排除渐进训练过程会削弱模型识别物体形状的能力，最终降低轨迹控制的准确性。图7中的定性比较进一步说明了这些效果，其中未采用渐进训练过程的模型将女性 Head 完全识别为头发。

picture.image

在潜在分割损失方面的消融实验。潜在分割损失使模型在使用稀疏轨迹训练时能够预测密集的分割 Mask ，从而增强其在稀疏条件下感知细粒度物体形状的能力。为了评估该技术的有效性，作者从stage1开始训练模型，使用边界框作为轨迹条件进行一轮训练，并将其性能与MagicMotion阶段2进行比较。表3显示，缺乏潜在分割损失会降低模型对物体形状的处理能力，导致轨迹控制不够精确。图8中的定性比较进一步突显了这一效果。没有潜在分割损失的情况下，生成视频中女人的手臂显得不完整。

picture.image

参考

[0]. MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance .