MTVInpaint：多任务视频修复框架，以双分支注意力与两阶段流水线统一完成、插入任务，处理长视频！

备注好友：方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

视频修复涉及在视频中修改局部区域，确保空间和时间上的一致性。

现有的大多数方法主要集中在场景完成（即填补缺失区域）上，并缺乏以可控方式在场景中插入新目标的能力。幸运的是，最近在文本到视频(T2V)扩散模型方面的进展为文本指导的视频修复铺平了道路。然而，直接将T2V模型应用于修复仍然存在局限性，难以统一完成和插入任务，缺乏输入可控性，且难以处理长视频，从而限制了其适用性和灵活性。为了解决这些挑战，作者提出了一种名为MTVInpaint的多任务视频修复框架，能够同时处理传统的场景完成和新型目标插入任务。

为了统一这些不同的任务，作者在T2V扩散U-Net中设计了一个双分支空间注意力机制，使得场景完成和目标插入可以在单一体系结构中无缝集成。

除了文本引导外，MTVInpaint还通过作者提出的图像到视频(I2V)修复模式支持多模态控制，整合了各种图像修复模型。此外，作者提出了一种两阶段流水线，结合关键帧修复与插帧传播，使MTVInpaint能够有效处理包含数百帧的长视频。大量实验表明，MTVInpaint在场景完成和目标插入任务中均达到了最先进的性能。此外，它还显示了在多模态修复、目标编辑、删除、图像目标刷涂以及处理长视频等方面的灵活性。

项目页面：https://mtv-inpaint.github.io/。

INTRODUCTION

视频修复指的是对视频中静态或动态的局部区域进行修改的过程，确保修复后的视频在空间和时间维度上展现出平滑自然的过渡。

目前，大多数现有的视频修复方法主要关注无条件场景补全的问题[Green等，2024；Li等，2022；Zhou等，2023]，即在没有用户指导的情况下填充视频中的目标区域（例如，去除水印）。然而，这些方法缺乏执行用户导向的目标插入的能力，后者涉及以可控的方式在场景中添加新目标。

幸运的是，近期在文本到视频(T2V)条件生成扩散模型领域的进展[Blattmann等, 2023b；Brooks等, 2024；Guo等, 2023]使得在用户指导下对视频进行填充成为可能。然而，当前关于文本引导目标插入的研究仍然非常有限。据作者所知，仅有CoCoCo [Zi等, 2024]实现了合理的文本引导目标插入，但其可控性相较于图像填充领域常用的多模态条件而言仍显不足。此外，它缺乏对传统视频完成任务的适应性，仅支持处理短视频片段且帧数有限，这进一步限制了其实用性。

在实际应用中，用户通常希望有一种兼具 versatility 的图像修复解决方案，该方案能够处理传统的场景补全任务以及带有自定义运动轨迹的新颖物体插入任务。此外，插入的物体不仅可以通过文本 Prompt 来描述，用户可能还希望能够包含其他输入条件，例如一幅描述物体特定外观的示例图像，以满足更定制化的需求，如图1中的第三行所示。然而，截至目前，针对这个问题尚未有全面的解决方案提供。

picture.image

为了实现上述目标，作者计划以T2V生成模型为基础，并解决以下挑战：（1）任务统一问题：场景补全和物体插入是本质上不同的任务，具有不同的目标和要求。如何将它们整合到一个框架中？（2）可控性问题：对于物体插入任务，仅仅依靠文本 Prompt 不足以实现精细的控制。如何引入多样化的输入条件以增强可控性？（3）长视频问题：现有的T2V模型被训练用于生成有限长度的视频。如何扩展这些模型以支持更长的视频？在本项工作中，作者提出了一种名为MTV-Inpaint的多任务视频修补框架，基于T2V扩散模型。除了解决场景补全问题，作者的方法还允许用户在长视频中以更多的形式和自定义轨迹插入物体。

首先，统一物体插入和场景完成并非易事，因为这两个任务本质上是不同的。物体插入需要在 Mask 区域内生成一个时间上一致的目标，并确保该目标在不同帧中的连贯性。相比之下，场景完成则侧重于基于周围上下文填充 Mask 区域，其中填充的内容可能会随时间动态变化。因此，在T2V扩散U-网络中，作者引入了具有共享时间分支的双支路空间块，其中一支路专门用于物体插入，另一支路则专注于场景完成。

其次，为了超越T2V（文本到视频）提供更多样化的条件以增强可控性，一个直接的方法是对不同条件训练多个 Adapter 。然而，这种方法需要设计特定模态的架构并在不同的数据集上进行训练，这可能耗时且具有挑战性。幸运的是，作者注意到图像修复领域已经具备了能够实现灵活条件控制的模型，包括文本、示例图像、边缘图等。这启发作者利用这些现成方法的优势来解决视频修复问题。具体而言，作者将I2V（图像到视频）修复模式整合到作者的方法中，这种模式将视频修复与现有的图像修复工具联系起来。在这种模式下，任何第三方图像修复方法都可以用于修复第一帧，然后再传播到后续帧。

最后，对于长视频修复任务，当前的T2V模型虽然预训练用于生成短视频片段，但在直接应用于较长视频时难以维持高质量。为此，作者提出了一种两阶段流程：首先进行关键帧修复，随后进行中间帧修复。作者首先利用T2V或I2V修复模式在原始视频的关键帧位置进行修复，然后迭代填充每对相邻修复关键帧之间的中间帧。作者称这一过程为K2V（关键帧到视频）修复，以确保平滑的时间过渡并在整个视频中保持一致的修复质量。

作者在两个主要的视频修复任务上评估了作者的方法：文本引导的目标插入和场景完成。实验结果展示了与现有 Baseline 方法相比的最先进性能。此外，作者还通过将其应用于衍生任务（包括多模态修复、目标移除、编辑和图像目标画笔）突显了该方法的灵活性，证明了其作为视频修复工具的广泛适用性。

总之，作者的贡献如下：

作者提出了一种多任务视频修复框架，能够处理目标插入和场景完成等任务，同时还包括目标移除和编辑等衍生任务。
该框架通过I2V修复模式连接任何现有的强大图像修复工具，从而增强视频修复的可控性。
作者设计了一个两阶段流水线，包含关键帧+中间帧修复，以支持更长视频的修复并确保时间连贯性。

2 RELATED WORK

2.1 Image/Video Generation

文本到图像（T2I）扩散模型，例如Stable Diffusion系列[Rombach等人，2022]和Flux系列[Labs，2024]，已彻底改变了图像合成领域。基于这些基础模型，各种研究工作通过集成能够处理多种条件的额外模块显著增强了图像生成的可控性，例如草图图谱[Mou等人，2024]、骨架[Zhang等人，2023]、边界框[Li等人，2023]以及参考图像[Ye等人，2023]等。这些进展大大提高了T2I模型的灵活性和适用性。

T2I模型的成功也推动了文本到视频和图像到视频生成的发展。视频生成模型通常通过增加时间层[郭等，2023；辛格等，2022]扩展自图像模型，以确保帧间的时间一致性。著名的T2V模型包括SORA[布鲁克斯等，2024]、Gen-series[埃塞尔等，2023]和CogVide-X[杨等，2024]，它们能够从文本描述生成高质量的视频。

类似地，显眼的I2V模型，如Dynamicrafter[兴等，2025]和Stable Video Diffusion[布劳特曼等，2023a]则专注于将静态图像动画化为动态视频片段。在这些基础模型的基础上，研究行人探索了更高的视频生成可控性，包括定制主体身份[胡，2024；魏等，2024]、动作[张等，2023]和摄像机运动[王等，2024]，从而实现更加灵活的视频创作工作流程。

2.2 Image/Video Inpainting

作为具有前景的生成范式，文本到图像的扩散模型已被成功应用于图像修复任务。各种基于文本到图像的方法不断涌现，包括无条件的[ Lugmayr等人，2022]，文本驱动的，图像驱动的，形状驱动的[Xie等人，2023]，指令驱动的[Yildirim等人，2023]，多任务的[Zhuang等人，2025]，多视图的，展示了其在各种修复任务中的灵活性和多样性。

同样，T2V 扩散模型在视频修复方面显示出巨大的潜力。与传统的无需用户指导即可完成视频中缺失区域的传统视频修复模型不同，T2V 模型能够结合文本 Prompt 来引导修复过程，从而实现诸如目标插入等新应用。然而，利用 T2V 扩散模型进行目标修复的研究仍较为有限。例如，Gu等人[2024]和Green等人[2024]使用T2V扩散模型进行了连贯视频填充，但它们仍然无法向场景中插入新的目标。VideoComposer[王等人2023b]在静态 Mask 上训练了T2V模型，限制了其对移动目标进行修复的能力。

AVID[张等人2024]使用类似于ControlNet的 Adapter 进行文本驱动的修复，需要源结构，这限制了其添加新目标的能力，因为原始结构往往不可用。VideoPoet[康德拉季尤克等人2023]和Lumiere[巴-塔尔等人2024]展示了在静态 Mask 内添加目标的能力，但使用静态 Mask 不能指定目标的运动。CoCoCo[齐等人2024]通过在目标感知 Mask 上进行训练改进了动态目标的插入能力。然而，这种方法使模型倾向于在 Mask 区域内生成物体，增加了场景修复的难度。相比之下，作者的方法通过双分支架构统一了目标插入和场景修复，将这两种功能整合到了一个模型中。

此外，先前方法的输入条件通常仅限于文本指导，降低了其可控性。作者的方法支持I2V修复模式，使作者能够与各种图像修复方法集成，以增强可控性。此外，作者的K2V修复模式扩展了扩散模型，使其能够处理具有一致时间相干性的较长视频。这些进步使得作者的方法更具实际性和多功能性，适用于实际应用场景。

3 METHOD

3.1 Overview

3.1.1 任务表述。给定原始视频

，其中包含

帧，用户还需要提供其二进制 Mask 序列

，其中值为 1 表示需要填充的区域。为了简化 Mask 生成过程，作者允许用户在第一帧、最后一帧以及可选的某些中间帧上绘制边界框，并且指定连接这些框的轨迹路径。然后使用这些信息来插补一个

个框的序列，从中得到最终的框状 Mask 序列

。对于目标插入任务，这些 Mask 指定了目标预期出现的空间时间区域，作为目标运动的信号。此外，用户还必须提供一个文本 Prompt 描述所需的目标，并且可以可选地提供一个已填充的第一帧，以进一步定义目标的初始外观。对于场景完成任务，这些 Mask 指示需要填充的区域。在这种情况下，不需要文本 Prompt ，因为填充内容将由周围的上下文自动确定。此外，用户还可以可选地提供一个已填充的第一帧，以预先定义初始所需的内容。

1.2 整体Pipeline。作者的整体Pipeline如图2所示。在训练过程中，作者使用双空间分支U-Net来处理目标插入和场景完成任务。对于目标插入，作者使用目标感知 Mask 进行模型训练；而对于场景完成，则使用随机 Mask 。同时，作者用三种不同的帧 Mask 模式对U-Net进行训练：

(1) 文字到视频(T2V)模式：根据文本 Prompt 填补所有帧。

(2) 图像到视频(I2V)模式：基于提供的首帧和文本 Prompt 填补后续帧。

(3) 关键帧到视频(K2V)模式：基于给定序列开头和结尾的两个关键帧填补中间帧。在推理阶段，作者的方法支持多种填补场景。它可以执行基本的T2V填补或I2V填补，其中首帧由第三方图像填补工具提供。对于较长的视频，作者首先使用T2V或I2V模式填补关键帧，然后使用K2V模式填补剩余的中间帧，如图2右侧所示。这种两步Pipeline确保了整个视频的时间一致性。

picture.image

3.2 Model Architecture

受图像修复扩散模型[Rombach等，2022]的启发，作者将方法实现为具有 Mask 条件的潜在3D扩散U-网络，即输入首先通过变分自编码器（VAE）编码到潜在空间，再送入模型。该模型由一个噪声视频潜在变量

、下采样的二进制 Mask 序列

以及沿通道维度拼接的 Mask 视频潜在变量

组成。U-网络（参数化为

）还考虑了时间步

和文本 Prompt 嵌入

作为条件，并预测噪声

。该模型使用以下 Mask 去噪损失进行优化：

其中，

，

和

是时间依赖的 DDPM 超参数 [Ho 等, 2020]。

是 Mask 区域的损失权重。

在模型架构方面，作者的方法引入了以下改进：为了同时处理目标插入和场景补全任务，作者在U-Net中引入了双分支空间注意力机制。每个分支由双重参考自注意力和交叉注意力模块组成，使模型能够针对这两个任务的不同填充值要求进行专门化。

3.2.1 双支路空间注意力机制。物体插入任务和场景补全任务在对填补内容的要求上本质上是不同的，有时甚至是矛盾的。物体插入任务要求在所有帧中生成一个一致且连贯的物体位于 Mask 区域内，而场景补全任务则侧重于根据周围的上下文填充 Mask 区域。由于前景、背景以及 Mask 本身的运动，场景补全任务合成的内容可能在不同帧之间有所不同。因此，在单一模型中统一这两个任务是具有挑战性的。

以往的研究表明，在扩散U-Net中，空域注意力主要负责目标合成：其中的空域自注意力层决定了精细的外观表现[Cao等，2023]，而空域交叉注意力层则融合了外部文本条件，并控制语义布局[Hertz等，2022]。另一方面，时间注意力则负责在帧之间维持时间连贯性[Guo等，2023]。考虑到目标插入与场景完成的主要区别在于其内容生成目标，虽然两者都需要时间一致。因此，作者设计了具有共享时间注意力的双分支空域注意力U-Net架构。一个空域分支专门用于目标插入，另一个则针对场景完成，如图2左侧所示。

3.2.2 双参考自注意力机制。如前所述，自注意力在生成过程中控制空间外观方面发挥着关键作用。由于作者的方法不仅支持T2V填图模式，还支持I2V和K2V填图模式（将在后续章节中介绍），因此在生成过程中整合第一帧和最后一帧的信息变得至关重要。已有许多研究采用了参考注意力机制 [Ca0等人, 2023；Geyer等人, 2023；Hertz等人, 2024；Wu等人, 2023；Xu等人, 2024b]，证明了其在保持物体身份方面的有效性。类似地，作者也将原有的单帧自注意力机制扩展为双参考自注意力机制，其中每一帧不仅关注自身，还关注第一帧和最后一帧。该机制的表述如下：

其中，

和

分别表示第

帧的 Query 、 Key和Value 特征；

分别表示第一帧和最后一帧的 Key和Value 特征；

表示特征维度。操作

表示在特征维度上的拼接。

3.3 Training-Time Masking Scheme

作者的训练时掩蔽方案包含两个组成部分：区域掩蔽方案，用于训练不同的任务；以及帧掩蔽方案，用于训练不同的条件模式。

3.3.1 区域 Mask 方案。鉴于不同的生成目标，作者为不同任务采用了不同的区域 Mask 方案。对于物体插入任务，使用物体感知 Mask 是必要的，以确保在 Mask 区域内准确合成物体。为此，作者在基于物体跟踪和分割数据集的视频、 Mask 和相关 Prompt 下训练模型。在训练过程中，作者始终将物体 Mask 扩展为边界框 Mask ，以与推理期间使用的边界框 Mask 对齐。对于场景补全任务，作者用随机生成的 Mask 来训练模型。此方法旨在覆盖推理过程中遇到的各种场景。由于修复的内容通常是非确定性的，并且经常涉及背景区域，作者实验证明将 Prompt 固定为“背景”效果良好，即使在 Mask 区域包括前景部分的情况下也是如此。

3.3.2 帧掩蔽方案。为了使作者的框架能够处理多样化的修复模式和下游应用，作者使用三种不同的帧掩蔽方案进行训练：

T2V（文本到视频）模式：所有帧均被遮掩，模型基于文本 Prompt 生成整个视频。
I2V（图像到视频）模式：首帧未被遮掩，模型基于首帧和文本 Prompt 生成后续帧。
K2V（关键帧到视频）模式：首帧和末帧未被遮掩，模型基于这两帧关键帧和文本 Prompt 生成中间帧。

T2V模式训练模型固有的从文本到视频的填补能力。I2V模式使框架能够利用第三方图像填补模型的输出，从而增强可控性。K2V模式主要设计用于推理过程中补充T2V或I2V模式，如后续部分所述，以实现长视频填补。

3.4 Inference-Time Long Video Inpainting

在实际应用中，用户通常会提供长视频，这些视频的长度往往超出了训练时使用的视频长度。为了适应作者的模型进行长视频修复，作者提出了一种两阶段的长视频修复Pipeline。

3.4.1 两阶段推理Pipeline。两阶段推理Pipeline包括关键帧插补（Inpainting）随后进行介于关键帧之间的插补，如图2右侧所示。虽然基于关键帧的介于技术已经在长视频处理工作中被采用过[Geyer等人，2023；Huang等人，2016]，但作者的方法主要集中在生成而非从关键帧向中间帧传播。在关键帧插补阶段，作者从源视频中采样关键帧

，其中

且

，确保起始帧和结束帧均被选为关键帧。这些关键帧随后使用T2V或I2V插补模式进行插补，生成插补后的关键帧

。在介于关键帧之间插补阶段，作者反复应用K2V插补模式到由两个相邻插补后关键帧

和

包围的每一间隔内的中间帧。通过在整个间隔中迭代应用此方法，作者可以保有时间一致性的同时对长视频进行插补。

3.4.2 K2V 前噪声初始化。现有研究 [Lin 等人, 2024] 发现了在扩散训练和推理之间存在噪声差距。在训练过程中，模型学习去除一个部分未被完全破坏信噪比的噪声输入，而在测试阶段，样本是从纯随机噪声中生成的。这种不一致有时会导致时间上的突变。为了解决这一问题，作者提出了K2V前噪声初始化方法，受到了先前噪声初始化技术 [Chang 等人, 2024；Chen 等人, 2023；Ge 等人, 2023；Qiu 等人, 2023] 的启发。不同于从随机噪声中采样，作者通过利用已知的第一帧和最后一帧的先验信息来初始化噪声。

其中，

和

分别表示3D傅里叶变换及其逆运算，而

是频域中的高斯低通滤波器。新的初始化噪声

结合了从

到

的先验信息。作者的消融实验表明，这种方法稳定了生成的结果，从而实现了更平滑的过渡并增强了时间一致性。

4 EXPERIMENTS

4.1 Experimental Setup

实现细节。作者的 inpainting 模型基于文本到视频扩散 U-Net [Wang 等人，2023a] 微调，额外增加了5个初始化为零的输入通道以编码 Mask 条件。为了使模型能够处理长度、运动尺度和大小各异的视频片段，训练时采用动态长度的视频片段采样，帧长度范围从8到24帧，帧步长范围从1到10，并且分辨率为

、

或

。被 Mask 区域的损失权重

在式（2）中设置为2。T2V、I2V和K2V帧 Mask 模式以等概率

应用。在推理过程中，作者使用了包含30步的DDIM采样器 [Song 等人，2020] 并采用了无分类器引导比例8 [Ho 和 Salimans，2022]。

数据集。在训练过程中，作者使用了目标跟踪和分割数据集，包括YouTubeVOS [Xu等人，2018]、YouTubeVIS [Yang等人，2019]、MOSE [Ding等人，2023]、VIPSeg [Zhou等人，2022]、UVO [Wang等人，2021] 和 GOT [Huang等人，2019]，总共包含约2万个视频。在评估过程中，作者采用了DAVIS [Perazzi等人，2016] 的视频和 Mask ，以及一些自收集的数据。此外，作者使用ChatGPT-4o [Achiam等人，2024] 为每个带有 Mask 的视频生成多个 Prompt ，从而得到220个视频- Prompt 对。

Metrics. 对于目标插入任务，为了评估目标 Prompt 对齐情况，作者在 Mask 区域内计算区域CLIP图像-文本分数（CLIPT）[Hessel等，2021]。为了衡量目标的时间一致性（TempCons），作者按连续帧对计算区域CLIP图像-图像分数，遵循Esser等，2023的研究方法。为了评估目标插入的空间准确性，作者使用GroundingDINO [Liu等，2023]来检测生成视频中的目标边界框，然后将这些边界框与输入 Mask 进行对比，以计算平均交并比（mIoU）。此外，作者采用ImageReward [Xu等，2024a]模型来评价整体视觉和美学质量，因为该模型已显示出与人类判断高度一致。对于场景完成任务，作者使用PSNR和LPIPS [Zhang等，2018]来评估像素级和特征级的完成质量。作者还像之前所述那样，利用TempCons和ImageReward来评估整个视频的时间一致性以及整体视觉质量。

Baseline 方法。对于物体插入任务，作者将作者的方法与最新的CoCoCo [Zi等, 2024]进行比较。鉴于文本到视频物体插入的研究关注有限，作者还实现了两个额外的 Baseline 方法：Zeroscope-blend和Animate-inpaint。Zeroscope-blend是将Zeroscope [王等, 2023a]的T2V模型与潜空间融合技术 [阿夫拉米等, 2023]相结合。

具体地，作者通过在每个时间步将已知区域融合进去噪的潜空间表示来适应零样本文本引导的填充任务。Animate-inpaint则是将AnimateDiff [郭等, 2023]与SD-inpaint模型 [罗姆巴赫等, 2022]结合在一起。在这个方法中，作者在SD图像填充模型中插入了时间层，并对这些层进行了微调，以使模型适应视频填充任务。对于场景完成任务，作者将作者的方法与CoCoCo进行比较，并与两种最先进的非扩散模型进行对比：E2FGVI [李等, 2022] 和 ProPainter [周等, 2023]，这两种模型专门用于视频完成。

4.2 Qualitative Results

4.2.1 物体插入。作者在图3中提供了 Baseline 方法的并排视觉对比。虽然ZeroScope-blend有时能够合成目标区域内的所需物体，但填充区域与背景之间的过渡往往在视觉上不一致（例如，参见图3(c)中的船例子）。这一问题源于潜在融合策略，该策略强制将背景合并到目标区域中，导致边缘不够和谐。相比之下，Animate-inpaint相比ZeroScope-blend生成了更为自然的过渡效果，因为它是在视频数据上进行了微调。然而，它在保留物体身份方面存在一定缺陷（例如，图3(d)中的狗表现出明显的差异）。这种限制源自于其基于图像模型的基础；即使增加了时间层，它的时序一致性仍然弱于预训练的视频模型。CoCoCo实现了相对合理的结果；然而，作者的修复结果在视觉质量上表现更优，尤其是在涉及大运动的情况下（例如，图3(d)中的跳跃中的狗）。这一改进得益于作者采用的训练策略，其中作者故意使用更大的帧间隔来确保模型更好地适应处理较大的运动，尤其是关键帧修复任务。

picture.image

4.2.2 场景补全。图4展示了不同方法在场景补全任务中的视觉对比。由于CoCoCo并未专门针对场景补全进行训练，并且缺少区域的文本描述难以定义，在训练过程中考虑了不同种类的一般场景与null条件配对，因此作者将null条件作为其输入。从图中可以看出，CoCoCo倾向于添加冗余元素（见图4(a)、(b)和(d)中的放大区域）。这一限制源自CoCoCo仅被专门训练用于目标修复，这在一定程度上对其在场景补全任务上的表现产生了副作用。E2FGVI和ProPainter在处理复杂语义时表现不佳（例如，在图4(a)中未能修复马的部分）。此外，对于所有帧中均被遮盖的区域，它们常生成模糊的结果，因为这类信息无法在其他地方找到（见图4(b)）。相比之下，作者的方法通过双任务训练以及T2V扩散模型提供的强大先验知识，实现了更为合理的补全效果。

picture.image

4.3 Quantitative Results

4.3.1 目标插入。由于作者的baseline CoCoCo支持16帧的短视频长度，为了进行公平比较，作者也对Animate-Inpaint进行了16帧序列的训练，本次评估也在相同长度的短视频上进行。作者将定性的度量指标与相关baselines进行比较并报告在表1中。结果显示，作者的方法在文本忠实度（CLIP-T）和时间一致性（TempCons）方面表现更优。值得注意的是，在 grounding 能力（mIOU）和视觉质量（ImageReward）方面，作者的方法显著优于现有baselines，展示了最先进的性能。

picture.image

4.3.2 场景完成。作者在场景完成任务中与相关 Baseline 方法进行了比较，并在表2中报告了相应的指标。就重建而言，虽然作者的PSNR低于E2FGVI和ProPainter，但作者的LPIPS分数更高。这表明，作者的方法可能在像素级匹配上与Ground Truth的差距较大，但在特征级恢复方面表现更佳，这一点与人类的视觉感知更为一致。这一观察还得到了作者更高的ImageReward评分的支持，该评分用于评估整体视觉质量。此外，作者的方法在时间一致性方面表现出色，使其成为此类应用的竞争工具。

picture.image

4.4 User Study

作者进行了一项用户研究，以评估本方法的人类感知性能。该研究包括物体插入和场景补全两种任务，总共包含24个问题，有47名参与者参与。为了减少选择偏见，每个问题的选项都进行了随机排序。在物体插入任务中，参与者根据文本对齐、时间连贯性和整体视觉质量这三项标准来投票选出自己最满意的结果。而在场景补全任务中，参与者基于重建能力（使用GT作为参考）和整体视觉质量（无参考）这两个标准来评价结果。图5显示了结果的堆叠条形图。如图所示，作者的方法在所有任务和评估方面均获得了最高的偏好率，这表明其具有优异的感知质量。

picture.image

4.5 Ablation Study

作者进行了若干消融研究以验证作者方法中提出组件的有效性。

4.5.1 双分支设计的必要性。如前所述，作者的扩散U-网络采用了一种带有共享时间注意力机制的空间注意力双分支设计，以处理目标插入和场景完成两种任务。为了评估这种设计的必要性，作者测试了一个替代配置，其中将这两种任务合并到一个分支中，即所有空间和时间注意力层均共享。两个任务以相等的概率进行训练，而其他所有实验设置保持一致。表3和图7的结果表明，将两种任务合并到一个分支中会导致性能下降。作者假设这是由于两种任务的冲突生成目标导致的，使得优化网络变得更加困难。此外，根据图7所示，在进行场景完成时，单分支模型偶尔会错误地插入目标，表明其未能区分这两种任务。这一观察结果突显了使用单独分支来解耦任务的必要性，使每个分支能够有效学习任务特定的权重。

picture.image

4.5.2 哪些层应采用双分支设计？为了确定哪些空间层最受益于双分支设计，作者分别尝试将双分支机制应用到仅Self-Attention层、仅交叉注意力层以及同时应用到Self-Attention层和交叉注意力层。在相同的实验设置下，作者将这三种不同的配置应用于场景补全任务，并将结果呈现于表4中。作者的观察表明，将双分支设计同时应用到Self-Attention层和交叉注意力层能够获得最佳重构性能，这体现在较高的PSNR值和较低的LPIPS值上。

picture.image

4.5.3 长视频策略。为了处理任意长度的长视频，在作者的 Proposal Pipeline（参见第3.4节）之外，作者实现并评估了以下策略：

Direct-gen：一次性修复所有帧。
Multi-gen：将原始长视频分割成多个重叠子片段，在每个时间步同时去噪这些片段，并通过平均重叠帧来处理。这一策略由MultiDiffusion [Bar-Tal等人，2023] 提出，并被AVID [张等人，2024] 采用。

Recur-I2V：将原始视频划分为多个不重叠的片段。首先修复第一个片段，随后的片段则在I2V模式下递归修复，并以之前片段的最后一帧作为条件。·关键帧+间隔修复：作者的默认策略。

图8简要说明了这些策略的工作流程。作者在测试集中的全长视频（平均70帧）上对这些策略进行了评估，使用目标插入任务进行测试。在表5中，作者主要报告了两个指标：除了CLIP-T分数外，作者还计算了每帧与第一帧之间的平均CLIP图像相似度，表示为TempCons-F1。该指标具体衡量了长时间视频序列中目标的一致性。

picture.image

在图6中，作者展示了这些策略的两个可视化示例。Multi-gen显示出最差的时间一致性，因为在子片段相距较远时，帧间的相关性容易丢失（图6中用红色框 Token 的不同模式予以证明）。Directgen由于领域差距导致文本保真度较低；该模型尚未针对如此长的序列进行训练。此外，处理非常长的视频时，Directgen还容易出现内存溢出的问题。Recur-I2V由于信息 Stream 单向，依赖于前一帧而导致累积错误。相比之下，作者的默认策略为中间帧提供了双向引用，从而获得了最佳的时间一致性。

picture.image

4.5.4 先验噪声初始化。为了验证作者所提出的先验噪声初始化的有效性（第3.4.2节），作者进行了K2V补全实验，在该实验中，给定首帧和末帧的情况下补全中间帧。具体来说，作者调整噪点时间步

，并计算中间帧与首帧或末帧之间的一致性得分，取两者距离更近的那个。实验结果如图9所示，实线表示一致性得分，虚线表示均值。观察结果显示，当

时，通常可以获得最高的一致性（T为采样时间步的数量）。基于此观察结果，作者将

设置为作者实验的默认值。

picture.image

5 OTHERAPPLICATIONS

得益于作者的训练方案，MTV-Inpaint 可以在不修改模型架构的情况下扩展到其他应用场景。在此，作者展示了几个应用实例，包括多模态修复、物体编辑、物体移除以及图像目标绘制。

5.1 Multi-Modal Inpainting

作者的方法与之前的approaches相比，通过集成现有的强大图像修复工具来实现多模态引导的视频修复，从而脱颖而出。作者在图10中展示了这种灵活性。第二行展示了基于SD-inpaint的文字引导修复[Rombach等人，2022]。第三行展示了使用AnyDoor的示例引导修复[Chen等人，2024]。第四行和第五行分别使用ControlNet[Zhang等人，2023]进行涂抹引导和深度引导的修复。这种灵活性使用户能够满足其定制需求，从而使作者的框架适用于各种实际应用。

picture.image

5.2 Object Editing

目标编辑是指在源视频中保留目标原始结构的同时改变其外观。作者的模型以零样本的方式展示了这一能力，直接继承自目标插入任务。具体来说，在推理过程中，作者不仅可以使用框 Mask ，还可以利用精确的目标 Mask ，并且可以使用编辑 Prompt 运行插入分支。这些精确的 Mask 提供了强大的形状先验，使模型能够在保留目标原始形状的同时修改其外观。图11展示了几个编辑后的视频示例，展示出作者的方法如何有效地在应用所需编辑的同时保持原始目标的结构性完整。

picture.image

5.3 Object Removal

目标移除涉及用背景内容替换前景目标，这实际上是场景完成的一种特定情况。关键区别在于 Mask 需要完全覆盖目标，以确保在填充过程中不会将前景目标的任何部分输入到模型中。图12展示了几个示例，演示了作者的方法如何有效地移除移动的前景目标，同时保持背景的一致性。

picture.image

5.4 Image Object Brush

图像目标刷是指通过绘制框轨迹将动画目标插入静态图像场景中。目标可以通过文本 Prompt 或参考图像来指定。类似的方法在先前的研究中有探索，例如DragNUWA [Yin et al. 2023]和Motion-I2V [Shi et al. 2024]，它们利用关键点拖拽来控制目标的运动。作者的框架自然地扩展了这一概念，支持框拖拽，这种方法比基于稀疏点的方法更具表达性。框拖拽不仅控制运动，还指定了目标的大小，提供了更高的灵活性。图13展示了作者如何迭代地将多个动画目标添加到静态场景中，以生成包含多个目标的视频。

picture.image

6 LIMITATIONANDDISCUSSION

尽管作者的方法为多模态视频修复提供了全面的解决方案，但有必要承认几个局限性。

首先，在进行文本引导的物体插入时，如果用户尝试插入一个静止物体（例如，一束花的花瓶），但提供了移动 Mask 作为运动指导信号，则可能会出现冲突，如图14(a)所示。在这种矛盾的输入下，作者的模型会生成一个结果，使得花瓶随着 Mask 移动，导致结果不真实。通过适当的用户交互可以缓解这一问题。此外，将静止物体插入动态场景需要一个 Mask 序列，其中 Mask 的空间位置在帧间发生变化。由于作者的设计要求用户提供 Mask 序列，这可能会引入交互挑战。虽然这主要是一个工程问题而不是作者框架的核心限制，但作者计划在未来的工作中通过从用户定义的第一帧 Mask 估计 Mask 轨迹来解决这个问题。

picture.image

其次，在进行图像引导的目标插入时，作者依赖第三方图像修复模型来完成第一帧。然而，图像修复模型缺乏时间感知能力，修复后的图像可能并不总是适合视频序列的第一帧。例如，在图14(b)中，用户提供了表示汽车向左移动的 Mask 序列。但是，修复模型可能会生成一个第一帧，其中汽车面向前方（第二行），而不是朝左（第三行），从而导致不现实的侧滑运动。为解决这一问题，可以引入额外的可控条件来定义初始姿态，或者使用视觉-语言模型从生成的一批候选帧中筛选出合适的首帧。

第三，在目标移除任务中，作者的方法依赖于目标跟踪模型来确定 Mask 区域。然而，这些模型往往无法包含目标留下的阴影，导致在移除结果中出现阴影伪影，如图14(c)中的红色圆圈所示。这突显了需要更先进的跟踪模型来识别阴影的需求。

最后，作者的修补能力受到底层T2V基模型容量的内在限制。复杂的运动，例如图14(d)中所示的“滑板人在做特技”，对基模型来说合成起来比较困难，作者的模型继承了这一局限性。因此，在这种情况下，修补后的人体表现会有所下降。不过值得一提的是，作者的框架并不局限于特定的模型架构。未来的工作可以尝试将该框架应用于更为强大的基模型，这是作者留下的研究方向之一。

7 CONCLUSION

在本研究中，作者提出了MTV-Inpaint，这是一种多任务视频修补框架，能够应对物体插入、场景完成和长视频修补的挑战。与以往的方法不同，作者的方法通过集成双分支的空间注意力和共享的时间注意力，在单一框架内处理这些不同的任务。这种设计确保了物体的一致性和动态场景重构的同时进行。

为了增强可控性，作者通过I2V修补模式将视频修补与强大的图像修补工具相结合，从而实现灵活且多模态的输入，例如文本、示例和边缘图。对于长视频修补，作者提出了一种两阶段的Pipeline，包括关键帧修补和中间帧修补，以确保在较长视频长度上平滑的时间过渡。实验结果表明，MTV-Inpaint在物体插入和场景完成任务方面均达到了目前的最佳性能。此外，作者还展示了其在衍生应用中的多样性和灵活性，例如目标移除、编辑和运动刷洗。这些贡献突显了MTV-Inpaint作为适用于多种实际应用场景的可调节视频修补工具的潜力。

参考

[0]. MTV-Inpaint: Multi-Task Long Video Inpainting .

MTVInpaint：多任务视频修复框架，以双分支注意力与两阶段流水线统一完成、插入任务，处理长视频 ！

2 RELATED WORK

2.1 Image/Video Generation

2.2 Image/Video Inpainting

3 METHOD

3.1 Overview

3.2 Model Architecture

3.3 Training-Time Masking Scheme

3.4 Inference-Time Long Video Inpainting

4 EXPERIMENTS

4.1 Experimental Setup

4.2 Qualitative Results

4.3 Quantitative Results

4.4 User Study

4.5 Ablation Study

5 OTHERAPPLICATIONS

5.1 Multi-Modal Inpainting

5.2 Object Editing

5.3 Object Removal

5.4 Image Object Brush

6 LIMITATIONANDDISCUSSION

7 CONCLUSION

参考