西工业/北理工提出 VIVID-10M:一种用于多功能和交互式视频局部编辑的数据集和基线！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

近年来，基于扩散的图像编辑模型取得了显著进展。然而，实现高质量视频编辑仍然面临巨大挑战。一个主要障碍是缺乏基于真实世界数据的开放式、大规模视频编辑数据集，构建这样的数据集既耗时又耗资。

此外，视频数据需要大量 Token 以进行表示，这大大增加了视频编辑模型的训练成本。

最后，当前的视频编辑模型交互性有限，用户很难在一次尝试中有效表达自己的编辑需求。为解决这些挑战，本文引入了一个名为VIVID-10M的数据集和一个基准模型VIVID。

VIVID-10M是第一个旨在降低数据构建和模型训练成本的大规模混合图像-视频局部编辑数据集，包含970万样本，涵盖广泛的视频编辑任务。VIVID是一个在VIVID-10M上进行训练的可扩展和交互式视频局部编辑模型，支持实体添加、修改和删除。核心是一个基于关键帧的交互式视频编辑机制，使用户可以逐步编辑关键帧并将其传播到其他帧，从而减少实现预期结果的延迟。

大量实验评估表明，作者的方法在视频局部编辑方面实现了最先进的性能，在自动化指标和用户研究中都超过了基准方法。

1 Introduction

近年来，基于扩散模型的图像和视频编辑取得了巨大进步。视频编辑算法，它们根据参考视频和提供的描述生成编辑，通常可以分为两大类：无训练算法和基于训练算法。基于训练算法的通常实现更好的文本对齐和时间一致性。为了实现更精确和可控的视频编辑，局部编辑方法利用 Mask 序列定义编辑区域，从而增强保留背景的能力，即保持不可编辑区域不变。

然而，实现高性能视频本地编辑面临几个挑战。

C1. 缺乏大规模的视频编辑数据集。 基于训练的算法需要大量的高质量配对数据。一些算法[5, 23]利用大型语言模型和无训练方法构建合成视频数据集。然而，这种方法无法生成本地编辑数据，从而限制了基于训练的模型的性能，使其受无训练方法的限制。视频本地编辑算法[36, 40]通过视觉感知算法[17, 19, 35]从视频帧中提取 Mask 序列，并将原始视频进行 Mask 以生成配对数据。尽管使用了高质量的实时视频数据，但还没有公开的大规模视频本地编辑任务数据集。构建这样的数据集由于数据处理管线的时空和资源密集需求而具有挑战性。

C2. 高的训练开销。 视频编辑模型通常在图像编辑[2]或生成模型[25]中添加时间注意力层[18, 31, 36, 40]。视频数据需要比图像数据更多的 Token 来表示，从而降低了视频编辑模型的训练效率与图像编辑模型的训练效率。

C3. 有限的用户交互性。 用户通常很难在一次尝试中完整地表达他们的编辑需求。这需要迭代调整和反馈周期来完善修改，从而在视频编辑过程中延长推理时间。这种缺乏无缝交互性延长了实现预期结果所需的时间。

作者通过利用大量易于构建的图像数据来优化模型的空间建模能力，同时使用视频数据来增强空间-时间建模，来解决挑战C1和C2。为此，作者提出了VIVID-10M，这是一个高质量的视频局部编辑数据集，包含来自73.7K个视频和672.7K个图像的9.7M个样本。每个视频和图像的分辨率都高于720p，视频剪辑至少持续5秒。VIVID-10M是通过一个自动化的流程构建的，该流程包括各种视觉感知模型[19, 24, 29, 35]和多模态大型语言模型[4]。每个样本包括 GT 、 Mask 、 Mask 数据和局部字幕，以便进行添加、删除和修改任务。为了评估VIVID-10M，作者提出了VIVID，这是一个通用且交互式视频局部编辑模型，支持实体添加、删除和修改（见图1）。VIVID是同时训练在图像和视频数据上的，以减少训练开销，与现有方法相比实现了最先进的表现[31, 38, 40]。

picture.image

为解决挑战C3，作者提出了一种基于关键帧引导的交互式视频编辑机制（KIVE），用户可以通过图像编辑模型快速实现关键帧的编辑，并将满意的结果传播到剩余帧。此外，由于VIVID采用了混合图像和视频训练，因此它也可以在关键帧编辑阶段使用。实验表明，KIVE机制显著提高了用户交互性，导致更高效的工作流程和高质量的视频编辑结果。此外，KIVE机制通过使用一个编辑剪辑的最后帧作为下一个关键帧进行局部编辑长视频。

总之，本文的主要贡献如下：

作者提出了VIVID-10M，这是首个大规模高质量的视频本地编辑数据集。
作者提出了VIVID，这是一个强大的视频局部编辑模型，支持实体添加、修改和删除。
作者提出了一种名为KIVE（Keyframe-guided Interactive Video Editing）的交互式视频编辑机制，通过迭代关键帧编辑来提升用户体验。

2 Related Work

Image and Video Editing Datasets

开源图像编辑数据集为推进图像编辑模型的发展做出了巨大贡献。表1总结了现有的图像和视频编辑数据集。例如，InstructPix2Pix [2]和HQ-Edit [13]利用大型语言模型（LLMs）生成配对标题和编辑指令，图像生成模型创建相应的图像。MagicBrush [34]依赖于人工标注者手动标注图像生成模型的数据。UltraEdit [37]使用 Prompt 到 Prompt [9]机制和修改后的图像修复 Pipeline 分别生成自由形式和基于区域的（局部）编辑样本。相比之下，目前只有一个公开的视频编辑数据集，即InsV2V [23]，它不支持局部编辑。InsV2V根据LLM生成的标题合成视频，并通过 Prompt 到 Prompt [9]机制生成相应的编辑数据。缺乏大规模高质量的视频编辑数据集是推进视频编辑的主要障碍。

picture.image

Training-free Video Editing

免训练视频编辑算法利用预训练的图像或视频生成模型 [1, 6, 15, 22] 在无训练的情况下实现视频编辑。这些算法应用DDIM反向传播 [27] 并合并其他机制以确保可控、连续和稳定的视频编辑。例如，FateZero [22] 将自注意力图与 Mask 相结合以稳定非编辑区域。FLATTEN [6] 提取帧间光学流以指导自注意力计算并提高时间一致性。RAVE [15] 跨帧随机化潜在值并将其作为大型图像拼接在一起进行去噪以保证时间一致性。UniEdit [1] 保持独立的重建和运动分支，将注意力图或价值特征注入主分支。尽管这些算法不需要构建数据或训练模型，但编辑质量在很大程度上往往在时间一致性、文本对齐和背景保护等因素上有所不足。

Training-based Video Editing

[5, 23, 30, 31, 32, 36, 40] 基于训练的方法通常能够获得更好的编辑质量。一些算法 [30, 32] 将文本到图像模型扩展为文本到视频模型，利用一次学习从模型参数中提取运动信息，从而以类似图像编辑的方式实现视频编辑。其他算法 [5, 23] 基于训练无关或一次学习的方法生成合成数据集，然后用这些数据集训练模型。然而，编辑质量受到数据生成器的限制。近年来，视频局部编辑算法 [31, 36, 40] 引入了自动数据构建 Pipeline ，并在实际数据上训练模型。这些算法在视频中遮挡实体，并为被遮挡的区域使用 LLM 生成局部字幕。被遮挡的视频作为模型输入，而在训练过程中，原始视频作为 GT 值。

3 VIVID-10M Dataset

在本节中，作者介绍了VIVID-10M，据作者所知，这是首个开源的大规模视频局部编辑数据集。它涵盖了包括添加、修改和删除在内的各种任务（图2）。每个训练样本是一个元组，其中表示一个视频或图像。表示视频的第帧，作者将图像视为只有一个帧的视频。表示编辑区域的相应二进制 Mask ，是 Mask 视频或图像，是编辑区域的描述。在 Mask 视频或图像中，编辑区域被擦除，非编辑区域被保留，所以。

picture.image

VIVID-10M 包含两个子集，分别是 VIVID-10M-Video 和 VIVID-10M-Image，两者均来源于公开的 PANDA-70M 数据集 [3]。视频子集包含 73,700 个视频，每个视频至少 5 秒长。图像子集包含从 672,700 个视频中提取的第一帧。后续部分详细介绍了各种任务的数据集构建方法（见 Sec. 3.1 和 Sec. 3.2）。作者还提出了一个数据增强方法，见 Sec. 3.3，旨在将原始 Mask 多样化为六个不同的类型，形状和比例各异。最后，在 Sec. 3.4 中，作者提供了数据集的统计信息，并介绍了 VIVID-10M-Eval，这是一个高质量的评价数据集。

Addition&Modification Data Pipeline

添加任务为视频添加新实体，而修改任务则改变现有实体的类型或属性。两种任务的目标都是使实体在视频的遮挡区域内绘制。为了统一两种任务的数据格式训练，作者从图像和视频中选择实体并生成相应的局部字幕。如图3(a)所示，VIVID-10M-Video的流水线包括三个阶段：实体选择、 Mask 传播和局部字幕生成，而VIVID-10M-Image的流水线则省略了 Mask 传播阶段。

picture.image

在这个阶段，作者从图像或视频的第一帧中选择可编辑实体，然后进行遮挡和标题生成。具体来说，作者首先应用 RAM [35] 从帧中提取实体标签，并使用预定义的词汇（见附录）对标签进行过滤。然后，作者使用 Grounding DINO [19] 检测对应于标签的边界框。最后，每个框作为 SAM2 [24] 生成遮挡的 Prompt 。

Mask 传播 ：对于视频数据，编辑区域必须追踪实体在帧之间的运动。因此，作者使用SAM2[24]将 Mask 从第一帧传播到后续帧。

在这一阶段，作者为编辑区域生成局部字幕。首先，作者使用和从视频或图像中裁剪实体，其中非编辑区域被消除。这些裁剪输入，表示为然后被输入到 InternVL2 [4] 中，以生成三种不同长度的局部字幕。这个过程将添加和修改样本的数量增加三倍。InternVL2 使用的 Prompt 详细见附录。

Deletion Data Pipeline

删除任务涉及从视频中删除现有实体，并用背景像素填充这些区域。与添加和修改任务不同，删除任务的配对数据无法通过简单地遮挡现有实体来生成，因为这项任务需要有效的训练，而有效的训练需要 GT 背景像素。为了解决这个问题，作者通过将来自其他视频的实体 Mask 添加到背景区域来构建删除数据集。图3（b）说明了删除任务的流程。删除流程包括三个阶段：背景定位、 Mask 粘贴和 Mask 传播。删除任务的本地描述始终固定为：“删除物体并生成与背景融合的区域。

背景定位。 与添加和修改 Pipeline 中的实体选择阶段相似，作者使用RAM [35]，Grounding DINO [19] 和 SAM2 [24] 来识别第一帧中的背景区域。唯一不同的是，词汇被替换为背景词汇（见附录）。

Mask 粘贴 。为了与推理保持一致，作者从其他视频中选择一个实体 Mask 序列并将其粘贴到关键帧的背景区域。具体来说，作者从添加和修改样本中随机选择一个 Mask 序列，并将第一个 Mask 粘贴到关键帧的背景区域。

Mask Propagation 。对于删除任务，有两种可能的场景：1）删除前景实体（例如，从道路上删除汽车）和2）删除背景实体（例如，从墙上删除相框）。在第一种情况下，前景实体跟随其运动轨迹，因此作者直接复制后续的 Mask 并将其粘贴到后续帧中。相比之下，对于第二种情况，实体的运动轨迹与背景对齐。因此，作者使用RAFT[29]计算背景像素的光流，并将 Mask 从关键帧传播到后续帧。对于每部视频，都应用这两种传播方法，从而将删除样本扩展为。

Mask Augmentation

3.1节和3.2节中描述的 Pipeline 生成的 Mask 严格匹配实体形状，这可能会泄露语义信息并降低编辑模型的鲁棒性。为解决这个问题并扩大数据集，作者应用了数据增强。使用了三个操作符：expand 、hull 和 box。 expand 操作符在保持 Mask 原始形状的同时，随机放大 Mask 。hull 操作符计算 Mask 的凸包， box 操作符确定边界框。通过结合这些操作符，作者推导出了五种新的 Mask ：

expand 、2) hull、3) box、4) hull+ expand 、5) box+expand。这些 Mask 如图3(c)所示。通过数据增强，样本数量增加了6倍。为了保持数据质量，作者过滤掉了过大或过小的 Mask 。

Statistics

表2展示了VIVID-10M的数据统计。由于VIVID-10M-Video的流水线更为复杂，它不仅消耗更多的计算资源，而且引入了比VIVID-10M-Image更多的噪声数据。为了评估数据集的质量，作者使用用户研究从三个维度测量质量：Mask Generation (MG)、Mask Propagation (MP)和Text Alignment (TA)。表2表明，两个子集在MG和TA指标方面表现相似，而VIVID-10M-Video在MP过程中引入了额外的噪声，这最终导致高质量数据（HQ）的比例低于VIVID-10M-Image。这表明使用图像数据扩展视频数据可以有效地降低高质量数据的构建成本。

picture.image

最后，为了准确评估模型的编辑性能，作者手动构建了一个高质量的验证数据集VIVID-10M-Eval，与实际场景相匹配（详细见附录）。

4 VIVID Model

为了验证VIVID-10M，本节概述了一个多才多艺且交互式视频本地编辑模型。具体而言，第4.1节涵盖了基础原理，第4.2节介绍了VIVID架构，第4.3节提出了关键帧引导的交互式视频编辑以实现高效视频编辑，第4.4节讨论了作者的多任务联合训练。

Preliminaries

视频编辑模型可以被描述为条件扩散模型，其中模型基于给定的条件信息来预测噪声。视频编辑模型的优化目标可以定义为方程（1）。

picture.image

其中表示扩散步骤的数量，表示噪声视频，表示条件输入(例如, 描述和 Mask )。

Architecture

作者提出了VIVID，这是一个多功能的交互式视频编辑模型，支持在特定区域内添加、修改和删除实体。给定一个视频，VIVID在 Mask 序列内生成高质量、和谐的内容，受局部标题嵌入的语义指导。使用定义在方程（1）中的优化目标，作者设置条件。VIVID基于CogVideoX [33]来利用其预训练视频生成能力。图4突出了可训练组件，包括LoRA [12]和卷积编码器。具体而言，作者将 Mask 序列、 Mask 视频与噪声连接在一起，转换为视觉潜在。由于卷积编码器输入维度的不同，文本到视频生成[33]，它也进行了训练。同时，作者使用文本编码器从局部标题中获取文本潜在。最后，和被连接在一起并输入到DiT以生成编辑后的视频。

picture.image

Keyframe-guided Interactive Video Editing

在实际视频编辑场景中，用户往往不能在一次尝试中完全表达他们的需求，这导致基于模型反馈的局部字幕进行迭代调整。这个过程需要多次模型运行才能实现令人满意的结果，从而增加时间和资源需求，并可能损害用户体验。为了解决这个问题，作者提出了Keyframe-guided Interactive Video Editing（KIVE）机制，如图5所示，它使用户可以使用图像编辑模型快速编辑关键帧，并将这些编辑传播到剩余帧。

假设作者有两个具有可比生成能力和相应推理成本的图像编辑模型和视频编辑模型，分别为和。如果用户需要平均次编辑才能达到满意的结果，直接视频编辑的成本为，而使用KIVE的成本为。随着的增加，这种优势变得更加明显。为了使VIVID支持KIVE，作者通过用原始视频替换 Mask 视频的第一帧，用全黑帧替换 Mask 序列的第一帧进行训练。因此，条件输入可以表示为，其中和分别表示 Mask 视频和 Mask 序列，其中第一帧被替换。此外，选择编辑剪辑的最后帧作为下一个的键帧，可以使VIVID通过KIVE机制编辑长视频（参见附录）。

picture.image

Multi-Task Joint Training

为了降低训练开销并加速收敛，作者在训练过程中整合了图像和视频数据。如3.4节所述，图像数据具有更大的多样性和更高的优质样本比例。在固定训练时间下，利用这个更广泛的图像数据集可以提高模型对编辑的泛化能力。作者默认的配置使用图像到视频的比例为10:1。在每次训练步骤中，作者根据这个比例将批处理完全由图像或视频组成，以最大程度提高训练效率。此外，为了支持KIVE机制，作者在训练过程中，以50%的概率在视频编辑的条件输入中随机替换为。考虑到添加和修改任务比删除任务更具挑战性，因为它们需要生成明确的背景信息，作者调整了不同任务的数据比例：添加&修改：删除=3:1。

5 Experiments

Setup

实现细节 。作者的方法基于CogVideoX 5B模型[33]。作者在原始视频帧上使用LoRA[12]在480×720分辨率下训练VIVID-10M，LoRA秩为32。

Baseline 方法：作者将VIVID与其他视频编辑模型（VideoComposer [31] 和 COCOCO [40]）一起评估，在VIVID-10M-Eval上，该评估集包括三个编辑任务：_1) 添加，2) 修改，3) 删除._作者将VideoComposer的局部字幕改为全局字幕，以匹配其训练设置。考虑到现有的视频编辑模型（31, 40）不支持删除任务，作者还包括视频修复模型ProPainter [38]。

评估指标 。(a) 自动指标评估。背景保护（BP）：非编辑区域中原始视频和编辑后视频之间的L1距离。文本对齐（TA）：编辑区域的CLIP-score [10, 36]。时间一致性（TC）：CLIP-Image特征空间中连续帧的余弦相似度 [36]。_(b) 用户研究。为了更好地与人类感知对齐，作者还进行了一项用户研究，其中标注者对BP、TA、TC和视觉质量（VQ）进行评估，VQ反映了视频的真实性和美学。最终结果以胜率形式呈现。

Comparisons

定性比较。 作者在图6中提供了VIVID和 Baseline 模型[31, 38, 40]的编辑示例。由于空间限制，VideoComposer[31]的删除结果包含在附录中。作者的方法在所有任务上都实现了更美观和语义正确的编辑。对于图6：VIVID（作者）、VideoComposer（VC）、COCOCO（CO）和ProPainter（PP）的编辑结果。

在添加任务中，VIVID根据文本描述调整正确的颜色并最后在最后一帧中上色手臂，表明其对遮挡的理解。在修改任务中，VIVID编辑的太阳镜在人的 Head 转动时保持一致的结构和外观。最后，在删除任务中，VIVID有效地上色复杂的背景。相比之下，VideoComposer [31] 和 COCOCO [40] 并不支持删除，而 ProPainter 只能修复其他帧中可见的背景。

定量比较。表3中的定量结果表明，与其它模型相比，VIVID在自动化指标方面表现更好或可媲美。具体来说，在TC（总剪辑时间）上，VIVID超过了VideoComposer [31]，并与COCOCO [40]和ProPainter [38]的表现相似。值得注意的是，为了进行公平的比较，作者将帧率下采样至7.5fps，与其他模型相匹配，这降低了VIVID的TC。VIVID原生30fps剪辑的TC可在附录中找到。在TA（文本添加和修改任务）上，由于删除（第3.2节）的固定本地标题，作者只测量了添加和修改任务的表现。VIVID在两项任务上都领先，表明具有强大的标题一致性。最后，VIVID在所有基于扩散的模型[31, 40]中实现了显著的较低BP值。

picture.image

用户研究相较于自动化指标，提供了更有意义的见解 [21]。表3显示，在作者的模型在所有任务中，VQ，TA和TC的得分都显著高于自动化指标，这表明VIVID在生成美观的、语义对齐的、时间稳定的编辑方面具有强大的能力。对于BP，VIVID在 Baseline 方法上表现相当 [38, 40]。用户研究和自动化指标在TC上的差异是因为自动化指标只捕捉帧间的语义变化，而忽略了像素 Level 的稳定性。作者的模型显示了显著的减少抖动和闪烁。

Effectiveness of KIVE

如图4所示，KIVE机制实现的编辑质量与直接视频编辑相当。图7还展示了关键帧图像编辑和传播的示例，证明了VIVID不仅能够实现高质量图像编辑，还能在后续帧中保留实体特征。此外，VIVID在视频上消耗了17.1亿浮点运算（PFLOPs），而在关键帧编辑上只消耗了1.5 PFLOPs。这种减少突显了KIVE的效率，使得用户能够更有效地互动式优化局部字幕并实现令人满意的高质量结果。

picture.image

Ablation Study

混合图像和视频数据。作者在相同的训练时间内，比较了10:1，5:1，1:1和0:1四种图像与视频比例对编辑质量的影响。表5显示，将图像数据与视频数据相结合有效地提高了TA和BP，同时没有严重降低TC。值得注意的是，1:1的图像与视频比例已经将BP分数从31.47降低到19.63。由于10:1的图像与视频比例在提高TA和BP方面表现最佳，且保持与其他设置相当的TC，因此作者将其设置为默认值。

picture.image

数据增强 。为了研究数据增强对编辑质量的影响，作者使用来自VIVID-10M数据集的未增强的记录来评估编辑（见第3.3节）。作者将带有和不带增强数据的模型，每个在832K个样本上进行比较。如图8所示，在增强数据上训练模型有效地缓解了过度填充和实体变形问题，使模型能够编辑与 Mask 形状和大小不同的实体。这通过减少精确 Mask 输入的需求，提高了用户获得高质量编辑的体验。

picture.image

6 Conclusion

作者推出了 VIVID-10M，这是首个旨在克服构建配对数据集和高成本训练视频局部编辑模型的视频局部编辑大规模数据集。利用 VIVID-10M，作者提出的 VIVID 模型在除了修改和删除任务外，还展示了强大的性能。

通过引入关键帧引导的交互式视频编辑机制，该机制通过允许迭代关键帧调整和有效地在帧间传播更改，显著降低了实现满意结果的延迟。

实验结果证实，VIVID 实现了最先进的性能，在自动化指标和用户研究中都超过了现有模型。

参考文献

[0]. VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

西工业/北理工提出 VIVID-10M:一种用于多功能和交互式视频局部编辑的数据集和基线 ！

1 Introduction

2 Related Work

3 VIVID-10M Dataset

4 VIVID Model

5 Experiments

6 Conclusion