Sora已死?全面深入解读Movie Gen技术原理5部曲:4-精准视频编辑

视频服务图像处理机器学习
  • 引言
  • 简介
  • 模型架构改进
  • 单帧视频编辑训练
  • 多帧视频编辑训练
  • 反向翻译的视频编辑训练
  • 结果
引言

一年好景君须记,最是橙黄橘绿时。

picture.image

小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:缅A消费积极分子。紧接此前Movie Gen解读系列:

突发!Meta重磅发布Movie Gen入局视频生成赛道!

全面深入解读Movie Gen技术原理(5部曲):1-概述

全面深入解读Movie Gen技术原理(5部曲):2-图像视频联合生成

全面深入解读Movie Gen技术原理(5部曲):3-个性化视频生成

继续基于Meta官方发布的92页Movie Gen技术报告 详细解读Movie Gen模型。今天这篇长作文主要介绍Movie Gen中的:精准视频编辑 ,介绍使用指令的方式精确驱动编辑视频的原理。

简介

随着视频内容的普及,对易用、可控且精确的视频编辑工具的需求日益增长。文本引导的视频编辑模型成为热点研究方向,旨在让用户通过自然语言简单快速地编辑视频。然而,受限于有监督视频编辑数据的稀缺,高性能模型的开发面临挑战。本节介绍 Movie Gen Edit 模型及其无监督训练方法。

Movie Gen Edit 的训练基于两个假设:

  1. 显式训练模型进行视频编辑可显著提升性能。全面控制输入视频需要处理整个视频,而非仅处理有限特征。
  2. 收集大规模视频编辑监督数据困难,导致训练-测试场景差异。最小化这种差异对发挥模型潜力至关重要。

训练分为三个阶段,逐步减少训练-测试差异:

  1. 多任务训练:在图像编辑和视频生成间交替。
  2. 合成任务微调:引入更接近多帧视频编辑的合成任务。
  3. 反向翻译适配:在多帧高质量输出视频上训练。

picture.image

最终,Movie Gen Edit 在 TGVE+ 基准测试中显著优于现有模型。此外,还提出了 Movie Gen Edit Bench 数据集,涵盖6种视频编辑任务,包含多样化的编辑指令和视频特性。

模型架构改进

在视频编辑领域,由于缺乏足够的监督数据,现有的模型训练方法往往存在训练和测试不一致的问题,导致编辑质量不佳。为了解决这一挑战,研究人员提出了一种多阶段的渐进式训练方法,通过逐步减小训练和测试的差异来提高模型性能。这种方法包括模型架构的改进和三个主要的训练阶段。

研究人员对原有的文本到视频生成模型进行了几项关键改进:

a) 输入视频条件化:通过在patch embedder中添加额外的输入通道,使模型能够处理输入视频。这允许将输入视频的潜在表示与噪声输出视频的潜在表示在通道维度上进行拼接,然后提供给模型。

b) 编辑任务条件化:借鉴Emu Edit的方法,为每种编辑任务(如添加物体、改变背景等)引入了一个可学习的任务嵌入向量。模型对这个任务嵌入应用线性变换,生成四个嵌入,并将它们与文本编码器的隐藏表示拼接。另外,对任务嵌入进行第二次线性变换,并将结果向量添加到时间步嵌入中。

c) 保留视频生成能力:为了完全保留模型的视频生成能力,所有新增的权重都被初始化为零,而其余权重则从预训练的文本到视频模型中初始化。

第一阶段:单帧视频编辑训练

由于缺乏监督视频编辑数据,研究人员首先利用图像编辑数据集,将图像编辑视为单帧视频编辑来训练模型。具体方法如下:

a) 使用图像编辑数据集:数据集由输入图像、编辑指令和输出图像组成的三元组构成。

b) 保持视频生成能力:同时在图像编辑和文本到视频生成任务上训练模型,以确保保留时间一致性和生成质量。在视频生成训练中,模型以黑色视频作为额外的条件输入。

c) 训练策略:由于图像编辑和视频生成的序列长度不同,采用交替批次训练的方式,并且图像编辑批次的采样频率是视频生成批次的五倍。

d) 位置嵌入处理:为了避免在视频编辑测试时出现输出完全失真的问题,在图像编辑训练中使用随机采样的时间位置嵌入,而不是简单地使用第一帧的位置嵌入。

第二阶段:多帧视频编辑训练

为了解决第一阶段训练后在视频编辑任务中出现的模糊问题,研究人员创建了两个互补的多帧视频编辑数据集:

a) 动画帧编辑:

  • 利用语言模型生成编辑指令和目标描述

  • 使用单帧编辑模型生成编辑后的帧

  • 应用随机仿射变换来创建动画序列

  • 使用自动化图像编辑指标进行筛选

picture.image

b) 生成式指令引导的视频分割:

  • 扩展Emu Edit中的Segment任务到视频领域
  • 使用语言模型生成标记特定物体颜色的指令
  • 利用DINO和SAM 2提取视频中物体的分割掩码
  • 创建目标视频,用指定颜色标记相关物体

训练策略:

  • 在这两个数据集上微调第一阶段的模型
  • 同时保持文本到视频生成的训练
  • 动画帧编辑样本的采样频率是其他两个任务的三倍
第三阶段:反向翻译的视频编辑训练

为了解决第二阶段训练后新生成元素缺乏动感和过饱和的问题,研究人员采用了自然语言处理中的反向翻译技术:

a) 数据生成:

  • 使用语言模型生成编辑指令和输出描述
  • 利用第二阶段的模型生成编辑后的视频
  • 使用自动化ViCLIP分数进行筛选

b) 反向翻译:

  • 使用语言模型生成反向编辑指令,将生成的视频转回原始视频
  • 创建合成数据集,包含生成的视频、反向编辑指令和原始视频

c) 训练策略:

  • 训练模型对原始视频进行去噪,同时以可能存在噪声的生成视频和反向编辑指令为条件
  • 这种方法创建了一个弱监督的视频编辑数据集,其中包含真实的输出视频

通过这种多阶段的训练方法,研究人员逐步缩小了训练和测试之间的差距,有效提高了AI视频编辑模型的性能。该方法巧妙地利用了有限的数据资源,为缺乏大规模监督数据的视频编辑任务提供了一种可行的解决方案。每个阶段都针对特定的问题进行了优化,从而逐步改善模型的编辑能力、时间一致性和生成质量。

结果

本节比较了MovieGen Edit模型与其他视频编辑基线模型的表现,并分析了模型设计和实现中的关键选择。

首先,研究者将MovieGen Edit与多个基线模型进行了对比,包括无需训练的方法(如SDEdit)和需要预训练的方法(如InsV2V、EVE等)。在TGVE+基准测试中,MovieGen Edit在人工评估中显著优于所有基线模型,比当前最先进的EVE模型更受青睐。在自动评估指标方面,MovieGen Edit在ViCLIPdir指标上达到了最佳水平,在ViCLIPout指标上与EVE相当。

在MovieGen Edit Bench基准测试中,MovieGen Edit同样优于Runway Gen3 V2V和SDEdit等基线模型。人工评估显示,MovieGen Edit在保持输入视频结构方面具有明显优势。

研究还进行了多项消融实验,以评估模型设计中的关键选择:

  1. 第一阶段的多任务训练vs适配器方法:结果表明,全模型训练(多任务方法)能够支持更高质量的编辑,在CLIPdir和L1指标上表现显著更好,且人工评估结果更佳。
  2. 第二阶段的动画帧编辑vs图像编辑动画化:人工评估者在70%以上的情况下认为动画帧编辑方法更忠实于文本指令,61%以上的情况下认为其质量更高。
  3. 第三阶段的反向翻译vs标准微调:虽然反向翻译在文本忠实度上略有下降,但在结构、质量和整体偏好方面都有显著改进。
  4. 各阶段的贡献评估:第二阶段相比第一阶段有显著改进,人工评估者在89%以上的情况下更倾向于第二阶段模型。第三阶段的改进相对微妙,主要体现在视频编辑质量的提升上。

总的来说,这些结果验证了MovieGen Edit模型设计的有效性,特别是其多阶段训练策略。每个阶段都为模型性能带来了明显改进,使MovieGen Edit在视频编辑任务上达到了领先水平。这种逐步优化的方法不仅提高了模型的文本忠实度和视频质量,还增强了其保持原始视频结构的能力,为高质量视频编辑提供了新的可能性。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论