万字长文深度解读Movie Gen技术原理(5部曲):图像&视频联合生成模型 (2)

大模型机器学习图像处理
  • 引言
  • 简介
  • 图像和视频基础模型
  • 时间自编码器(TAE)
  • 训练目标
  • 骨干架构
  • 文本嵌入和视觉-文本生成
  • 空间上采样
  • 模型扩展和训练效率
  • 预训练
  • 预训练数据
  • 训练
  • 微调STF
  • 微调数据集创建
  • 监督微调&模型平均
  • 推理
  • 推理提示重写
  • 提高推理效率
  • 评估
  • 评估维度
  • 评估基准
  • 评估讨论
  • 结果
  • 与之前工作的比较
  • 消融实验
  • TAE结果
  • TAE消融实验
  • 空间上采样器结果
  • 文本生成图像
  • 方法
  • 结果
  • 总结
  1. 引言 =======

秋阴不散霜飞晚,留得枯荷听雨声。

picture.image

小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:进缅A的小男孩。紧接此前 Movie Gen解读系列

突发!Meta重磅发布Movie Gen入局视频生成赛道!

全面深入解读Movie Gen技术原理(5部曲):概述 (1)

继续基于Meta官方发布的 92页Movie Gen技术报告 详细解读Movie Gen模型。今天这篇长作文主要介绍Movie Gen中的核心:图像和视频的联合生成

  1. 简介 =======

今天这篇长文详细介绍Movie Gen中图像和视频的联合生成技术。主要内容包括:时间自编码器(TAE)的设计与优化、基于流匹配的训练目标、联合生成的骨干网络架构、文本嵌入和视觉-文本生成方法、空间上采样技术、模型扩展和训练效率优化等。此外,还详细介绍了预训练数据的准备过程,包括视觉筛选、运动筛选、内容筛选和字幕生成等步骤。整体上,全面深入地解析了Movie Gen的核心技术原理。后文将从 个性化视频生成、精准视频编辑、音频生成 这3个方面分别深度解读。感兴趣的小伙们可以留意本微信公众号:

  1. 图像和视频联合生成 ==============

Movie Gen Video是一个单一的联合基础模型,用于文本到图像和文本到视频的任务。该模型接受文本提示(即prompt)作为输入,生成由多个RGB帧组成的视频作为输出。通过将图像视为单帧视频,实现了同一模型生成图像和视频的能力。相较于视频数据,配对的图像-文本数据集更易扩展到多样化的概念和风格,因此图像和视频的联合建模可带来更好的泛化能力。

训练方法如Figure 2所示,采用多阶段训练以提高效率。首先,模型仅在低分辨率256像素的图像上进行预训练;随后在低分辨率图像和视频上联合预训练;最后进行高分辨率的联合训练。为改善生成效果,模型在高质量视频上进行微调。此外,通过后期训练添加了个性化和编辑等功能。

picture.image

Figure 2: 训练Movie Gen Video的方法。首先对模型进行文本到图像任务的预训练,然后在逐渐增大空间分辨率下进行联合文本到图像和文本到视频的预训练。对模型进行微调,使其在高美学和运动质量的视频上提升视频生成效果。此外,还增加了个性化和视频到视频编辑这2项附加功能。 为提高训练和推理效率,生成过程在时空压缩的潜在空间中进行。为此,训练了一个单一的时间自编码器模型(TAE),用于将RGB图像和视频映射到时空压缩的潜在空间,并能进行反向映射。用户提供的文本提示通过预训练的文本编码器进行编码,得到文本提示嵌入,作为模型的条件输入。生成模型使用流匹配(Flow Matching)训练目标,以采样的噪声和所有提供的条件作为输入,产生一个输出潜在向量。该潜在向量通过TAE解码器映射回像素空间,生成输出图像或视频。Figure 3说明了联合图像和视频生成流程。

picture.image

Figure 3:联合图像和视频生成流程。在一个时空压缩的潜在空间上训练生成模型,该空间通过时间自编码器模型(TAE)学习得到。用户提供的文本提示通过预训练的文本编码器进行编码,并作为条件输入。生成模型将采样的高斯噪声和所有提供的条件作为输入,生成一个输出潜在变量,然后使用TAE解码器将其解码为输出图像或视频。 基础模型的所有组件设计注重简洁性,包括训练目标、骨干架构和使用TAE进行时空压缩。这些设计选择包括使用LLaMa3架构作为联合图像-视频生成模型,既能扩大模型规模,又能实现高效训练。最大的300亿参数模型可直接生成不同宽高比(如1:1、9:16、16:9)、多种长度(4-16秒)、768×768像素分辨率的视频(根据宽高比适当缩放)。通过空间上采样器,可进一步提高空间分辨率,生成全高清1080p分辨率的视频。

接下来将详细描述基础Movie Gen Video模型的架构、预训练和微调方法。

3.1 图像和视频基础模型

Movie Gen Video模型的关键组件包括:时空自编码器(TAE)、图像和视频生成的训练目标、模型架构,以及在工作中使用的模型扩展技术。

3.1.1 时间自编码器(TAE)

为提高效率,使用时间自编码器(TAE)将RGB像素空间的视频和图像编码到时空压缩潜在空间中,并学习在这个潜在空间中生成视频。TAE基于变分自编码器,将形状为的输入像素空间视频压缩为形状为的连续值潜在向量,其中,,。在实现中,在每个时空维度上将输入压缩8倍,即。这种压缩降低了Transformer作为骨干网络时,输入的整体序列长度,使得能够以原生帧率生成长时间和高分辨率的视频。这种选择还避免使用先前工作中常用的帧插值模型,从而简化了模型。

TAE架构 。采用了来自2022年 Rombach等人提出的图像自编码器架构,并通过添加时间参数进行"膨胀":在每个2D空间卷积之后添加1D时间卷积,在每个空间注意力之后添加1D时间注意力。所有时间卷积使用对称复制填充。使用步长为2的步进卷积进行时间下采样,通过最近邻插值后跟卷积进行上采样。通过步进卷积进行下采样意味着任何长度的视频都可以被编码(特别是包括被视为单帧视频的图像),应对的措施是丢弃多余的输出帧,如图4所示。发现增加潜在空间X中的通道数可以同时提高重建和生成性能。在Movie Gen中,使用C=16。使用预训练的图像自编码器初始化TAE中的空间参数,然后添加时间参数以如上所述膨胀模型。膨胀后,按1个图像batch和3个视频batch的比例联合训练TAE。

picture.image

训练目标的改进 。之前的研究发现,使用的标准训练目标会在解码的像素空间视频中生成"斑点"伪影,如图5所示。经进一步检查,发现模型在某些空间位置产生了高范数的潜在编码("潜在点"),这些编码在解码时会导致像素空间中的"斑点"。推测这是一种捷径学习的形式,模型学会在这些高范数的潜在点中存储关键的全局信息。有学者发现视觉Transformer可以产生高范数的潜在token,而有些研究成果发现消除诸如组归一化等全局运算符可以解决这个问题。

picture.image

Meta选择在损失中添加一个惩罚项(不改变模型架构),该项惩罚模型编码远离均值的潜在变量(隐变量)。具体来说,给定输入潜在向量X,异常值惩罚损失(OPL,Outlier Penalty Loss)由下式给出:

其中是一个缩放因子,表示潜在值需要在标准差之外多远才会被惩罚。对于图像,直接使用公式(1);对于视频,被合并到批次维度中。将添加到典型的变分自编码器损失(重建、判别器和感知损失)中可以消除斑点伪影。在实践中,设置,并为异常值损失设置较大的权重(1e5)。

使用时间分块进行高效推理 。由于内存限制,无法直接对高分辨率长视频(如1024×1024像素、256帧)进行编码和解码。为了便于对大型视频进行推理,沿时间维度将输入视频和潜在变量分成多个块,对每个块进行编码或解码,然后将结果拼接在一起作为输出。在分块时,可以在块之间包含一些重叠,并在将块拼接回去时对相邻块进行额外的加权混合。重叠和混合可以应用于编码器和解码器,这样可以消除边界伪影,但代价是增加计算量。在实践中,在编码器中不重叠分块,使用32个原始帧(或4个潜在帧)的块大小,在解码器中使用16个原始帧(或2个潜在帧)的重叠分块。对于混合,在帧i和i+1之间使用线性组合,其中在个重叠帧上索引,。图6显示了分块推理的基本流程。

picture.image

Figure 6:使用TAE进行分块推理。输入视频在时间维度上被分割成大小一致的块,可以选择是否重叠。每个块通过模型的前向传递进行处理。如果使用了重叠,则在重建过程中进行线性加权混合。

3.1.2 视频和图像生成的训练目标

Movie Gen使用流匹配(Flow Matching)框架来训练联合图像和视频生成模型。Flow Matching通过迭代地改变来自先验分布(例如高斯分布)的样本,从而生成来自目标数据分布的样本。在训练时,给定潜在空间中的视频样本,采样一个时间步长,和一个"噪声"样本,,据此构造一个训练样本。模型被训练以预测速度将样本"移动"到视频样本的方向。

虽然有多种方法可以构造,Meta这里使用简单的线性插值或最优传输路径,即:

其中。因此,真实速度可以推导为:

用表示模型参数,表示文本提示嵌入,将预测的速度表示为,,。通过最小化真实速度和模型预测之间的均方误差来训练模型:

需要注意的是,采样时间是基于logit-正态分布中采样的,其中底层的高斯分布具有零均值和单位标准差。

推理。 在推理时,首先采样,,然后使用常微分方程(ODE)求解器根据模型估计的值计算。实际上,在精确的ODE求解器配置中涉及多个设计选择,例如一阶或高阶求解器、步长、容差等,这些都会影响估计的运行时间和精度。使用一个简单的一阶欧拉ODE求解器,其中包含针对模型定制的个离散时间步,如3.4.2节所述。

信噪比 。时间步长控制信噪比(SNR),用于构造的简单插值方案确保当t=0时SNR为零。这确保在训练过程中,模型接收纯高斯噪声样本并被训练以预测它们的速度。因此,在推理时,当模型在t=0接收纯高斯噪声时,它可以做出合理的预测。

大多数视频生成模型使用扩散公式 进行训练。最近的研究表明,视频生成的时候选择合适的扩散噪声调度,使终端信噪比为零尤为重要。标准扩散噪声调度不能确保终端SNR为零,因此需要进行修改。如上所述,流匹配实现自然确保终端SNR为零。根据经验,发现流匹配对噪声调度的精确选择更加鲁棒,并且优于扩散损失(见3.6.2节)。因此,采用流匹配方法,而且这种方法简单且性能高。

3.1.3 联合图像和视频生成骨干架构

如3.1.1节所述,学习到的视频潜在空间表示用于生成。这个潜在编码的形状为。为输入给Transformer主干网络,视频潜在编码首先通过3D卷积层进行"分块",然后展平成1D序列。3D卷积层卷积核大小为,步长等于核大小,并将其投影到Transformer主干网络所需的相同维度。因此,输入Transformer网络的总token数为。这里使用和,即生成2 × 2的空间块 。

Movie Gen采用因子化的可学习位置嵌入,以支持任意大小、宽高比和视频长度输入到Transformer。D维的绝对嵌入可以表示为映射, maxLen , 其中i表示块的绝对索引。"分块"的tokens,即3D卷积层的输出,被转换为空间坐标h、w和时间坐标t的单独嵌入、和。、和被定义为每个维度的最大序列长度(maxLen),对应于分块输入的最大空间大小和视频长度。最终的位置嵌入是将所有因子化位置嵌入相加而得到。最后,将最终的位置嵌入添加到所有Transformer层的输入中。与仅将位置嵌入添加到第一层相比,添加到所有层可以有效减少失真和变形伪影,特别是在时间维度上。

这里使用的Transformer主干网络主要采用LLaMa3架构中使用的Transformer块。与先前的工作一样,这里使用RMSNorm和SwiGLU。但是,这里对LLaMa3 Transformer块进行了三处修改,以适应使用Flow Matching的视频生成:

  1. 为将prompt embedding 作为输入条件,每个Transformer的self-attention模块和FFN之间新增一个cross-attention模块。Meta的研究员采用多个不同的文本编码器,以进行互补优势,具体如下一节所述,并简单地将它们的嵌入连接成单个序列来构建。
  2. 添加自适应层归一化块,以将时间步长纳入Transformer。
  3. 使用完全双向注意力,而不是语言建模中的因果注意力。

Movie Gen的主干网络设计有意保持与大型语言模型(特别是LLaMa3)相似。这使得可以使用与大型语言模型相似的技术来扩展模型规模和训练(如3.1.6节所讨论)。根据经验,发现这种架构设计在各种超参数(如模型大小、学习率和批量大小)下的表现与其他学者使用的专门块效果相当或更好,同时训练更加稳定。表1列出了最大模型的关键超参数,图8说明了Transformer块,详细介绍了Transformer主干网络中几个关键位置的特征维度。

picture.image

3.1.4 文本嵌入和视觉-文本生成

采用预训练的文本编码器将输入文本提示p转换为文本嵌入,作为视频生成骨干网络的条件输入。具体是使用UL2、ByT5和Long-prompt MetaCLIP 作为文本编码器, 为骨干网络提供语义级和字符级的文本理解。Long-prompt MetaCLIP模型是通过在更长的文本标题上微调MetaCLIP文本编码器而得到的,将输入文本tokens的长度从77增加到256。在添加单独的线性投影和LayerNorm层将它们投影到相同的6144维空间并归一化嵌入后,将三个文本编码器的文本嵌入连接起来。UL2和Long-prompt MetaCLIP文本编码器提供具有不同特性的提示级嵌入。UL2使用大量纯文本数据训练,可能在其特征中提供强大的文本推理能力;Long-prompt MetaCLIP提供与视觉表征对齐的文本表征,有利于跨模态生成。字符级ByT5编码器仅用于编码视觉文本 ,即可能在文本提示中明确要求在输出中生成字符串。

控制FPS 。FPS(frame per second) 条件控制用于控制生成视频的长度,方法是将每个训练视频的采样FPS值预先附加到输入文本提示中(例如,"FPS-16")。在预训练过程中,以原始FPS采样视频片段,最低为16 FPS。在微调中,以16和24两个固定的FPS值采样片段。

3.1.5 空间上采样

在Movie Gen中采用单独的空间上采样器模型将768 px视频转换为全高清(1080p)分辨率,从而降低高分辨率生成的整体计算成本。

如图7所示,空间上采样被设计为一个视频到视频生成任务,即根据一个较低分辨率的输入视频生成一个高清输出视频。低分辨率视频首先在像素空间中使用双线性插值进行空间上采样到所需的输出分辨率。再使用VAE将视频转换到潜在空间。上采样器使用逐帧VAE,以提高像素清晰度。最后,潜在空间模型生成高清视频的潜在表征,条件是相应低分辨率视频的潜在表征。随后使用VAE解码器将生成的高清视频潜在表征逐帧解码到像素空间。

picture.image

实现细节 。空间上采样器模型架构是文本到视频(text-to-video) Transformer的变体(但是较小,只有7B参数)。该模型初始化于1024 px分辨率下训练的文本到图像(text-to-image)模型,从而可以更好地利用高分辨率图像数据。空间上采样器经过训练,预测视频的潜在表征,然后使用VAE的解码器逐帧解码。编码后的视频在通道维度上与生成输入连接,然后输入到空间上采样器Transformer。由于连接而在输入处增加的参数被初始化为0。空间上采样器在大约400K高清视频的24 FPS下14帧的片段上进行训练。应用二阶退化过程来模拟输入中的复杂退化,并训练模型生成高清输出视频。

在推理时,将在已经使用 TAE 解码的视频上使用空间上采样器。为了最小化这种潜在的训练-测试差异,随机用 TAE 产生的伪影替换二阶退化。由于强输入条件(即低分辨率视频),观察到模型仅需20个推理步骤就能产生良好的输出。这种简单的架构可用于各种倍数的超分辨率;然而,具体到这里训练了一个2倍空间超分辨率模型。与TAE平铺(3.1.1节)类似,使用滑动窗口方法对视频进行上采样,窗口大小为14,重叠4个潜在帧。

使用Multi-Diffusion改善时间一致性 。由于内存限制无法在更长的视频持续时间上训练空间上采样器。因此,在推理过程中,以滑动窗口方式对视频进行上采样,导致边界处出现明显的不一致。为了避免这种情况,利用MultiDiffusion,这是一种无需训练的优化方法,确保在一组共同约束下的不同生成过程之间的一致性。具体来说,在每个去噪步骤中使用重叠帧的潜在表示的加权平均,促进连续窗口之间的信息交换,以增强输出的时间一致性。

3.1.6 模型扩展和训练效率

以下描述扩展和高效训练Movie Gen Video 30B参数基础模型的关键细节,包括:(1)概述硬件和基础设施细节 (2)与最先进的大型语言模对比训练设置 (3)讨论用于Movie Gen Video的模型并行方法

1.)基础设施 。6144块H100 GPU训练模型,每个GPU运行在700W TDP,配备80GB HBM3, 使用Meta的Grand Teton AI服务器平台。每台服务器内,有8块GPU,通过NVSwitch均匀连接。跨服务器的GPU通过400Gbps RoCE RDMA NIC连接。训练作业使用MAST(Meta global-scale traing scheduler)调度,这是Meta的全球规模训练调度器。

2.)与大型语言模型对比

  • 大型语言模型使用结构化因果注意力掩码来强制执行token因果性,而Movie Gen Video使用完全双向注意力。这种因果掩码可以提供大约2倍的加速比,同时还减少了峰值内存需求。
  • 其次,像LLaMa3这样的大型语言模型使用分组查询注意力(GQA)而不是多头注意力(MHA),这减少了K-,V-头的数量,从而减少了Key和Value投影的总维度。这大大减少了FLOP和张量内存需求,同时还提高了内存带宽利用率。此外,由于K,V-缓存大小的减少,自回归大型语言模型通过使用GQA在推理时间上获得额外的好处。部分由于Movie Gen Video的非自回归设计,这种架构设计选择尚未被探索,留待未来工作。
  • 与当前的大型语言模型(如LLaMa3)类似,训练分为不同上下文长度的阶段,其中上下文长度根据空间分辨率(256 px或768 px)而变化。对于768 px训练,这导致上下文长度约为73K个token(768 × 768 px视频,256帧,通过TAE压缩8 × 8 × 8,通过分块压缩2 × 2 × 1)。
  • 但与大型语言模型不同的是,大型语言模型在大部分训练预算中都在较短的上下文长度上进行训练,而这里大部分训练FLOP都用于长上下文768 px训练(见表3)。由于自注意力的二次方性质(这是Transformer块的核心),扩展到非常大的上下文长度需要巨大的计算量(FLOP)。这使得在长上下文训练时优化训练设置变得更加重要。

3.)模型并行 。大模型和极长的上下文长度需要使用多种并行技术来实现高效训练。采用3D并行来支持模型级别在三个轴上的扩展:参数数量、输入token和数据集大小,同时还允许水平扩展到更多GPU。利用了完全分片数据并行、张量并行、序列并行和上下文并行的组合。

下面介绍不同的并行技术以及它们如何在Transformer的不同部分中使用(如图8所示)。

  • **张量并行(TP)**沿列或行方向对线性层的权重进行分片,使得参与分片的每个GPU所需执行的工作量(FLOPs)减少了tp-size,同时对于列并行分割,它们生成的激活也减少了tp-size,而对于行并行分割,它们消耗的激活也减少了tp-size。执行这种分片的代价是在前向(行并行)和后向(列并行)传播中增加了全局规约(all-reduce)通信开销。
  • **序列并行(SP)**建立在TP的基础上,允许在序列维度上对输入进行分割,适用于那些被复制的层,在这些层中每个序列元素可以被独立处理。如果没有这种分割,例如LayerNorm层,将会执行重复的计算,并在TP组内生成相同(因此是复制的)激活值。
  • **上下文并行(CP)**允许对序列维度进行部分分割,以支持序列依赖的softmax注意力操作。CP的优势在于,对于任何给定的(source (context), target (query)) 序列对, softmax-attention 仅在上下文上依赖于序列,而不依赖于查询(query)。因此,在自注意力的情况下,输入源和目标序列是相同的,CP允许在前向传播中仅对K和V投影执行全聚合(all-gather),而不需要对Q、K和V全部执行,并在反向传播中对相关梯度进行reduce-scatter。此外,由于Q和K、V投影之间行为的分离,CP的性能不仅在上下文长度上变化,而且在上下文维度的大小上也变化。这导致CP在Movie Gen Video和LLaMa3之间的扩展性能和开销特征存在差异,后者使用GQA,因此生成较小的K、V张量进行通信。例如,对于 LLaMa3 - 70B,K、V张量小 8 倍。
  • **完全分片数据并行(FSDP)**在所有数据并行GPU上对模型、优化器和梯度进行分片,在每个训练步骤中同步地gather和scatter参数和梯度。

4.)通信和计算重叠 。虽然并行技术可以通过在GPU之间分配FLOP和内存需求来实现大序列Transformer模型的训练,但它们的直接实现可能会引入开销和低效。构建了一个分析框架来对计算和通信时间进行建模,从而识别需要跨GPU通信的重复激活,从而可以设计出一个高度优化的模型并行解决方案。然后,实现自定义新的模型并行化,并使用PyTorch编写并编译为CUDAGraphs,实现了强大的激活内存扩展,并最小化了暴露的通信时间。在附录A.2中提供了有关优化训练设置的更多详细信息。

picture.image

3.2 预训练

3.2.1 预训练数据

预训练数据集包含约1亿个视频-文本对和约10亿个图像-文本对。图像-文本数据的整理采用了类似于(Dai et al., 2023)的策略,以下将重点介绍视频数据 的整理过程。

原始数据池由4秒到2分钟长的视频组成,涵盖了人类、自然、动物和物体等不同领域的概念。数据整理流程最终产生了剪辑-提示对的预训练集,其中每个剪辑长度为4-16秒,采用单镜头拍摄且有意义的运动。如图9所示,数据整理流程包括三个筛选阶段:1)视觉筛选,2)运动筛选,3)内容筛选,以及一个字幕生成阶段 。经过筛选的剪辑会被添加详细的生成字幕,平均包含100个词。以下是每个阶段的详细介绍:

视觉筛选 :使用6个筛选器来去除低视觉质量的视频。(1)移除了宽度或高度小于720像素的视频。(2)根据宽高比进行筛选,以达到60%的横向视频和40%的纵向视频的比例。由于横向视频通常具有更长的持续时间、更好的美学效果和运动更稳定,因此更偏好横向视频 。(3)使用视频OCR模型移除包含过多文字的视频。(4)使用FFmpeg进行场景边界检测,从这些视频中提取4到16秒长的剪辑,确保无场景切换。(5)然后,训练简单的视觉模型,获取基于帧级视觉美学、视觉质量、大边框和视觉效果的预测信号用于筛选。(6)参照Panda-70M,移除了视频开头的前几秒,因为视频开头通常包含不稳定的摄像机移动或过渡效果。

运动筛选 :遵循先前的工作(Girdhar et al., 2024)自动筛选出低运动的视频。(1)首先,使用内部静态视频检测模型移除没有运动的视频。(2)接下来,根据VMAF运动分数和运动向量识别具有"合理"运动的视频。为了移除频繁抖动的相机运动视频,使用PySceneDetect库中的镜头边界检测。(3)最后,移除了具有特殊运动效果的视频,如幻灯片视频。

内容筛选 :为确保预训练集的多样性, (1)使用复制检测嵌入(copy-detection embedding)空间中的相似性来移除感知上重复的剪辑。(2)通过重新采样来降低主导概念的普遍性,以创建训练集。(3)对视频-文本联合嵌入模型 的语义嵌入进行聚类,以识别细粒度的概念簇。(4)接下来,合并重复的簇,并根据簇大小的平方根倒数从每个合并后的簇中采样剪辑。

字幕生成 :使用LLaMa3-Video模型为视频剪辑创建准确且详实的文本提示。微调了该模型的8B和70B变体以用于视频字幕任务,并使用这些模型为整个视频剪辑训练集生成字幕。训练集由70%的8B字幕和30%的70B字幕组成。为实现电影级摄像机运动控制,训练了一个摄像机运动分类器,可以预测16类摄像机运动中的一种,如缩小、向左平移等(更多详情见附录B.2)。将高置信度的摄像机运动预测作为前缀添加到之前生成的文本字幕中。在推理时,就可以允许用户指定明确的摄像机控制以生成视频。

多阶段数据整理 :整理了3个预训练数据子集,在视觉、运动和内容方面的阈值逐步变严,以满足不同预训练阶段的需求。(1)首先,整理了一组最小宽度和高度为720像素的视频剪辑用于低分辨率训练。(2)接下来,筛选该集合,提供最小宽度和高度为768像素的视频用于高分辨率训练。(3)最后,整理了新视频来扩充高分辨率训练集。高分辨率集包含80%的风景和20%的人像视频,其中至少60%包含人类。在整理过程中,建立了一个包含600个人体动词和表达的分类法,并使用该分类法进行零样本文本到视频检索,以选择包含人类的视频。在内容重采样过程中,保留了这些人像视频的频率。有关这些视频整理阈值的详细信息,请参见附录B.1。

可变持续时间和尺寸的分桶 :为适应不同的视频长度和宽高比,根据宽高比和长度对训练数据进行分桶。每个桶中的视频具有相同的潜在表示尺寸(隐向量维度),以便于批量处理训练数据。图像和视频数据集都使用五个宽高比桶。因此,模型可以生成不同宽高比的图像和视频,例如1024×576的横向和576×1024的纵向。此外,还定义了五个持续时间桶(4秒-16秒),并根据视频长度调整潜在帧的数量(见于表2)。如3.1.4节所述,通过在文本字幕中添加FPS token来引入FPS控制,允许以不同的帧率(16-32 FPS)采样视频。在预训练中,以原始FPS采样视频剪辑,最低为16 FPS。在微调中,以两个固定的FPS值16和24采样剪辑。

picture.image

picture.image

3.2.2 训练

本节详细阐述了30B参数模型的训练过程。为了优化训练效率并提高模型的可扩展性,研究团队采用了一种多阶段训练策略。这种策略主要包含三个关键步骤:

  • 初始阶段专注于文本到图像(T2I)任务的训练,随后过渡到文本到图像和文本到视频(T2V)任务的联合训练;
  • 分辨率逐步提升,从256像素的低分辨率数据开始,最终达到768像素的高分辨率数据;
  • 在计算资源和时间限制的约束下,持续优化数据集并改进训练方案。

表3中总结了详细的训练方案。研究过程中,团队维护了一个独立的视频验证集,用于全程监控验证损失。值得注意的是,模型的验证损失与人类对视觉质量的评估显示出高度相关性。

文本到图像预热训练:联合训练T2I/V模型相比单独训练T2I模型,在速度和内存消耗上都面临更大挑战,主要是由于潜在token长度大大增加(最多可达32倍)。此外,直接从零开始训练T2I/V模型会比用T2I模型初始化的收敛速度慢得多。例如,在相同的GPU训练时间下,直接训练的模型在T2I和T2V任务上的视觉和时间质量均不如多阶段训练方法。为此,研究团队决定先进行T2I任务的预热训练。这一阶段采用256像素的较低分辨率,而非目标的768像素,这样可以使用更大的批量大小,在相同的计算资源下处理更多的训练数据。

T2I/V联合训练:完成T2I预热训练后,模型进入文本到图像和文本到视频的联合训练阶段。为适应联合训练,对模型结构进行了以下调整:

  • 将空间位置嵌入(PE)层翻倍以适应各种宽高比
  • 添加新的时间PE层以支持多达32个潜在帧
  • 从T2I模型初始化空间位置嵌入层,将其扩大2倍,以适应不同的长宽比

首先使用256像素分辨率的图像和视频进行T2I/V联合训练。对于768像素阶段,将空间PE层扩展3倍。表3总结了训练过程。

  • 256像素T2I/V阶段 :用batch size=1536和6e-5的较大的学习率,确保了训练的稳定性。经过123k次迭代后,通过将GPU数量翻倍,使得global batch size翻倍,验证损失显著下降。该阶段在185k次迭代后停止训练,共处理了约395M(4+epoch)视频样本。
  • 768像素T2I/V阶段 :观察到验证损失在前10k次迭代中快速下降,然后开始波动,见图15。在19.6k次迭代时将学习率减半,进一步降低了损失。之后继续训练模型,并在验证损失趋于稳定时适时降低学习率。

picture.image

这种多阶段、渐进式的训练策略不仅提高了模型的性能,也优化了训练效率,为大规模视觉语言模型的发展提供了重要参考。

3.3 微调STF

3.3.1 微调数据集创建

Movie Gen Video延续先贤们的工作,通过在精心筛选的小型视频集上对预训练模型进行微调,显著提升了生成视频的运动效果和美学质量。鉴于微调集中的视频和字幕均经过人工整理,这一阶段被称为监督微调。在此过程中,研究团队训练了多个模型,并通过模型平均技术将它们整合成最终模型。尽管模型已能生成高质量图像,但研究发现,针对图像的专门后训练能进一步提升质量。3.7节详细描述了图像特定的后训练方法,而本节重点阐述视频特定的后训练策略。

微调视频数据的筛选过程:研究的目标是构建一个高质量视频微调集,具备优秀的运动效果、真实性和美学价值,同时涵盖广泛的概念并配有高质量字幕。为此,研究团队从大量视频库出发,采用自动和人工筛选相结合的方法。筛选过程分为四个关键阶段,依次进行:

(1) 建立候选视频集:应用自动筛选器,对美学、运动和场景变化设定严格阈值。同时,使用对象检测模型剔除帧中主体过小的视频。这一阶段产生了数百万个视频,但概念分布不均衡。

(2) 均衡视频集中的概念:目标是获得一个规模适中且概念平衡的视频子集,以便后续进行人工筛选。采用3.2.1节定义的人类动词和表达分类体系,结合文本k-NN方法从候选池中检索各概念相关视频。手动挑选了几个视觉上吸引人的种子视频,并执行视频k-NN,最终得到概念平衡的视频子集。k-NN过程所用embedding来自视频-文本联合嵌入模型的嵌入表示。

(3) 手动识别电影级视频:由于许多高质量微调数据的特征难以通过自动筛选器高精度捕捉,此阶段依赖人工筛选。筛选标准包括角度(自然光或工作室)照明、生动(但不过饱和)的色彩、画面整洁、非平凡的运动、无相机抖动,以及无编辑效果或叠加文字。同时,标注人员通过选择视频中最佳、最吸引人的片段,将视频剪辑至所需训练持续时间。

(4) 手动为视频添加字幕:人工标注员通过修正细节错误并确保包含关键视频信息来完善LLaMa3-Video生成的字幕。关键信息包括摄像机控制、人物表情、主体和背景描述、详细的运动描述以及照明信息。此外,标注员还标记了六种额外的相机运动和位置类型(详见附录B.2)。最终的视频微调数据集设定为10.6秒到16秒的持续时间,其中50%的视频长度为16秒,其余50%分布在10.6秒到16秒之间。

3.3.2 监督微调&模型平均

监督微调 。在视频监督微调(SFT)中,使用与预训练阶段相同的模型架构并以预训练检查点作为初始化基础进行模型微调。这种方法确保了模型能够在已有的知识基础上进行针对性的优化。

与使用大规模数据、大批量大小和训练资源的预训练不同,STF阶段使用相对较小的批量大小,配合64个计算节点(总计512个H100 GPU)进行训练。同时,引入了余弦学习率调度器(Loshchilov and Hutter, 2017)来优化学习过程,这种调度策略能够在训练过程中动态调整学习率,有助于模型更好地收敛。

为了适应不同长度的视频内容,研究团队采用了差异化的训练策略:对于16秒长的视频,以16 FPS(帧每秒)的速率进行训练;而对于10.6秒到16秒之间的视频,则提高到24 FPS的训练速率。这种灵活的训练方法确保了模型能够最佳地支持10秒和16秒视频的生成,为不同长度的视频内容提供了优化的处理能力。

模型平均 。实验表明,不同的微调数据集、超参数以及预训练检查点的选择显著影响模型行为的关键方面,包括运动、一致性和相机控制。为了利用这些模型的多样性优势,Meta采用模型平均。类似于LLaMa3,对使用各种版本微调数据、超参数和预训练检查点的SFT实验获得的模型进行平均。

3.4 推理

本节描述了从Movie Gen Video采样时使用的不同超参数和设置。为了与之前的工作比较,采用了7.5的无分类器引导尺度,并使用3.4.2节中描述的线性-二次采样器,步数为50(相当于250个线性步骤)。此外,对输入文本提示进行了推理提示重写,具体如下所述。

3.4.1 推理提示重写

如3.2.1节所述,模型训练使用了高质量的视频/图像-文本对,这些训练标题的特点是细节丰富,段落结构一致。然而,推理阶段的提示在写作风格和长度上存在显著差异。例如,用户通常输入少于10个单词的提示,远短于训练标题的平均长度。为了缩小训练标题和推理提示之间的分布差距,利用LLaMa3(Dubey等,2024)将原始输入提示转化为更详细的描述。推理提示重写模型的关键要点包括:

  • 采用标准化的信息架构来重述提示,确保视觉构图的一致性。
  • 通过用更易理解和直白的术语替换复杂词汇,提高重写提示的清晰度和可理解性。
  • 研究发现,过于详细的动作描述可能导致生成的视频中出现伪影,这凸显了在描述丰富性和视觉保真度之间取得平衡的重要性。

高效的推理重写模型。为提高推理重写模型的计算效率,开发了一种教师-学生蒸馏方法。首先,基于LLaMa3 70B模型构建了一个提示重写教师模型,使用来自基础模型训练集的详细提示指令和上下文学习示例。随后,收集了human-in-the-loop(HITL)微调数据。具体做法是使用LLaMa3 70B提示重写模型作为教师对大型提示池进行推理,并根据质量指南通过人工评估选择高质量重写对。最后,在HITL提示重写对上微调了一个8B LLaMa3模型,得到最终的提示重写模型,从而减少整个系统的延迟负担。

3.4.2 提高推理效率

为高效采样视频,采用了Euler采样器,并使用针对该模型定制的独特t计划。实验表明,Euler的性能优于中点法等高阶求解器或Dopri5等自适应求解器。研究发现,由于额外的时间维度,减少视频生成的推理步骤比图像生成更具挑战性,即生成的动作的质量和提示对齐对推理步骤数量的敏感度比静态图像更高。例如,使用250、500或1000个线性步骤生成的视频在场景构图和动作质量上呈现出明显的差异。虽然可以使用蒸馏等技术来加速模型推理,但这些方法需要额外的训练。接下来,介绍一种简单的仅推理技术,只需几行代码就可以实现高达约20倍的加速。

研究发现,通过实施线性-二次 t计划,仅需50个步骤就能近似N步视频生成过程的质量。前25个时间步骤与原来N步的前25步一样,再用25个quadratic步骤来近似剩余的N-25步。例如,用1000个线性步骤生成的视频可以精确地用25个线性步骤和25个二次步骤来模拟,其中线性步骤与1000步线性计划的前25个线性步骤相同。

线性-二次(linear-quadratic)策略基于这样的观察:推理的前几个步骤对设置视频的场景和动作至关重要。图10直观地展示了这一点,绘制了每个推理步骤中每个transformer块的输入和输出之间的平均变化。在基于扩散的快速视频模型PAB中也观察到类似的行为,其中注意力块的平均每步差异呈U形模式,而图10中呈L形曲线。由于模型块输入/输出之间的最大变化发生在最初的时间步骤中,因此采用N步计划的前几个线性步骤,然后跟随更大的步骤就足以近似完整的N步结果。后面步骤的二次间隔至关重要,因为它强调了流匹配序列早期阶段的重要性。实践中,使用50步线性-二次 计划模拟N=250个线性步骤以获得最佳结果。

picture.image

3.5 评估

本节将探讨如何评估Movie Gen Video及其他模型的文本到视频生成质量。目标是建立清晰有效的评估指标,以识别模型的不足并提供可靠的反馈。3.5.1节阐述了不同的文本到视频评估维度及其设计理念。3.5.2节介绍了新基准Movie Gen Video Bench。整个研究过程中,采用人工评估来衡量各评估维度下生成视频的质量。评估每个维度时,通过成对A/B测试,由专业评估员并排比较两个视频。评估员根据所测量的维度选择优胜者,或在无明显优势时判定平局。3.5.3节讨论了采用人工评估的原因和可靠性,以及现有自动指标的局限性。

3.5.1 评估维度

相比文本到图像任务,评估文本到视频生成面临独特挑战,主要源于时间维度增加的复杂性。高质量视频需要忠实呈现文本提示内容,在帧间保持高视觉质量且无明显缺陷,同时具备视觉吸引力和真实感。为全面评估这些因素,从三个主要维度衡量生成视频的质量:(1)文本对齐,(2)视觉质量,和(3)真实性与美学。每个维度及其细分子维度详述如下,并在表4中概括。

picture.image

文本对齐 。该维度衡量生成视频与提供的提示的契合度。输入提示可包含对主体外观、动作、背景、相机运动、光照和风格、视觉文本等的广泛描述。评估员需密切关注这些具体方面,选择与提示更紧密契合的视频。为提供更精细反馈,还要求评估员从两个正交子维度说明理由:主体匹配(衡量主体外观、背景、光照和风格的契合度)和动作匹配(衡量与动作相关描述的契合度)。

视觉质量 。与文本到图像生成相比,视频生成的感知质量主要来自动作质量 - 这是视频特有的维度。因此,文本到视频视觉质量评估聚焦于衡量模型生成连贯、自然且充分动作的能力。为捕捉这些关键方面,提出以下四个子维度:

  • 帧一致性:评估生成内容的时间连贯性。帧一致性违反可能表现为变形般的伪影、模糊或扭曲的对象,或突然出现或消失的内容。帧一致性是衡量模型理解物体框架和运动关系能力的关键指标,因为不一致或扭曲通常出现在模型未能准确表示物体之间或与环境的交互时。此外,帧一致性反映了模型处理具挑战性任务的能力,如需要快速移动内容的提示(例如体育场景,保持一致外观尤其困难);或推理遮挡(如物体在被遮挡后重新出现)。
  • 动作完整性:衡量输出视频是否包含充分动作。动作完整性不足可能出现在涉及分布外或不寻常主题(如怪物、鬼魂)或真实世界物体执行不寻常活动(如人飞行、熊猫弹钢琴)的提示中。由于这类场景的训练数据有限,模型可能难以生成充分动作,导致静态视频或仅有相机移动的视频。动作完整性评估视频中动作的幅度。在这个维度上胜出意味着更大量的动作,即使包含扭曲、快速运动或看似不自然的动作。
  • 动作自然性:评估模型生成自然真实动作的能力,展示对现实世界物理规律的扎实理解。涵盖自然的肢体运动、面部表情和遵守物理定律等方面。看似不自然或怪异的动作将被扣分。
  • 整体质量:对于给定的一对比较视频,上述三个指标可能无法得出一致的优胜者。为解决这一问题,引入整体质量子维度,要求评估员根据前三个子维度选择"整体"质量更佳的视频。这是一个全面指标,要求评估员运用感知能力并权衡先前信号,以整体把握生成视频的优劣。

真实性和美学 。该维度评估模型生成具有美学吸引力的内容、光照、色彩、风格等真实视频的能力。评估员需从两个子维度进行评估:

  • 真实性:衡量比较视频中哪个更接近真实视频。对于超出训练集分布的奇幻提示(如描绘幻想生物或超现实场景),将真实性定义为模仿遵循真实艺术风格的电影片段。还要求评估员选择其判断背后的原因,即"主体外观更真实"或"动作更真实"。
  • 美学:衡量生成视频中哪个具有更有趣和引人注目的内容、光照、色彩和相机效果。同样,要求评估员详细说明选择理由,从"内容更吸引人/有趣"和"光照/色彩/风格更令人愉悦"中进行选择。

这种多维度的评估框架能全面捕捉文本到视频生成模型的性能,涵盖了文本对齐度、视觉质量、真实性和美学等关键方面。通过细分子维度,可以更精确地定位模型的优势和不足,为未来改进提供明确方向。

3.5.2 评估基准

为全面评估视频生成能力,Meta提出并计划发布一个名为Movie Gen Video Bench的基准测试集。该测试集包含1000个提示,涵盖了多个评估维度,规模是先前研究(Singer等, 2023; Girdhar等, 2024)所用提示集的3倍以上。测试集特别关注以下概念:1)人类活动(肢体和口部动作、情绪表达等),2)动物行为,3)自然景观,4)物理现象(流体动力学、重力、加速度、碰撞、爆炸等),5)非常规主题和活动。为评估不同动作强度下的生成质量,每个提示都标注了高/中/低动作级别。表5展示了部分评估提示示例,图11则显示了各概念在测试集中的分布情况。

picture.image

该基准测试不仅评估模型在整体提示集上的表现,还细分析了各项具体指标。其中,涉及非常规主题和活动的提示有助于测试模型对分布外内容的泛化能力。

picture.image

3.5.3 评估讨论

本节阐述了选择人工评估而非自动指标的原因。

视频生成评估需要人工参与的必要性。选择人工评估的动机源于视频生成评估的复杂性。在文本对齐方面,评估动作随时间的变化与提示的一致性需要理解动作如何相对于提示展开和发展。人类特别擅长识别时间连贯性,并在抽象或复杂的上下文中处理模糊性,而自动方法可能仅捕捉静态的帧级对应关系。在评估视觉质量时,如动作自然度或检测帧间物体外观的不一致性,人类凭借对现实世界物理和物体行为的先天理解而表现出色。同样,评估真实性和美学在很大程度上依赖于人类的感知和偏好。在这三项任务中,现有的自动指标难以提供可靠结果,进一步凸显了人工评估的必要性。

可靠性考量。评估中关于可靠性的一个重要方面是生成模型的概率性质在建模方面引入的随机性,以及人工评估中由于注释差异引入的随机性。为视频生成定义客观标准仍具挑战性,人类评估可能受个人偏见或偏好等因素影响。为减少评估方差并提高人工评估的可靠性,采取了以下四个关键步骤:(1)为评估员提供详细指南和视频示例,明确评估维度的定义,以最小化主观性。受JUICE指标(Girdhar等, 2024)启发,要求评估员说明选择理由,有助于减少注释方差并提高评估员间一致性。(2)在大规模提示集(如Movie Gen Video Bench的1000个提示)上评估模型,涵盖广泛概念。(3)采用多数投票机制,文本对齐和视觉质量问题由三名评估员投票决定,更主观的真实性和美学问题由六名评估员投票决定。(4)对人工注释进行彻底、频繁的审核,解决边缘情况并纠正错误标记。

文本到视频评估的自动指标。先前的文本到视频生成研究多依赖自动指标评估视频质量。然而,与近期研究发现类似,本研究观察到FVD和IS等自动指标与人工评估的视频质量分数相关性较低,因此难以为模型开发或比较提供有效信号。一些先前研究尝试使用判别模型进行生成媒体评估,如利用CLIP评估文本忠实度。这类自动指标的一个关键限制在于其性能受底层判别模型能力的制约。在使用判别模型评估文本到视频生成时,一个主要挑战是缺乏足够有效和表达力的视频-文本判别模型。值得注意的是,还存在其他有趣的生成视频评估自动指标,如基于结构-运动的指标,本研究未对其进行探索。

促进Movie Gen Video的公平比较。为便于未来研究与Movie Gen Video进行公平、便捷的比较,Meta表示会公开发布基于Movie Gen Video Bench提示集生成的非精选视频。这将为后续研究提供一个标准化的比较基准,促进该领域的进一步发展。

3.6 结果

本节详细阐述了Movie Gen Video的实验过程和结果。3.6.1节首先与先前的文本到视频生成工作进行比较。3.6.2节通过消融实验探讨了Movie Gen Video的关键设计决策。3.6.3节呈现了TAE的主要结果和消融分析,3.6.5节则评估了空间上采样器的性能。3.7节将Movie Gen Video与先前的文本到图像生成工作进行对比。

3.6.1 与之前工作的比较

为确保公平比较,本研究尽可能使用Movie Gen Video Bench提示集为先前方法生成未经筛选的视频,并与Movie Gen Video针对相同提示生成的未筛选视频进行对比。这包括通过API访问的商业黑盒模型:Runway Gen3(RunwayML, 2024)、LumaLabs(LumaLabs, 2024)和Kling1.5(KlingAI, 2024)。对于闭源方法(如OpenAI Sora),仅能使用其公开发布的示例进行比较。值得注意的是,闭源方法公开的视频可能经过精心挑选,代表其最佳表现。为保证比较公平性,从Movie Gen Video为每个提示生成的五个选项中系统地手动选择一个视频与OpenAI Sora进行对比。

比较过程中面临的另一挑战是各方法生成的视频分辨率和宽高比不一。为减少评估者偏差(Girdhar等, 2024),本研究对Movie Gen Video的视频进行下采样,使其在这些方面与每次比较相匹配。有关后处理和OpenAI Sora比较的详细信息可参见附录C.2。

基于3.5节描述的评估维度,本研究将Movie Gen Video与先前的文本到视频生成工作进行了全面比较。表6展示了比较结果,报告了Movie Gen Video的净胜率(范围[-100, 100])。在整体质量方面,Movie Gen Video显著优于Runway Gen3(35.02%)和LumaLabs,净胜率超过2σ。相较于OpenAI Sora,Movie Gen Video略胜一筹(8.23%,净胜率在1-2σ之间),与Kling1.5(3.87%)旗鼓相当。

picture.image

在质量细分维度上,Movie Gen Video在与Runway Gen3、LumaLabs和OpenAI Sora的比较中,要么表现更佳,要么不相上下。特别是在运动自然度(19.27%)和帧一致性(33.1%)方面大幅领先Runway Gen3,在帧一致性(8.22%)和运动完整性(8.86%)方面显著优于Sora。这些显著的优势表明Movie Gen Video能够生成符合物理规律的视频,其中的运动既合理又一致,没有失真。与Kling1.5相比,Movie Gen Video在帧一致性方面明显领先(13.5%),但在运动完整性方面略有不足(-10.04%)。值得注意的是,Kling1.5的高运动完整性与低帧一致性并存,表明其可能生成不自然的大幅运动并伴随失真。如3.5.1节所述,运动完整性仅评估视频中运动的幅度,而不考虑失真、快速运动或不自然等因素。

在真实感和美学方面,Movie Gen Video显著优于Runway Gen3、LumaLabs和Kling1.5。在真实感方面,相较于这三者的净胜率分别为48.49%、61.83%和37.09%。与OpenAI Sora相比,Movie Gen Video在真实感方面取得了显著胜利,净胜率为11.62%(超过2σ),在美学方面略微领先,净胜率为6.45%(在1-2σ之间)。这些结果充分证明了Movie Gen Video生成照片级真实和视觉上引人入胜内容的卓越能力。

在文本忠实度方面,Movie Gen Video优于OpenAI Sora、Runway Gen3和LumaLabs, 与Kling1.5旗鼓相当。

图12展示了Movie Gen Video生成的几个视频示例。无论是对自然提示(见图12)还是描述训练集分布之外的奇幻场景的非分布提示(见图1),Movie Gen Video都能生成高质量视频。这些视频包含复杂的运动,在整个视频持续时间内呈现了丰富的细节,例如,一名消防员跑进燃烧的森林然后跑出来,或一只小狗寻找、找到主人并继续其探索(见图12)。

picture.image

图13和图14展示了Movie Gen Video与先前工作的定性比较。如图所示,Movie Gen Video生成的视频真实度高、质量优异,具有自然的运动,并与文本提示高度一致。Movie Gen Video生成的物体和人物身份在整个视频持续时间内保持一致,并遵循物理定律。相比之下,先前的工作可能难以同时实现高质量和良好的文本对齐。

picture.image

picture.image

验证损失与人工评估的相关性。图15展示了Movie Gen Video的验证损失随预训练步骤的变化趋势,呈现平稳下降。研究团队在每几千次迭代后取预训练检查点,并通过成对比较对它们进行评估。结果表明,验证损失与人工评估结果高度相关,验证损失较低的后期检查点在评估中表现更佳。这一发现意味着流匹配验证损失可以在模型开发过程中作为人工评估的有效替代指标。

picture.image

微调的效果。利用3.3节描述的有监督微调方法,研究团队进一步提升了视频生成质量。表7比较了预训练模型和微调模型在24 FPS、10.6秒视频持续时间下的评估指标。结果显示,微调在视觉质量和文本对齐指标上都带来了显著改进,证实了这一策略的有效性。

picture.image

总的来说,这些实验结果充分证明了Movie Gen Video在文本到视频生成任务中的卓越表现。它不仅能生成高质量、真实感强的视频,还能准确地将文本提示转化为视觉内容,在多个关键指标上超越了现有方法。这些成果为未来的研究和应用开辟了新的可能性,同时也为评估和改进文本到视频生成模型提供了宝贵的见解。

3.6.2 消融实验

本节对Movie Gen Video的关键设计决策进行了深入的消融实验。为简化分析,这些实验采用了比主要结果更为简单和小型的基线训练和模型设置。研究团队通过对Movie Gen Video Bench的381个提示子集(称为Movie Gen Video Bench-Mini)进行文本到视频人工评估,定量分析了每个设计决策的效果,并报告了文本忠实度和整体质量的结果(详见3.5节)。为确保公平比较,每个消融实验中,除被测试的设计决策外,模型的其他方面均保持不变。

消融实验的基线模型设置 。采用了Movie Gen Video的5B参数版本,训练生成352×192分辨率、4-8秒的视频。使用了3.1.1节描述的TAE,在每个时空维度上进行8倍压缩,生成形状为16×24×44的潜在表示。这个较小的Movie Gen Video模型在transformer中有32层,嵌入维度为3072,24个头。

消融基线模型训练设置 。训练设置采用两阶段流程:(1)文本到图像预训练;(2)文本到图像和文本到视频联合训练。为简化实验,使用了一个较小的数据集,包含2100万个视频,由LLaMa3-Video 8B生成字幕,这些视频具有恒定的横向宽高比。首先在图像数据集上训练模型,学习率为0.0003,在512个GPU上全局批量大小为9216,训练96K次迭代。随后进行联合文本到图像和文本到视频训练,迭代比例为0.02:1,图像的全局批量大小为4096,视频为256,学习率为5e-5,训练100K次迭代。

消融结果显示:

  • 训练目标:流匹配训练目标在整体质量和文本对齐方面都优于扩散训练目标。人工对比评估见于表8a。
  • 视频字幕的影响:LLaMa3-Video生成的字幕质量显著优于基于图像的字幕方案(LLaMa3-FramesRewrite),提高了整体提示对齐度10.8%(如表8所示),尤其在高动作提示上提升显著(+16.1%)。
  • 模型架构:基于LLaMa3的transformer架构在质量(18.6%)和文本对齐(12.6%)方面都显著优于常用的扩散transformer。两个模型之间的架构差异如表9所示。

picture.image

这些结果为Movie Gen Video的设计决策提供了强有力的支持,同时也为未来的研究方向提供了借鉴。

3.6.3 TAE结果

本节详细介绍了时间自编码器(TAE)关键设计决策的结果和消融实验。评估指标包括从训练集分割出的视频片段(持续时间为2秒、4秒、6秒和8秒,每种持续时间200个样本)的重建峰值信噪比(PSNR)、结构相似性(SSIM)(Wang等, 2004)和Fréchet Inception距离(FID)(Heusel等, 2017)。同时也测量了图像训练集验证分割上的相同指标。对于视频重建评估,指标是在视频帧上平均计算的。

  • 定性结果:图16展示了TAE的样本重建效果,包括原始视频的帧和经TAE编码器和解码器处理后的重建结果。观察表明,TAE能够在保留视觉细节的同时重建视频帧。然而,TAE重建质量在图像和视频帧的高频空间细节以及视频中的快速运动方面有所下降。当视频同时包含高频空间细节和大幅运动时,可能导致细节丢失,其中精细细节在重建中被平滑化。
  • 定量指标:表10比较了TAE与不执行任何时间压缩的基线逐帧自编码器。基线模型生成8通道潜在空间,这是先前工作中用于逐帧编码的自编码器的标准配置。结果显示:
  • 在视频数据上,TAE在实现8倍更高的时间压缩的同时,达到了与逐帧编码器相当的性能。
  • 在图像上,TAE优于逐帧模型,这种改进可归因于潜在空间通道数的增加(8 vs. 16)。这些结果凸显了TAE在视频压缩和重建方面的优势,尤其是在保持高压缩率的同时维持重建质量方面表现出色。TAE的这一特性对于提高视频生成模型的效率和性能具有重要意义。
  • picture.image

3.6.4 TAE消融实验

本节对训练TAE模型的关键设计选择进行了一系列深入的消融实验。消融实验的基线设置采用了具有较小4倍压缩比的TAE模型,生成8通道潜在空间,以简化分析过程。

2.5D vs. 3D注意力和卷积: 研究比较了在TAE中使用2.5D(即2D空间注意力/卷积后跟1D时间注意力/卷积)和3D时空注意力/卷积的效果。表11的结果显示,3D时空注意力略微提高了重建指标。然而,考虑到完全3D模型带来的更大内存和计算成本,这种改进并不足以证明其合理性。因此,研究团队最终选择为TAE使用2.5D结构。

picture.image

异常值惩罚损失(OPL)的效果: 研究对3.1.1节中提出的异常值惩罚损失(OPL)进行了消融实验。结果表明,添加OPL有效消除了生成和重建视频中的伪影(如图5所示),并改善了重建性能。实验首先训练了一个没有OPL的基线模型50K次迭代,然后用OPL对这个模型进行10K次迭代的微调,并与没有OPL微调20K次迭代的基线进行比较。表12总结的结果显示,OPL微调显著改善了图像和视频的重建质量。

picture.image

3.6.5 空间上采样器结果

本节展示了3.1.5节描述的空间上采样器的部分结果。图17提供了上采样过程的视觉比较,展示了上采样前后200像素和400像素裁剪的效果。结果清晰地表明,上采样器能有效地锐化和增强视觉细节,产生更精细和详细的输出。

picture.image

这些实验结果进一步验证了TAE设计中各个组件的有效性。2.5D结构在性能和计算效率之间取得了良好的平衡,而异常值惩罚损失的引入显著提升了重建质量。空间上采样器的成功应用则为生成高分辨率、高质量视频提供了关键支持。这些发现不仅优化了当前的Movie Gen Video模型,也为未来的视频生成技术发展提供了重要参考。

3.7 文本到图像生成

Movie Gen模型在视频和图像上进行联合训练,因此能够生成视频和图像。为进一步验证模型的图像生成能力,继续用图像自编码器训练Movie Gen ,并将其性能与之前的图像生成工作进行比较。以下各节提供了详细的实验设置和评估结果。

3.7.1 方法

对于文本到图像模型,目标是生成真实的图像。以Movie Gen模型作为初始化,并用图像自编码器替换TAE。然后在文本到图像生成任务上训练模型,使其能够根据文本描述生成图像。最终分辨率为1024像素。对于后训练,采用由内部艺术家创作的总计O(1000)幅图像用于质量调优。对模型进行了6k步的sft,学习率为0.00001,batch size为64。使用了constant lr scheduler,warm-up step为2000。

3.7.2 结果

为了测量Movie Gen文本到图像生成结果的质量,使用人工评估基于如下评估维度:(a)文本忠实度,和(b)视觉质量。为了评估文本忠实度,使用成对A/B比较设置,评估者选择哪个图像与给定的生成提示更好地对齐。评估者被要求在A或B选项中选择哪个在文本对齐方面更好,或者相等。对于视觉质量,使用类似的成对A/B比较设置,要求评估者帮助选择看起来更真实的图像。在做出决定之前,评估者被要求寻找生成中的缺陷,如手指或手臂数量错误,或视觉文本拼写错误。为了创建基准提示,分析了典型的文本到图像用户提示,生成了类别和分布,并利用大语言模型生成模仿真实用户提示的用户提示。

本研究将Movie Gen Video与基准时可用的最先进文本到图像模型进行了全面比较,包括Flux.1(Black Forest Labs, 2024)、OpenAI Dall-E 3(OpenAI, 2024)、Midjourney V6.1(Midjourney, 2024)和Ideogram V2(Ideogram, 2024)。然而,由于这些都是黑盒商业解决方案,确保公平比较成为一个挑战。

比较方法:采用与文本到视频评估类似的方法,研究团队为先前的模型获取了基准提示的非筛选生成图像,并将其与Movie Gen为相同提示生成的非筛选图像进行对比。为确保在所有模型和评估维度上进行一致的比较,研究采用了ELO评分系统,根据从原始人工评估结果转换的对战记录建立排名。对于A/B比较评估,两个模型在给定提示上的"胜/平/负"直接被解释为一条对战记录。这种方法允许综合所有评估维度的评分,生成整体表现指标。

比较结果:图18总结了比较结果,显示Movie Gen Video模型在所有最新文本到图像方法中达到了最高的ELO评分。这一结果凸显了Movie Gen Video在文本到图像生成任务中的卓越表现,不仅与专门的图像生成模型相媲美,甚至在某些方面超越了它们。

picture.image

定性示例:图19展示了Movie Gen Video生成结果的一些定性示例。这些示例直观地展示了模型在各种场景和风格下的图像生成能力,进一步证实了其在文本到图像任务中的优秀表现。

picture.image

这些结果不仅验证了Movie Gen Video在视频生成方面的优势,还证明了其在静态图像生成领域的竞争力。这种多功能性突显了该模型的潜力,不仅可以应用于视频生成,还可以在更广泛的多模态内容创作任务中发挥作用。同时,这也为未来研究提供了新的方向,如何进一步优化模型以在不同类型的视觉内容生成任务中保持高性能。

  1. 总结 =======

Movie Gen通过创新的联合图像和视频生成方法,实现了高质量、高效率的视频生成。关键技术包括:

  • 时间自编码器实现时空压缩
  • 流匹配训练目标简化训练过程
  • 基于LLaMa3的骨干网络支持大规模扩展
  • 多种并行技术提高训练效率
  • 精心设计的数据筛选和字幕生成流程

这些技术的结合使Movie Gen在视频生成领域达到了领先水平。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论