点击下方卡片,关注 「AI视界引擎」 公众号
在本文中,作者介绍了Matten,一种具有Mamba-Attention架构的尖端潜在扩散模型,用于视频生成。在极小的计算成本下,Matten利用空间-时间注意力对局部视频内容进行建模,并使用双向Mamba对全局视频内容进行建模。
作者的全面实验评估表明,Matten在基准性能上与当前的基于Transformer和GAN的模型具有竞争力,实现了更优的FVD得分和效率。
此外,作者观察到作者设计的模型复杂度与视频质量的提升之间存在直接的正相关关系,这表明Matten具有出色的可扩展性。
unset
unset1 Introductionunset
unset
近期在扩散模型方面的进展已经在视频生成方面显示出令人印象深刻的能力。已经观察到,在架构设计上的突破对于这些模型的有效应用至关重要。当代研究主要集中在基于CNN的U-Net架构和基于Transformer的框架上,这两种方法都采用注意力机制来处理视频内容中的时空动态。如图1(a)所示,空间注意力在基于U-Net和基于Transformer的视频生成扩散模型中被广泛使用,它涉及在单帧内的图像标记之间计算自注意力。现有技术通常在时间层内应用局部注意力,如图1(b)所示,其中注意力计算被限制在不同帧中相同位置上。这种方法未能解决捕捉连续帧中不同空间位置间相互关系的关键方面。如图1(c)所示,对于时空分析的一种更有效方法是将不同空间和时间位置的交互进行映射。然而,由于计算注意力的二次复杂度,这种全局注意力方法是计算密集型的,因此需要大量的计算资源。
在各种领域中,状态空间模型(SSMs)的兴趣日益增长,这主要归功于它们处理长序列数据的能力。
在自然语言处理(NLP)领域,像Mamba模型这样的创新通过在SSM结构中引入动态参数,并构建针对硬件兼容性更好的算法,显著提高了数据推理过程的效率和模型的总体性能。
Mamba框架的实用性已成功扩展到其最初应用之外,证明了其在视觉和多模态应用等领域的有效性。
鉴于处理视频数据的复杂性,作者 Proposal 使用Mamba架构来探索视频内容中的时空交互,如图1(d)所示。然而,值得注意的是,与自注意力层不同,Mamba扫描(本质上不计算标记间的依赖关系)在有效检测局部数据模式方面存在困难,这是[15]指出的局限性。
鉴于Mamba和注意力的优点,作者提出了一种名为Matten 的视频生成潜在扩散模型,该模型采用Mamba-Attention架构。具体来说,作者研究了Mamba和注意力机制各种组合对视频生成的影响。作者的研究结果表明,最有效的方法是使用Mamba模块捕捉全局时间关系(图1(d)),同时使用注意力模块捕捉空间和局部时间关系(图1(a)和图1(b))。
作者进行了实验评估,以检查Matten在无条件和有条件视频生成任务中的性能和效果。在所有测试基准中,Matten始终显示出与SOTAs相当的视频生成质量(FVD评分[16])和效率。此外,作者的结果表明Matten是可扩展的,这通过模型复杂性与生成样本质量之间的直接正比关系得到了证明。
总之,作者的贡献如下:
- 作者提出了Matten,这是一种集成了Mamba块和注意力操作的新型视频潜在扩散模型,它能够高效且优越地进行视频生成。
- 作者设计了四种模型变体,以探索在视频生成中Mamba和注意力的最佳组合。基于这些变体,作者发现采用注意力机制捕捉局部时空细节,并利用Mamba模块捕捉全局信息的途径是最有利的。
- 综合评估显示,作者的Matten在计算和参数要求较低的情况下与其他模型取得了相当的性能,并显示出强大的可扩展性。
unset
unset2 Related Workunset
unset
Video Generation
视频生成的主要任务在于产生具有高质量视觉和流畅动作的真实视频片段。此前的视频生成工作可以归纳为三种类型。最初,许多研究者专注于将强大的基于GAN的图像生成技术适配于视频创作。然而,基于GAN的方法可能导致模式崩溃,减少多样性和真实性。
图1:使用Mamba和注意力进行时空建模的不同方式。、和分别代表高度、宽度和帧数。红色标记是一个示例 Query ,蓝色标记意味着与 Query 具有信息交互的标记。蓝色的深浅表示信息交互的强度,颜色越深表示交互越直接。Mamba扫描交互具有线性复杂度,基于标记之间的距离相关;而注意力交互在这些建立标记之间是等价的,具有二次复杂度。为了简化,作者只展示了单向Mamba扫描。
此外,某些模型建议通过自回归模型学习数据分布。这些方法通常能产生高质量的视频,并显示出更可靠的收敛性,但受到其巨大的计算需求的限制。最后,视频生成领域的最新进展集中在开发利用扩散模型的系统,这些模型已显示出巨大的潜力。这些方法主要使用基于CNN的U-Net或Transformer作为模型架构。与这些工作不同,作者的方法专注于在视频扩散中探索结合Mamba和注意力的未被充分研究的领域。### Mamba
Mamba,一种新的状态空间模型,因其通用逼近能力和对长序列的高效建模,最近在深度学习中受到了关注,应用领域包括医学成像、图像恢复、图形、自然语言处理和图像生成。借鉴控制系统,并利用HiPPO初始化[41],这些模型(如LSSL[11])解决了长距离依赖问题,但受到计算需求的限制。为了克服这一点,S4和其他结构化状态空间模型引入了各种配置和机制[10],这些已被整合到更大的表示模型中,用于语言和语音任务。Mamba及其迭代版本,如VisionMamba,S4ND[48],和Mamba-ND[49],展示了从双向SSM到局部卷积和多维考虑的计算策略。对于3D成像,T-Mamba[50]利用Mamba处理长距离依赖的强大能力,解决了正畸诊断中的挑战。在视频理解领域,VideoMamba和Video Mamba Suite[52]将Mamba适配到视频领域,并解决了视频数据中普遍存在的局部冗余和全局依赖的挑战。在利用mamba进行扩散应用领域,Zigzag Mamba[53]提高了生成视觉内容的可扩展性和效率。它采用创新的扫描方法解决了空间连续性的关键问题,融合了文本条件特征,并在高分辨率图像和视频数据集上显示了性能的增强。[54]与作者的工作密切相关,在视频扩散的时间层中使用mamba块。与之前主要关注局部时间建模的研究不同,作者的方法Matten独特地设计为涵盖全局时间维度。
unset
unset3 Methodologyunset
unset
作者的讨论从第3.1节对潜在空间扩散模型和状态空间模型的简要概述开始。接着在第3.2节深入描述了Matten模型变体。然后在第3.3节探讨了与时间步或类别相关的条件方法。最后,在第3.4节中,作者呈现了对Mamba与注意力机制进行比较的理论分析。
Background
潜在空间扩散模型 [55]。对于输入数据样本 ,潜在扩散模型(LDMs)首先使用预训练的VAE或VQ-VAE编码器 将数据样本转换为潜在表示 。这种转换之后是一个学习阶段,通过扩散和去噪步骤对数据分布进行建模。
在扩散阶段,逐渐向潜在编码中添加噪声,产生一系列逐渐被扰动的潜在状态 ,其中附加噪声的强度由时间步长 表示。一个特殊的模型,如U-Net ,被用作噪声估计网络,在去噪阶段估计影响潜在表示 的噪声扰动,旨在最小化潜在扩散目标。
此外,扩散模型 通过学习逆向过程协方差 进行增强,使用 进行优化,如[6]所述。
在作者的研究中, 是使用基于Mamba的框架设计的。同时使用 和 来提高模型的有效性和效率。
状态空间 Backbone 网络 。状态空间模型(SSMs)已经通过理论和实证研究被严格验证能够很好地处理长距离依赖,显示出与数据序列长度成线性扩展的能力。传统上,线性状态空间模型表示为以下类型:
该模型描述了一个一维输入序列 转换为一个一维输出序列 的过程,通过一个N维潜在状态序列 进行调节。状态空间模型特别设计用于在神经序列建模架构中集成这些基本方程的多个层次,允许每一层的参数 和 通过深度学习损失函数进行优化。 表示状态大小,,,,以及 。
将状态空间模型应用于现实世界的深度学习任务时,如方程式2中详细描述的,离散化过程至关重要,它将连续系统参数如 和 转换为它们的离散等效参数 和 。这一关键步骤通常采用零阶保持(ZOH)方法,这一技术在学术研究中因其有效性而广为人知。ZOH方法使用时间尺度参数 来弥合连续和离散参数之间的差距,从而促进理论模型在计算设置中的应用。
使用这些离散化参数,方程式2中概述的模型然后适应使用时间步长 的离散框架:
这种方法允许将状态空间模型无缝集成到数字平台中。最初为1D序列处理设计的传统Mamba块(如图2所示)并不非常适合需要空间认知的视觉任务。为了解决这一限制,Vision Mamba[13]开发了一种专门针对视觉相关应用的双向Mamba块。这个创新的块通过同时使用前向和后向SSM来处理展平的视觉序列,显著提高了其处理空间感知的能力。
Mamba采用了一种工作高效的并行扫描,有效地减少了通常与递归计算相关的顺序依赖性。这种优化,结合GPU操作的战略性利用,消除了明确管理扩展状态矩阵的必要性。在作者的研究中,作者探讨了将Mamba架构集成到视频生成框架中,利用其效率和可扩展性。
The Model Variants of Matten
考虑视频片段潜在空间的表示,由 表示,其中 指示帧数, 是帧的高度, 是帧的宽度, 是视频潜在配置中每帧的通道数。作者将 转换为一系列 Token ,通过分段和 Reshape 它,表示为 。在这里, 表示 Token 的总数,每个 Token 具有维度 。
采用类似于Latte的策略,作者分配 ,, 以有效地构造数据。此外,一个时空位置嵌入,记为 ,被合并到 Token 序列 中。因此,Matten模型的输入变为 ,这有助于复杂的模型交互。如图3所示,作者引入了Matten模型的四个不同变体,以增强其在视频处理中的适应性和有效性。
图2:原始的1D序列Mamba块和2D双向Mamba块。为了简化,省略了归一化和残差部分。
全局序列Mamba块。 如图3(a)所示,这个变体指的是在这个时空输入的全序列中执行3D Mamba扫描。继VideoMamba [51]之后,作者采用 空间优先扫描 用于作者的全局序列Mamba块。这种简单的操作已经被证明是高度有效的。它涉及根据空间标记的位置将它们排列,并逐帧地堆叠它们。作者将 Reshape 为 作为全局序列Mamba块的输入以捕捉空间优先信息。使用了双向Mamba层。空间和时间Mamba块交错。 这种特定变体利用Mamba模块替代基于Transformer的视频生成扩散模型中的传统注意力模块,如[2; 56; 57]的研究所指出的。如图3(b)所示,这个变体的主体称为Matten,配备了两种类型的双向Mamba块:空间双向Mamba块和时序双向Mamba块。空间块旨在捕捉在相同时间索引下标记之间的空间细节,而时序块则负责在相同空间坐标下捕捉不同时间的信息。为了有效地处理空间信息,作者将 重构为 ,这然后作为空间Mamba块的输入。
然后,作者将 Reshape 为 ,以供时序Mamba块处理时序信息。
全局序列玛巴块与时空注意力交错。尽管玛巴在长距离建模中展示了高效的性能,但与Transformer中的注意力操作相比,它在较短期序列建模中的优势并不明显[10]。因此,作者开发了一个混合块,如图3(c)所示,它利用了注意机制和玛巴的优势,对长短距离建模进行了整合。每个块由空间注意力计算、时间注意力计算和全局序列玛巴扫描 ConCat 组成。这种设计使作者的模型能够有效地捕捉视频潜在空间中的全局和局部信息。
全局序列玛巴块与时间注意力交错。
全局序列玛巴块中的扫描在空间域上是连续的,但在时间域上是断续的。因此,这个变体移除了空间注意力组件,同时保留了时间注意力块。因此,通过关注图3(d)所示的空间优先扫描增强时间注意力,作者努力提高模型在处理视频数据的动态方面的效率和精确性,从而确保在多样化的视频处理任务中具有鲁棒的性能。
Conditional Way of Timestep or Class
图3:作者引入了四种模型变体,旨在有效地利用视频中的时空动态。为了清晰起见,图中所示的嵌入表示潜在视频的 Patch 和 Reshape 结果。
借鉴Latte和DiS提出的框架,作者在两种不同的方法上进行了实验,将时间步或类别信息嵌入到作者的模型中。第一种方法受到DiS的启发,将视为标记,作者将这种策略称为_条件标记_。第二种方法采用了类似于自适应标准化(AdaN)[58; 7]的技术,专门为整合到Mamba块中而设计。这涉及到使用MLP层从计算参数和,形成操作,其中表示Mamba块中的特征图。此外,这种自适应标准化是在Mamba块的残差连接之前实现的,通过转换来实现,其中表示块内的双向Mamba扫描。作者将这种先进技术称为Mamba自适应标准化(_M-AdaN_),它无缝地融入类别或时间步信息,以增强模型的响应性和上下文相关性。
Analysis of Mamba and Attention
总之,作者提出的块的超参数包括隐藏大小、扩展状态维度和SSM维度。Matten的所有设置在表2中详细列出,涵盖了不同的参数数量和计算成本,以彻底评估可扩展性性能。特别是,在生成16256256无条件视频时,采用了 Patch 大小,分析了Gflop指标。与[10]一致,作者将所有模型的SSM维度标准化为16。
Matten中的SSM块和Transformer架构中的自注意力机制对于有效的上下文建模都是不可或缺的。作者还提供了关于计算效率的详细理论分析。对于给定的序列(标准设置),自注意力(SA)、前馈网络(FFN)和SSM操作的计算复杂度分别计算如下:
(6)
涉及与、和的计算,而表示与的计算。这表明自注意力的计算需求与序列长度成二次方增长,而SSM操作则呈线性增长。值得注意的是,当通常固定为16时,这种线性可扩展性使得Mamba架构特别适合处理像视频数据中全局关系建模这样的广泛序列。当比较和这两个项时,很明显,Mamba块在计算效率上优于自注意力,特别是当序列长度显著超过时。对于关注空间和局部时间关系的较短期序列,当计算开销可以管理时,注意力机制提供了计算效率更高的选择,这一点得到了实证结果的支持。
unset
unset4 Experimentsunset
unset
表1:展示了在不同数据集上各种视频生成模型的FVD指标。为了参考,包含了如Latte、StyleGAN-V或各自原始出版物中报告的比较 Baseline 模型的FVD得分。"预训练"指的是那些基于图像生成技术采用预训练方法的模型。
这部分首先描述了实验设置,包括作者使用的数据集细节、评估指标、比较方法、Matten模型的配置以及具体实现方面。在此基础上,进行了消融研究,以确定最佳实践并评估模型大小的影响。最后,本节通过对4个常见数据集上与先进视频生成方法的比较分析来结束。
Experimental Detail
数据集概述. 作者在四个著名且常用的数据集上进行了广泛的实验:FaceForensics [59],SkyTimelapse [60],UCF101 [61] 和 Taichi-HD [62]。遵循Latte中建立的协议,作者使用了预定义的训练和测试划分。从这些数据集中,作者提取了由16帧组成的视频片段,应用了3的采样间隔,并将每帧调整为256x256的统一分辨率以进行作者的实验。
评估指标. 为了进行健壮的定量分析,作者采用了与人类感知评估相关的Frechet视频距离(FVD)[16]。遵循StyleGAN-V的方法论,作者通过检查包含16帧的2,048个视频片段来确定FVD分数。
** Baseline 比较.** 作者的研究包括与先进方法的比较,以定量评估作者方法的性能,包括MoCoGAN [63],VideoGPT [25],MoCoGAN-HD [64],DIGAN [65],StyleGAN-V [66],PVDM [1],MoStGAN-V [67],LVDM [68] 和 Latte [2]。除非另有明确说明,否则所有呈现的值均来自最新的相关研究:Latte,StyleGAN-V,PVDM或原始论文。
Matten模型配置. 作者的Matten模型使用一系列个Mamba块构建,每个块的隐藏维度为。受到Vision Transformer(ViT)方法的启发,作者详细描述了四种不同配置,这些配置在参数数量上有所不同,详见表3。
图4:来自不同方法和SkyTimelapse真实数据的样本视频。
实施细节. 所有消融实验采用AdamW优化器,学习率固定为。应用的唯一增强技术是水平翻转。与生成建模中普遍的策略[7, 8]一致,作者在训练过程中的前50k步和接下来的100k步使用了模型权重的指数移动平均(EMA),衰减率为0.99。报告的结果直接使用EMA增强模型得出。此外,架构得益于集成了预训练的变分自编码器,源自Stable Diffusion v1-4。
消融研究
在本部分中,作者详细介绍了使用SkyTimelapse数据集进行的实验研究,以评估第3.3节和3.2节中介绍的各种设计修改、模型变化和模型大小对性能的影响。
时间步类别信息注入 如图7(b)所示,_M-AdaN_方法明显优于_条件 Token _。作者认为这种差异源于时间步或类别信息整合的方法。_条件 Token _直接引入到模型的输入中,可能在Mamba扫描中造成空间上的不连贯。相比之下,_M-AdaN_更协调地嵌入时间和类别数据,确保了所有视频 Token 的统一传播,并增强了模型内的整体同步。
图5:使用UCF101数据集上的不同方法生成的样本视频,突出了结果视觉上的吸引力。
图6:使用FaceForensics数据集上的不同方法生成的样本视频,突出了结果视觉上的吸引力。
探索模型变体 作者对Matten的模型变体的分析,如第3.2节所述,旨在保持参数数量的一致性,以确保公平的比较。每个变体都是从头开始开发的。如图7(a)所示,变体3在迭代增加时表现出更优越的性能,表明其鲁棒性。相比之下,主要关注局部或全局信息的变体1和2在性能上落后,强调了模型设计中需要平衡的方法。
模型大小的评估 作者在SkyTimelapse数据集上对Matten模型的四种不同大小进行了实验——XL,L,B和S,如表3所列。它们随着训练迭代的Frechet视频距离(FVD)的进展在图9中捕获。有一个明显的趋势表明,较大的模型往往能提供更好的性能,这与其他在图像和视频生成研究[7]中的发现相呼应,这些研究强调了扩大模型尺寸的好处。
Comparison Experiment
根据第4.2节提出的消融研究的结果,作者确定了关于如何设计作者的Matten的设置,特别是突出了配备_M-AdaN_的模型变体3的有效性。利用这些已建立的最佳实践,作者继续与现有最先进的技术进行对比。
图8:通过消融研究探索设计选择。作者进行了各种消融研究,以确定基于Mamba的视频扩散模型的最优策略,重点是提高在SkyTimelapse数据集上的FVD指标。为了更清楚地展示,请放大显示的结果。
图7:使用不同方法在Taichi-HD数据集上生成的样本视频,突出了结果的视觉吸引力。
结果的定性评估 图4至7展示了在不同数据集(如UCF101、Taichi-HD、FaceForensics和SkyTimelapse)上使用各种方法进行视频合成的结果。在这些不同的背景下,作者的方法一致地以256x256像素的高分辨率生成逼真的视频。值得注意的成就包括准确捕捉面部动作以及有效处理运动员的动态移动。作者的模型特别擅长在UCF101数据集上生成高质量视频,这是许多其他模型经常失败的一个领域。这种能力凸显了作者的方法在应对复杂的视频合成挑战时的鲁棒性。
定量结果。 表1展示了每种比较方法的定量结果。总体而言,作者的方法超越了先前的工作,并且与具有图像预训练权重的方法的表现相匹配,证明了作者方法在视频生成方面的优越性。此外,与最新的基于Transformer的模型Latte相比,作者的模型大致减少了25%的浮点运算。鉴于已发布的基于U-Net(稳定扩散,SDXL)或基于Transformer(DiT,PixArt)的图像生成模型众多,这些基于U-Net或Transformer的视频生成模型可以利用这些预训练模型进行训练。然而,目前还没有发布基于Mamba的图像生成模型,因此作者的模型必须从头开始训练。作者相信,一旦基于Mamba的图像生成模型可用,它们将对训练作者的Matten大有帮助。
unset
unset5 Conclusionunset
unset
本文提出了一种简单的视频生成扩散方法Matten,以Mamba-Attention结构作为生成视频的主干网络。为了探索Mamba在生成视频方面的质量,作者研究了模型的不同配置,包括四种模型变体、时间步长和类别信息注入以及模型大小。广泛的实验表明,Matten在四个标准视频生成基准测试中表现出色,并展现出令人印象深刻的可扩展性。
unset
unset参考unset
unset
[1].Matten: Video Generation with Mamba-Attention.
点击上方卡片,关注 「AI视界引擎」 公众号