南理工提出 FTMoMamba: 基于频率和文本状态空间模型的运动生成 !

大模型向量数据库数据中台

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

扩散模型在人类运动生成方面取得了令人印象的性能。然而,当前的方法通常忽视了在潜在空间(如,低频与静态姿势相关,高频与细粒度运动对齐)中捕获细粒度运动的重要性。此外,文本和运动之间存在语义差异,导致生成的运动与文本描述不匹配。

在本工作中,作者提出了一种名为FTMoMamba的基于扩散的新颖框架,配备了Frequency State Space Model (FreqSSM)和Text State Space Model (TexiSSM)。

具体而言,为了学习细粒度表示,FreqSSM 将序列分解为低频和高频成分,分别指导生成静态姿势(如,坐着、躺下)和细粒度运动(如,过渡、绊倒)。

为了确保文本与运动的一致性,TexiSSM在句子 Level 上编码文本特征,将文本语义与顺序特征对齐。

大量实验表明,FTMoMamba 在文本到运动生成任务上取得了优越性能,特别是在HumanML3D数据集上,实现了最低FID(0.181,而非MLD的0.421)的性能。

1 Introduction

人体动作生成是指根据给定条件生成真实动作的过程[36]。这一任务旨在合成符合物理定律和逻辑运动的动作,例如行走、奔跑、跳跃等。它在动画、虚拟现实/增强现实、游戏开发和人与计算机交互等领域[5,6]中得到广泛应用。在初期阶段,研究行人通过利用自动编码器,生成对抗网络(GANs)[1,2],自回归模型等方法探索生成方法。他们通常面临信息损失、训练困难以及长序列动作生成的错误累积等挑战。最近,受到在图像和视频生成任务中表现出出色性能的扩散模型启发,研究行人[5,28]开始设计各种基于扩散的运动生成方法。

然而,大多数基于扩散的方法[26, 34]无法同时捕捉到运动生成过程在常见语义空间中的静态姿势和细微动作。以图1(a)中的定性结果为例,执行第一个指令"A person walks forward, sits",基于扩散的基准方法(即MLD[5])无法有效捕捉静态姿势(例如,坐)。

对于第二个指令"rise-walk-lay",它难以生成细微动作(例如,过渡)。受到[3]利用高频信息识别动态动作和[18]利用低频信息识别非重要区域的启发,作者在扩散模型的去噪过程中考虑引入频域,分别捕获静态姿势和细微动作。

picture.image

此外,大多数基于扩散的方法[5, 36]由于文本描述和运动序列之间的固有差异,在空间-时间域内很难确保文本-运动语义信息的一致性。如图1(a)所示,对于第三个指令“向前走并跨过一个物体,然后继续走”,基于扩散的 Baseline 方法显然没有理解“物体”,导致省略了“步”运动。在这里,上述方法直接将文本特征和运动特征 ConCat 起来。这种简单的 ConCat 在动作变得更加复杂时引入了文本-运动语义不一致。因此,作者考虑优化文本条件化引导的设计,以准确地将文本和动作对齐到扩散模型的去噪过程中。

在扩散模型的去噪过程中,通过UNet类似的去噪架构准确预测噪声已成为运动生成质量的主流方法[5,16]。目前,UNet类似的去噪架构有几种模块选项,包括卷积、Transformer和Mamba[10]。其中,Mamba在计算效率上优于Transformer[29],同时保持相同的长期建模能力。因此,作者考虑将Mamba作为基础模块,引入频率信息和文本条件指导。

一种简单的方法是将频率信息或文本条件指导视为Mamba模块的残差连接。然而,这种方法可能会引入模型中的干扰信息,从而对性能提升产生负面影响。一些研究者[4,30]指出,Mamba中SSM(结构相似性矩阵)的核心部分,即和矩阵,分别扮演捕捉频域极点和解码隐状态信息的角色。因此,更优雅的方法是将低频和高频信息纳入矩阵,将文本特征纳入矩阵。

为此,作者引入了一种新的FTMamba,它将FreqMamba和TextMamba相结合,分别包括FreqMamba和TextMamba中的新频率状态空间模型(FreqSSM)和新文本状态空间模型(TextSSM)。具体而言,FreqSSM将低频和高频信息集成到矩阵A中,捕获局部和全局运动变化,以指导模型生成静态姿势和细粒度运动。TextSSM则将句子 Level 的矩阵 C_s中的文本特征和运动特征对齐,以确保潜在空间中文本和运动的一致性。

在基于FTMamba的基础上,作者提出了一种新颖的FTMoMamba框架,该框架克服了细粒度运动特征描述和文本-运动不一致性的挑战。如图1(b)所示,FTMoMamba在显著降低FID值到0.18的同时,实现了更好的性能,同时保持了可接受的 Flops 和 Parames。

作者主要的贡献有三个方面。

首先,作者专注于细粒度运动生成。

作者提出了一种新颖的基于扩散的FTMoMamba框架,通过FreqSSM和TextSSM从频域信息和语义信息中探索额外的低频和高频信息,以充分捕捉细粒度运动,并确保潜在空间中的文本-运动一致性。

其次,作者将频域信息引入到SSM中。作者提出了一种频率状态空间模型(FreqSSM),分别获取低频和高频信息,以捕捉静态姿势和细粒度运动。

最后,作者在SSM中探索文本-运动一致性。作者提出了一种文本状态空间模型(TextSSM),提取句子级特征以引导文本进行运动对齐,从而确保文本-运动一致性。

2 Related Works

人类动作生成。生成人类动作是计算机视觉的一个重要应用,广泛应用于3D建模和机器人操作等领域。近年来,生成人类动作的主要方法被称为文本到动作任务,该任务通过学习共享潜在空间来处理语言和动作。在此任务中,基于自动编码器的方法通过压缩高维信息到潜在空间来稳健地表示数据。基于自回归的方法逐步生成动作,根据先前的生成动作预测下一个动作。基于潜在空间扩散模型通过逐渐去噪过程生成高质量动作。尽管上述方法取得了一定的成功,但仍面临挑战,如高计算成本、难以进行细粒度特征描述以及文本运动不一致等问题。作者的工作,基于状态空间模型(SSM),利用频率域信息和文本运动对齐来实现细粒度特征描述和文本运动一致生成。

频域状态空间模型 频域状态空间模型 [15, 20, 32] 通过将图像分解为低频和高频信息,并利用注入和扫描策略增强模型的图像处理能力。尽管这些方法有效,但由于对SSM的深入分析不足,导致通过简单地添加分支并直接扫描模型而引入冗余信息。作者的工作分析了SSM,并发现状态转换矩阵 与频域极点相关,但缺乏感知局部和全局趋势的能力。因此,作者提出了一种频域状态空间模型(FreqSSM),将低频和高频信息集成到矩阵 中,引入局部和全局趋势变化来指导模型生成静态姿势和细粒度运动。

跨模态状态空间模型 跨模态状态空间模型 [7, 21] 通过Mamba的多个分支提取不同模态特征,并使用交叉注意力、 ConCat 或加法进行模态特征融合。尽管这些方法提高了模型性能,但它们忽略了SSM中的矩阵与跨模态信息融合之间的相关性,导致额外的计算开销。作者提出了一种TextSSM,以输出矩阵为中心,实现文本-运动信息融合,且计算成本可以忽略不计,确保文本-运动一致性。

3 Methods

Preliminaries

状态空间模型(SSM)是一种用于描述动态系统的数学框架,其中像序列结构状态空间(S4)和Mamba在处理长序列方面表现出色。这些模型使用一个隐状态 将随时间变化的输入 映射到输出 如下:

具体来说,公式(1)是状态方程,其中 包含历史信息并更新隐状态,而 调节输入的影响。公式(2)是输出方程,其中 将隐状态投影为观测到的输出 。参数 提供从输入到输出的直接路径,可以通过设置 省略。

Mamba是该系统的离散版本,通过使用时间尺度,将和离散化为和,这是通过零阶保持(ZOH)实现的:

picture.image

模型的输出通过卷积计算,其中M是输入序列长度x,是结构卷积核:

picture.image

为了并行计算,模型如Mamba在复杂动力学中推进SSMs。然而,在运动生成任务中,低频分量捕获静态姿势,而高频分量反映细微运动。Mamba中的状态转换矩阵定义了系统动力学,但缺乏控制对于增强运动生成的关键的频率特定细节。

潜在运动扩散模型。扩散概率模型通过去噪高斯分布来近似目标分布 ,通过T步马尔可夫过程 [14, 28]增强运动生成。作者的模型使用一个去噪器 来迭代减少噪声,生成运动序列 。

为了提高效率,作者在潜在空间中进行扩散[36]。给定一个条件 ,如由冻结的CLIP模型 编码的描述性文本 ,作者得到文本 ,并条件化去噪器为 。使用来自MLD[5]的VAE(),作者将运动序列投影到潜在空间 ,然后解码回 。最后,作者通过最小化真实和预测噪声在潜在空间中的均方误差(MSE),训练模型以实现高效且高质量的运动生成。

FTMoMamba Framework

本文介绍的 FTMoMamba 的概述如图2所示。为实现细粒度的运动生成描述和确保文本-运动一致性,作者提出了一种 FTMamba,包括一个频率Mamba(Freq-Mamba)和一个文本Mamba(TextMamba)。 FreqMamba 通过利用低频和高频信息来生成静态姿势和细粒度动作,而 TextMamba 通过将文本特征对齐来确保文本-运动一致性。

picture.image

在运动生成任务中,潜在空间中的扩散模型通过学习潜在特征来提高运动生成的质量,从而减少数据压缩带来的冗余性[5, 16, 36]。然而,由于缺乏频域信息,该模型在捕捉静态姿势(例如,坐,躺)和细粒度运动(例如,过渡,绊倒)方面的能力较弱,导致捕捉细粒度运动存在困难。

频域Mamba(FreqMamba) 针对这个问题,作者提出了一种频域Mamba(FreqMamba)。首先,作者定义了特征 作为从噪声特征 和时间步长 中通过卷积操作[16]提取的频域Mamba(FTMamba)中的特征。其次,通过线性层将 投影到 (如图2所示),然后使用级联深度卷积(CDWConv)[19]提取 的潜在时间特征,并利用频域状态空间模型(FreqSSM)捕获高频和低频信息,引导模型生成细粒度运动。最终特征定义为 。公式如下:

picture.image

σ 是 sigmoid 激活函数。线性(·)表示线性层。CDWConv(·)是级联的深度卷积,它使用核大小为 3 且 dilation factor 为(1,2,4)的递增来扩大卷积感受野并捕获浅层时间特征。FS(·)是 FreqSSM。作者进一步通过基于乘法的方法进行信息选择,以获得由频域信息引导的运动特征 :

picture.image

是哈达马积。

根据[3]中使用高频信息识别动态运动的思想,以及[18]中利用低频信息识别非显著区域的方法,作者提出了一个频率状态空间模型(FreqSSM)。如图3所示,FreqSSM通过低频信息捕获静态姿态,并通过高频信息进行精细引导以实现精细生成。首先,作者使用离散小波变换(DWT)将序列特征分解为低频和高频分量。

经过卷积特征增强后,作者得到和。然后,基于原始状态转换矩阵,作者使用可学习的参数动态调整矩阵中低频和高频信息的比例。这导致了频域状态转换矩阵,该矩阵然后指导状态更新。可以表示为:

picture.image

picture.image

DWT()代表离散小波变换。Conv()表示卷积,使用核大小为3。和是可学习的参数,通过反向传播在训练过程中自动更新,以实现低频和高频信息的动态平衡。

然后,通过 作为核心,作者将它与矩阵 相结合,更新隐藏状态矩阵 ,并通过观察矩阵得到状态空间模型输出。最后, 和 采用残差方式与状态空间模型输出相结合。经过逆离散小波变换(IDWT)反向转换后,它们包含了频率域增强的信息,从而实现细粒度运动生成:

picture.image

逆离散小波变换()是逆离散小波变换。

在文本驱动的人体运动生成任务中,生成的运动直接受文本指令的约束。因此,有效地理解文本的语义信息,并在语义和运动之间实现精确对齐对于生成运动至关重要[5, 36]。然而,上述方法直接将文本特征和运动特征 ConCat 在一起。这种简单的 ConCat 引入了文本-运动语义不一致的问题,因为运动变得更加复杂。

作者提出了TextMamba来优化文本条件指导的设计,以准确地对齐文本和运动。首先,作者将和的残差连接定义为。其次,TextMamba(如图2所示)通过线性层将投影到。然后,它使用CDWConv提取的潜在时间特征,并使用TextSSM对文本和运动特征进行对齐。最终特征定义为如下:

picture.image

此外,作者采用基于乘法的方法进行信息选择,以获取文本-运动对齐特征 ,该特征受句子级文本信息的指导:

picture.image

受到跨注意力信息融合方法的启发,作者设计了一种文本状态空间模型(TextSSM)。如图4所示,TextSSM将句子级特征与状态空间模型的输出矩阵相结合,实现跨模态语义对齐,并确保文本运动一致性。在TextSSM中,作者首先计算运动特征的状态方程,更新隐藏状态。然后,通过CLIP提取的句子级特征与输出矩阵相加,实现文本到运动的对齐,最小化计算成本。公式如下:

picture.image

是句子级输出矩阵。最后,通过观察矩阵获取对齐特征,以确保文本和运动的一致性。公式可以写成:

picture.image

最后,作者提出的FTMamba可以表示为:

其中 表示 FTMamba 的编码特征。

4 Expereiments

Dataset

基于[5, 31, 35, 36],作者在一个人工智能领域广泛使用的动作-语言基准测试数据集HumanML3D[12]上评估作者提出的FTMomba。HumanML3D数据集从AMASS[22]和HumanAct12[11]数据集中收集了14616个动作,每个动作由3个文本脚本描述,总共44970个描述。它还包括各种动作,如锻炼、跳舞和杂技。

Evaluation Metrics

作者在实验中采用了以下标准评估指标:

(1) 弗雷歇构思距离 (Frechet Inception Distance, FID),它通过量化生成动作的高层特征与真实动作之间的分布差异来衡量生成动作的整体质量;

(2) R-精确度 和 多模态距离 (Multimodal Distance, MM-Dist),它们评估输入文本与生成动作之间的语义对齐;

(3) 多样性,它衡量动作的多样性;

(4) 多模态性 (Multimodality, MModality),它评估来自同一输入文本的生成动作的多样性。

Implementation Details

在比较中,编码器和解码器使用了与MLD [5]中相同的配置和权重。扩散学习和推理中,文本嵌入 和潜在 。在去噪UNet架构中,作者设置FTMamba具有2层,在编码器、中间和去噪器阶段具有256个通道。作者使用一个CLIP-ViT-L-14 [24]模型,其权重被冻结,作为文本编码器用于文本条件。在实验中,作者使用双向FreqMamba模型来提取和利用频域信息。

信息融合通过前向和后向求和完成。在消融实验中,与FTMamba中相同数量的模型层、输入和环境配置被使用。所有模型使用固定学习率的AdamW优化器进行训练。在扩散阶段,作者将批量大小设置为64,训练2000个周期。在训练期间,扩散步数为1000,干扰期间为50,而方差从线性缩放到。模型在两个RTX 3090 GPU上进行训练,并在单个RTX 3090 GPU上进行测试。

Quantitative and Qualitative Comparison

定量比较。 如图1所示,作者观察到作者的方法在 R-Precision, FID, MM-Dist, Diversity和MModality方面相较于基准方法(即MLD[5])取得了显著的改进。与最先进的方法MotionGPT[17]相比,其他指标的性能差距可以忽略不计,而FID分数降低了5.1%,这表明了所提方法在运动生成质量方面的优势。基于这些结果,作者可以得出以下结论:

  1. 引入频域信息确实带来了收益,有助于模型更好地捕捉细粒度的人体运动。
  2. R-Precision的改进进一步验证了TextSSM的有效性。

定性比较。 如图5所示,作者比较了作者的方法与MotionDiffuse [35],MDM [28],和MLD [5]的定性结果。从图5中,作者可以观察到MDM [28]能够生成简单的语义运动,但在连续运动之间捕捉细微转换方面存在困难。尽管MLD [5]和MotionDiffuse [35]在运动方面取得了改进,但它们在准确与文本描述对齐方面仍有所欠缺。对于指令“这个人向左摇晃然后向前走。”

MLD [5]无法保持预期的向前移动。对于指令“向前走,跨过一个物体,然后继续走。”MLD [5]和MotionDiffuse [35]都没有生成与跨过物体相关的运动。在动作序列“rise-walk-lay”中,三个方法在转换中都遗漏了至少一个关键动作。

从这些观察中,作者可以得出以下结论:

1)FreqSSM引入的频率信息可以帮助模型实现细粒度控制,如坐、向前运动和旋转。

2)TextSSM确保语义对齐,使模型能够生成并避免障碍物准确无误。

Ablation Studies

FreqMamba和TextMamba的有效性 当FreqMamba为时,使用BiMamba;当TextMamba为时,应用线性关注。从表2可以看出,当单独使用FreqMamba或TextMamba时,与 Baseline 相比,显著改善了FID、多样性和MModality,表明频域信息或句子级文本特征可以有效提高运动生成的质量。实验结果的比较表明,TextMamba在降低FID和提高多样性方面优于FreqMamba。主要原因是文本对齐增强了模型对文本的理解,从而提高了生成质量。当同时使用FreqMamba和TextMamba时,实现了最低FID为0.181,展示了频域引导和文本运动对齐的互补性。

picture.image

不同频率域信息提取方法的效率。从表3中,作者可以观察到DWT在多个指标上都取得了显著的改进。主要原因是快速傅立叶变换(FFT)仅提取了频率域信息,但没有直接区分低频和高频,导致信息混淆。在这种情况下,图5:在人类ML3D测试数据集上的定性比较。

picture.image

频域信息指导静态姿态和细粒度运动生成受到了严重影响。此外,小波变换(DWT)通过分离低频和高频提取,并利用可学习参数动态平衡两者,有效地防止了这一问题。

低频和高频信息的影响 从表4和图6可以看出,同时使用低频和高频信息相较于 Baseline 在R-Precision, MM-Dist和MModality上都有所提升。这说明低频和高频成分都可以提高文本运动一致性和生成运动的多样性。FID的降低表明,单一类型的频域信息导致了信息的失衡。最后,当同时使用低频和高频信息时,相较于 Baseline ,FID降低了2.8%,而没有损害文本运动一致性。这进一步证明了它们的互补性,并通过可学习的参数减少了冗余信息干扰。

picture.image

picture.image

5 Conclusion

在这项工作中,作者提出了一种新颖的 FTMoMamba 方法,用于依据文本指令生成人类动作。它包含两项关键技术:FreqSSM 负责细粒度的动作生成,而 TextSSM 确保文本与动作的一致性。

此外,FTMoMamba 高效且灵活,能够精准地生成高质量的动作。

大量的定性与定量实验表明,FTMoMamba 的表现优于当前最优(SOTA)方法。尽管作者的方法实现了最低的弗雷歇 inception 距离(FID,即直接验证了动作生成的质量),但由于缺乏足部接触损失、姿态损失以及其他与物理相关的损失,导致在其他评估指标方面优势不太显著。

未来,作者将考虑结合这些带有物理先验的损失,以确保其他性能指标能得到进一步提升。

参考文献

[0]. FTMoMamba: Motion Generation with Frequency and Text State Space Models.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论