What？无所不能的Mamba用控制文本方法解决了Transformer的计算复杂度问题！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

人类动作理解是一项具有多种实际应用的基本任务，这一任务得益于大规模动作捕捉数据集的可用性。

最近的研究关注于文本动作任务，例如基于文本的动作生成、编辑和问答。

在本次研究中，作者引入了基于文本的人类动作定位（THMG）这一新任务，旨在精确地在未修剪的动作序列中定位与给定文本描述相对应的时间段。捕捉全局时间信息对于THMG任务至关重要。

然而，基于Transformer的模型依赖于全局时间自注意力，在处理长的未修剪序列时，面临着因二次计算成本带来的挑战。作者通过提出文本控制的TM-Mamba模型来解决这些挑战，这是一个统一模型，它融合了时间全局上下文、语言 Query 控制和平面图拓扑，且只具有线性内存成本。模型的核心是一个文本控制的选择机制，它根据文本 Query 动态地融合全局时间信息。

通过融入关系嵌入，模型进一步被加强，以实现对拓扑的感知。为了评估，作者介绍了BABEL-Grounding，这是首个提供详细的人类动作文本描述及其相应时间段对应的文本动作数据集。

广泛的评估展示了TM-Mamba在BABEL-Grounding上的有效性。

INTRODUCTION

在这项工作中，作者旨在通过一个统一的模型来攻击所有上述挑战，该模型无缝结合了时间全局上下文、语言 Query 控制以及空间图拓扑。作者主要的灵感来源是最近提出的称为Mamba的状态空间模型，这是一种处理长序列中长依赖关系的有效模型，同时保持线性计算成本。Mamba在语言建模和视觉理解等不同领域展示了其强大的能力。然而，在人类运动任务中，其潜在应用仍有待进一步探索。

Mamba的核心是一种输入依赖的选择机制，使模型能够根据当前输入选择性地在时间上传播或遗忘信息。这种创新设计极大地增强了传统的状态空间模型（SSM）方法，因为Mamba能够在筛选出不相关信息的同时把握到长序列的全局上下文。然而，在THMG任务中，模型还必须根据文本 Query 选择信息。为了应对这一挑战，引入了一种文本控制的选择机制，其关键思想是将状态转移矩阵的条件同时置于运动和文本 Query 上。与现有仅将文本和视觉特征简单拼接并输入到Mamba块中的多模态Mamba方法不同，作者的方法首次实现了让文本控制输入信息的选择性传播。这确保了模型能够根据运动和文本输入之间的交互动态调整其关注点。此外，由于人类运动序列本质上具有图形拓扑结构，原始的Mamba模型并不适用，因为它被设计用于处理单变量时间序列。为了解决这个问题，作者通过将图神经网络整合到Mamba的状态表示中来增强Mamba，使其具备拓扑感知能力。由此产生的框架，称为文本控制运动Mamba（TM-Mamba），可以在运动序列中根据文本 Query 有选择地提取相关的全局上下文信息。

对于评估，现有的数据集带有帧 Level 的时序标注，并不能直接适用于THMG任务。虽然BABEL为序列中发生的所有动作提供了时序边界，但它缺乏完整的详细文本描述，只提供了简单的分类短句。Motion-X为每一帧提供了详细的姿态描述，但其文本关注于每个时间步人体部位的运动，这使得它无法从语义动作描述映射到时序段。为了填补这一空白，基于BABEL，引入了一个新的数据集，名为BABEL-Grounding，作为评估THMG任务的基准。BABEL-Grounding是第一个文本-运动数据集，它提供了未修剪运动序列中人类动作的详细文本描述及其对应的时序段。如同现实世界场景，每个 Query 可能对应多个时序段。在新的引入的数据集上对TM-Mamba进行了广泛评估，证明了它在THMG任务中的有效性。作者的主要贡献可以总结如下：

作者引入了一个新的文本动作任务，即基于文本的人类动作定位（THMG），以及一个专为THMG设计的文本动作数据集，名为BABEL-Grounding，这是同类中的首个。

作者提出了TM-Mamba，一个专为THMG任务设计的统一模型，其内存成本仅为线性，这是首次将文本控制的选取机制融入到Mamba框架中的工作。

在BABEL-Grounding数据集上的广泛评估展示了所提出的TM-Mamba方法的有效性。

Related Work

Datasets for Text-Motion Learning

本节概述了现有带文本标注的人体动作数据集。这些文本-动作数据集主要为了文本驱动的动作生成任务而开发，因此它们通常包括每个动作序列在序列 Level 的文本描述。例如，KIT动作语言数据集首次提供了人体动作及其相应的序列级文本描述。沿着这个方向，后续的几项工作努力构建了类似的大规模数据集，如HumanML3D，InterHuman，HumanLong3D，FLAG3D，STDM。一些数据集不仅限于文本标注，还融合了额外的上下文信息。例如，HUMANISE集成了3D场景信息以促进在3D环境中的动作生成，而HOI-Diff则融入了物体几何信息以支持生成过程中的人与物体互动。此外，还有针对生成以外多样化文本-动作任务而量身定制的数据集。例如，PoseScript专注于静态姿势生成和姿势标注，而PoseFix则针对动作编辑任务。

然而，所有上述数据集仅包含序列级标注，使它们不适用于时间任务。为了解决这一限制，已经做出了各种努力来开发具有特定时间信息的运动数据集。例如，BABEL引入了一个带有逐帧标注的运动数据集，为每个动作标签提供时间跨度，从而能够执行如动作定位等任务。基于BABEL，BABEL-QA通过融入问答对扩展了数据集，旨在促进基于运动的问答。另一个例子是HuMMan-MoGen，它建立在HuMMan数据集之上，其中每个序列被划分为预定义的动作阶段，并配有描述每个身体部位运动的阶段级详细标注。最近，Motion-X为每帧的人体姿态提供部分 Level 的文本标注。然而，Motion-X的标注基于单个姿态，并且缺少从语义动作的文本描述到时间边界的映射。

Text-Motion Multi-modal Learning

近期，对文本运动多模态学习的兴趣日益增长。当前研究主要集中于文本到运动的任务（也称为文本驱动的运动生成），在这一任务中，基于自然语言生成人体运动序列。

规则已被采用来增强数据集，下面将详细阐述这一点。

Textual augmentation

BABEL中的文本标注质量在很大程度上受到仅由简单单词或短语组成的项目限制，例如'place'、'turn' 和 'step'。这些含糊不清且无意义的项目在数据中占据了相当大的比例，并未能提供涉及动作中人体运动的详细描述。为了解决这个问题，已经采用了两种方法：

利用外部标注

BABEL是基于AMASS运动捕捉数据库构建的，而HumanML3D为AMASS数据库在序列 Level 提供了详细的文本标注。对于BABEL数据集中每个标注过于简化的条目，通过序列ID找到其在HumanML3D中对应的条目。当序列 Level 的HumanML3D标注包含BABEL标注中的短语时，人工标注员将手动验证它们之间的对应关系，并使用HumanML3D中的详细文本描述来补充BABEL标注。

基于模板的增强方法：由于HumanML3D的序列级标注只部分覆盖了BABEL中的项目，许多低质量的标注仍未得到解决，特别是那些只有一个单词标签的标注。为了填补这一空白，作者手动制作了模板来增强这些标注。例如，“拿”被扩展为“用手拿某物”，“搅拌”变为“用手在圆形轨迹中搅拌某物”，而“放置”则变为“将物体放置在特定位置”。这种替换过程丰富了过于简单的标注，使它们对模型来说更加易于理解。最终的文本标注通过ChatGPT（gpt-3.5-turbo）进一步细化，以使标注内容更加充实、完整和多样化。

Temporal Augmentation

时间窗口合并

在原始的BABEL数据集中，多个标注项目的时间段可能会相互重叠。为了进一步提高文本标注的质量，作者设计了一个时间窗口合并规则，该规则将具有显著重叠的标注段落进行合并。具体来说，如果两个段落的重叠部分超过了某一比例（经验性地设置为0.8），则它们的文本标注将被合并，以描述重叠部分中的人体动作。这导致了更加详细的文本，全面描绘了人体动作。

BABEL 数据集为序列中发生的每个动作提供标注。然而，在 THMG 任务中，一个 Query 可能对应于序列中的多个时间片段。为了实现这一特性，通过合并具有相同文本标注的项目，建立了一个从文本到片段的一对多映射。

Method

Preliminaries on Mamba

在本节中，作者简要回顾了状态空间模型（State Space Models, SSM）和Mamba（Mamba, 2017）。SSM是一系列顺序模型，它通过隐藏状态将输入序列映射到输出序列，这可以描述为一个线性常微分方程：

在这里，是演变和投影参数。这个连续的ODE可以通过使用时间尺度参数并遵循零阶保持（ZOf）规则进行离散化：

上述公式的离散化形式可以使用线性递推方法进行计算：

然而，线性递推需要在时间上展开，并且不能被并行化。S4（Shen等人，2017）通过假设保持静态来确保线性时间不变性（LTI），这使得可以通过全局卷积来实现，即，其中。

这里，表示输入序列的长度，而代表一个结构化的卷积核。另一方面，Mamba（Mamba, 2017）通过使成为的函数，引入了一种输入依赖的选择机制。这种公式可以通过所提出的并行扫描算法高效地计算。

Text-Controlled Selection Mechanism

Mamba强调了在选择性地构建序列模型中的关键作用。在处理非常长的序列时，记住压缩状态向量内的所有信息变得不切实际。因此，设计一个控制信息沿序列维度传播或交互的选择机制是至关重要的。Mamba通过采用一种对状态转换矩阵的上下文感知参数化方法来应对这一挑战。这使得模型能够根据当前的输入数据聚焦或过滤信息。

然而，在THMG任务的背景下，模型需要根据文本 Query 动态地从序列中选择相关的全局信息，以实现更好的接地性能。现有的多模态Mamba方法使用简单的拼接方法将文本和视觉特征合并作为Mamba的输入，但控制信息流的关键选择机制保持不变。

为了克服这一限制，作者提出了一种文本控制的选择机制，该机制允许选择过程依赖于运动输入和文本 Query 两者。如算法1和2所示，Mamba将参数化为输入的函数，而在文本控制选择中，这些参数成为了输入序列以及文本 Query 的函数。

picture.image

该算法本质上类似于基于文本的门控机制，动态地根据文本 Query 控制信息的流动。(Wang等人，2019年的)定理1暗示，在特定条件下，算法2与门控RNN具有相似性：

picture.image

引理4.1（）：当时，文本控制选择机制具有形式和，其中表示输入序列，表示 Query 嵌入。

引理4.1表明，受文本控制的选择性状态空间模型（SSM）类似于一个门控循环神经网络（RNN），其中门依赖于运动输入和文本 Query ，这使得文本 Query 能够在传播过程中控制信息流。鉴于算法2第5行中的递归过程保持不变，因此得到的受文本控制的SSM仍然可以利用（Wang等人，2019年）中概述的并行扫描算法进行有效计算。通过修改原始Mamba的前向和梯度反向传播函数，可以实现新算法，这使得SSM和语言 Backbone 网络可以进行端到端的联合训练。

Text-Controlled Motion Mamba

文本可控的选择性SSMs具有线性计算复杂度和内存消耗，使它们适合提取非常长序列的全局上下文。这使其成为运动定位任务中时间建模的自然选择。然而，人体骨架本质上具有潜在的图结构，构成一个多变量时间序列。Mamba作用于单变量序列，因此忽略了人体关节之间的交互。

在这项研究中，作者通过融入拓扑感知来增强Mamba，这是通过整合关系嵌入来传递关于相邻节点信息实现的。假设一个输入序列的形状为，其中表示人体骨骼中的关节数量，表示序列长度，表示特征维度。关系嵌入计算为，它封装了每个时间步的图信息。在这里，表示图神经网络（GNN），具体实现为（Wang等人，2019年）提出的AGCN。随后，关系嵌入与运动特征进行拼接，并输入到文本控制的选择性SSM中。

图3. 左侧：作者提出的模型的总体架构。右侧：TM-Mamba模块的说明。"双向SSM"指的是在算法2中展示的具有双向建模的文本控制选择机制。

picture.image

算法2，共同捕捉每个关节的全局时间信息及其拓扑上下文。

文本控制的Motion Mamba的整体架构如图3所示。与采用单向因果建模的普通Mamba模块不同，THMG任务需要整个序列的全局上下文。为了解决这个问题，采用了如Vision Mamba（Vaswani等人，2017年）提出的双向非因果结构。输入通过TM-Mamba模块的堆叠，产生输出。在维度上进行平均池化后，随后被送入一个MLP层。这为每个帧生成了帧激活得分，表示其被包含在检索的时间段内的可能性。整个框架可以使用一个简单的交叉熵损失进行监督。

其中表示指示帧是否位于通过文本 Query 检索到的片段内的真实标签。提出的方法在统一且简单的框架内实现了有效的全局上下文提取、基于 Query 的信息选择和拓扑建模。与基于 Transformer 的方法相比，作者的方法消除了沿时间维度对整个序列计算自注意力的必要性。这消除了一对二次内存的需求，使其能够处理非常长的序列。

Experiments

Implementation and Evaluation Details

运动数据预处理过程遵循BABEL中概述的方法论。运动序列的最大长度被限制为2000。采用了与BABEL相同的数据分割用于训练和评估。作者使用CLIP（clip-vit-base-patch32）作为文本编码器，其参数在训练期间与整个模型一起联合调整。

算法2中的特征维度对于输入的运动序列和文本 Query 嵌入均设置为256。批量大小和基础学习率分别配置为4和，CLIP的学习率设置为。优化器是具有权重衰减的AdamW。堆叠的运动-玛玛块的数量经验性地指定为3。模型训练是在单个Nvidia A40 GPU上进行的。

在推理阶段，采用一系列阈值来获得预测的时间段，遵循（Bahdanau等人，2015）的方法。随后，进行非最大值抑制以移除重叠的时间段。对定位性能的评估在不同交并比（IoU）阈值下使用平均平均精度（mAPs）来进行，阈值分别为[0.1 : 0.7 : 0.1]。

Ablation Studies

作者对BABEL-Grounding数据集进行了广泛的消融研究，以证明作者提出的TM-Mamba模型中每个组件的效果。

文本控制选择机制。文本控制选择机制是TM-Mamba模型的核心。如果从算法2中直接移除这个组件进行消融实验，模型将无法感知文本 Query 信息。为了进行比较，消融模型遵循了(Zhu et al., 2017; Wang et al., 2018)的做法，将文本嵌入与序列输入连接起来。然后使用MLP进行特征融合。正如表1所示，文本控制选择机制带来了相当大的性能提升。这凸显了基于文本 Query 动态调节信息传播的重要性。

picture.image

单向与双向。 Vanilla Mamba模型采用单向方法，即模型在处理当前步骤时只能访问序列历史。这种单向方法在诸如语言建模等任务中已被证明是有优势的。然而，在THMG任务背景下，模型需要对整个序列的全局语境有一个全面的理解，这就需要一种非因果的双向结构。表1中展示的结果证实了这一点，表明双向模型显著优于其单向对应模型。

关系嵌入。通过从TM-Mamba中移除关系嵌入，也评估了在THMG任务中拓扑建模的重要性。如所示，包含关系嵌入通过有效地捕捉骨骼数据中的底层图结构，提高了模型的性能。

Comparison with Baselines

鉴于THMG任务是一项新颖的工作，并且缺乏现有作品进行比较，作者实施了若干 Baseline 方法进行分析。首先，作者从视频时刻检索任务中选择了几个突出的模型：MomentDETR，FaTR和STCAT。然而，这些模型依赖于全局时间 Transformer ，这需要二次计算内存，并且对于处理THMG任务中的长序列是不切实际的。作为补救措施，将它们的全局时间 Transformer 替换为仅需要线性内存的高效GRU。

作者还实现了两个基于强大的人体运动骨架的 Baseline ，使用空间-时间图卷积，分别为2s-AGCN和InfoCGN。通过连接和MLP融合方式将文本嵌入合并，以整合基于文本的接地 Query 信息。最后，作者基于最近的基于SSM的模型实现了一些 Baseline ，以展示TM-Mamba相对于其他SSM方法的优点。如表格2所示，TM-Mamba在各种IoU阈值下的mAP指标上超过了 Baseline 模型，从而证明了它在BABEL-Grounding上的有效性。

More Analysis

内存消耗基于Mamba的模型的内存使用随序列长度的增加而线性增长，这使得它们能够有效地处理更长的序列。

picture.image

图4通过比较作者的TM-Mamba模型与 Transformer 和LSTM在处理不同长度序列时的GPU内存消耗来验证这一点。如图所示，基于变换的模型的内存成本随序列长度的增加而呈二次增长，导致其很快耗尽内存。另一方面，LSTM和TM-Mamba模型都表现出线性的内存消耗，使它们适用于在提取全局上下文信息时处理长运动序列。由于隐藏状态更大，TM-Mamba的斜率大于其LSTM对应模型。

picture.image

图5. 预测帧激活分数的可视化。实红线表示作者完整模型的预测分数，而虚蓝线和灰线分别表示没有文本控制和解耦关系嵌入的模型。下方的灰条说明了真实的时序段。彩色观看效果最佳。

与Transformer的比较表3展示了TM-Mamba与其时间Transformer版本在不同最大序列长度下的比较，在BABEL-Grounding数据集上。如图所示，在较短的动态序列上，TM-Mamba表现出优于时间Transformer的性能。同时，由于二次内存消耗，Transformer模型在序列长度超过1000时会耗尽GPU内存。相比之下，得益于其线性内存成本，TM-Mamba有效地处理更长的序列。可以观察到，增加序列长度会使得提取时间全局上下变得更加复杂，从而导致动态定位性能下降。

picture.image

可视化. 为了展示作者提出的模型的有效性，作者在BABEL-Grounding数据集上提供了可视化，以展示TM-Mamba模型与两个消融模型（无文本控制和无关系嵌入）之间的比较。图5展示了针对文本 Query 的帧激活得分和对应的真实时间片段。如图所示，与其它模型相比，作者的完整模型在真实时间片段内展现出更高的激活得分，因此在定位性能上提高了准确性。图6进一步可视化了模型预测的定位结果与真实情况之间的比较。如图所示，消融模型在准确预测与文本 Query 相对应的时间跨度上存在困难，而TM-Mamba显著提高了定位的精度。

picture.image

Conclusion

这项工作引入了一项名为基于文本的人类动作定位（THMG）的新任务，旨在给定一个文本描述的情况下，确定一个未修剪动作序列中所有片段的开始和结束时间戳。关键挑战在于，基于文本 Query 从冗长的未修剪序列中提取全局时间信息，而基于 Transformer 的方法受到二次内存成本的困扰。为此，作者从状态空间模型的最新进展中汲取灵感，并提出了一种名为TM-Mamba的统一框架，其具有线性内存成本。TM-Mamba将一种新颖的文本控制选择机制融入到Mamba算法中，使模型能够基于文本 Query 动态传播输入信息并提取相关的全局上下文。一个关系嵌入被整合进来以模拟人类骨架的底层图拓扑。为了评估，构建了一个名为BABEL-Grounding的文本-动作数据集，这是首个提供详细文本描述及其相应时间片段标注的数据集。严格的实验证明了所提出模型的有效性。

图6. 不同模型的接地结果的可视化。"GT"表示与文本 Query 相对应的 GT 时间片段。作者的TM-Mamba在运动定位方面表现出卓越的性能，无论是从检索到的片段数量还是每个片段的时间边界来看。彩图观看效果最佳。

参考

[1].Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion.

点击上方卡片，关注「AI视界引擎」公众号