点击下方卡片,关注 「AI视界引擎」 公众号
骨架动作识别(SAR)涉及使用骨骼关节坐标及其互联来识别人类动作。尽管已经尝试将普通的Transformer应用于这项任务,但它们与基于图卷积网络(GCNs)的当前领先方法相比仍有不足,这是由于缺乏结构先验。
最近,一种新颖的选择性状态空间模型Mamba作为Transformer中注意力机制的强有力替代品出现,它有效地建模了长序列。在这项工作中,据作者所知,作者首次提出了一个结合了Mamba的SAR框架。
作者模型的每个基本块采用了新颖的U-ShiftGCN架构,以Mamba为其核心组件。U-ShiftGCN的编码器部分设计用于从骨骼数据中提取空间特征,使用下采样的普通Shift S-GCN块。这些空间特征随后通过Mamba块进行中间时间建模,然后进入包含普通上采样Shift S-GCN块的编码器部分。
此外,在每个基本块的输出之前,还采用了Shift T-GCN(ShiftTCN)时间建模单元来细化时间表示。这种下采样空间、中间时间、上采样空间和最终时间子单元的特定集成对于骨架动作识别产生了有希望的结果。
作者将这个模型命名为Simba,在三个知名的骨架动作识别基准数据集上均取得了最先进的表现:NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA。
有趣的是,仅U-ShiftGCN(没有中间Mamba块的Simba)本身就能表现相当出色,并且超过了作者的 Baseline 。
1 Introduction
基于骨骼的人类动作识别因其计算效率以及能够抵抗环境波动和不同摄像机视角差异的能力而越来越受到关注。基于骨骼的动作识别的一个显著优势在于,通过像Kinect 这样的传感器或者可靠的姿态估计算法 获取身体关键点相对容易。因此,这使得姿态成为一种相对于传统的RGB、光流或基于深度的方法更为可靠的模态。
近年来,图卷积网络(GCNs)在建模非欧几里得数据方面得到了广泛应用。Yan等人是最早将关节及其相互连接视为图结构中的节点和边的人之一。他们在预定义的图上使用图卷积网络(GCN)来分析关节间的交互。从那时起,GCNs已成为骨骼基础动作识别任务的主导选择。包括多种模态(例如,关节、骨、关节速度和骨速度)或如MV-IGNet 中看到的多视图图表示的GCN的几种变体已被用于解决捕捉节点间关系的挑战。此外,基于图 Transformer 的方法如ST-TR 和DSTA 也已被用于随时间进行的骨骼动作识别。
然而,最近在建模长序列方面出现了重大范式转变。Mamba ,一种选择性的结构化状态空间序列模型(S6),在语言领域和基因组学中高效地建模长时序数据方面表现出了卓越的能力。
这自然引出了几个问题:
- Mamba能否在封装图关系方面显示其有效性?
- 它是否可以进一步利用来高效地建模视频中图快照的时间序列?
在本研究中,据作者所知,作者首次引入了将Mamba应用于时间图数据的骨骼动作识别框架。作者新颖的Simba模型中的每个组成模块都采用了U-ShiftGCN架构,其中Mamba是其基本核心。U-ShiftGCN的编码器部分设计为使用降采样vanilla Shift S-GCN 块从骨骼数据中提取丰富的空间特征。然后,这些空间特征通过Mamba块进行中间时间建模,再进入由vanilla Upsampling Shift S-GCN块组成的编码器部分。
此外,在每个组成块的输出之前部署了Shift T-GCN(ShiftTCN) 时间建模单元以增强时间表示。有趣的是,U-ShiftGCN架构本身尚未被探索过,并且比作者的 Baseline 取得了更好的性能。这种融合了降采样空间Shift S-GCN、中间时间Mamba和升采样空间Shift S-GCN以及ShiftTCN最终时间聚合的方法为骨骼动作识别带来了有希望的结果,作者的实验结果证实了这一点。
值得注意的是,作者的模型在三个著名基准骨骼动作识别数据集上均达到了最先进的表现:NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA。
作者的主要贡献可以总结如下:
- 作者据作者所知首次提出了一个将Mamba用于图数据时间序列建模的骨骼动作识别(SAR)框架。
- 作者的模型Simba在三个流行基准数据集上的SAR任务上超过了之前的最先进水平。
- 值得注意的是,作者Simba框架的衍生物U-ShiftGCN本身就是一个全新的探索,显示出其能够超越 Baseline 性能。
本文的后续部分结构如下:在第2部分,作者深入研究与骨骼动作识别(SAR)相关的现有技术,并强调Mamba在高效促进长序列建模方面的重要性。作者提出的方法在第3部分进行详细阐述。第4部分展示了关于作者提出方法的实证发现,并与最先进(SOTA)方法进行了详尽的对比。最后,在第5部分,作者讨论了重要的观察结果,并描述了在作者提出研究范围内未来探索的未来方向。
2 Related Works
在本节中,作者概述了与作者的研究关于骨架表示相关的主要文献,以及在这些方向上进展显著的高效建模长序列数据的工作。
Skeleton-based action recognition
在以往的研究中,循环神经网络(RNNs) 和卷积神经网络(CNNs)[14, 22] 常被用于基于骨架的人类动作识别任务。然而,这些方法往往忽视了关节之间的空间相互作用。因此,图卷积网络(GCNs)在这一领域的突出性增加了,因为它们通过图建模巧妙地捕捉了空间配置。
基于GCN的方法 以Yan等人为首的GCN方法的开创性工作,他们最初使用GCNs[15]来捕捉关节关联,并强调了它们在动作识别中的有效性。随后,为了应对骨架动作识别(SAR)的挑战,引入了各种GCN的改编版本,如ShiftGCN[2]和ShiftGCN++[3]。与依赖繁重的常规图卷积不同,ShiftGCN集成了新颖的移位图操作和轻量级的点卷积。这些操作为空间和时间图提供了灵活的感受野。其后续版本ShiftGCN++是一种特别计算效率的模型,专为计算能力受限的低功耗和低成本设备设计。
基于Transformer的方法 最近,基于Transformer的策略作为一种替代方法出现,主要关注于管理额外的时间维度。例如,提出了一种双流模型,结合了空间和时间自注意力机制,分别捕捉帧内和帧间的关联。相比之下,DSTA-Net[30]使用了一种在空间和时间维度之间交替建模的Transformer。然而,这些方法并没有达到与最先进的基于GCN的方法相当的效果。这种性能上的不足归因于它们对传统Transformer设计的坚持,这些设计没有考虑到骨架数据的独特特性。
Long Sequence Modeling
自注意力机制的有效性归功于其在上下文窗口内的密集信息路由,这使得它能够模拟复杂的数据模式。然而,这一特性固有地存在限制:无法在有限窗口之外建模,并且与窗口长度成二次方增加的计算复杂度。近来,结构化状态空间序列模型(SSMs) 作为一类有前景的序列建模架构而出现。这些模型融合了循环神经网络(RNNs)和卷积神经网络(CNNs)的元素,从经典状态空间模型 [13] 中汲取灵感。它们展现出卓越的计算效率,在序列长度上呈线性或近线性扩展,并且可以作为循环或卷积操作实现。SSMs 作为独立的序列转换,可以无缝地整合到端到端的神经网络架构中。
H3[8] 利用 S4 扩展了这种循环,提出了一种具有两个门控连接的 SSM 的架构。此外,H3 还在主 SSM 层之前引入了一种标准的局部卷积,称为移位-SSM。同时,Hyena 采用了与 H3 类似的架构,但用由多层感知机(MLP) 参数化的全局卷积替换了 S4 层。在此基础上,[9] 引入了一种称为 选择性结构化状态空间序列模型(S6) 的新型模型类别,作为序列建模中与 Transformer 竞争的替代品。这一发展激发了作者将 Mamba 集成到骨架动作识别领域的兴趣,这需要大量的时间建模。
3 Methodology
在本节中,作者将熟悉将在整篇论文中使用的术语,并详细阐述作者提出的Simba模块的每个组成部分。
Down-sampling ShiftGCN Encoder
下采样ShiftGCN编码器包含一系列三个Shift S-GCN[2]块。在使用之前,输入张量经过初始Shift S-GCN操作,扩大了即将进入ShiftGCN编码器的张量的通道维度。这种增强使得编码器中的每个Shift S-GCN可以进行后续的2倍下采样(最后一个除外)。
ShiftGCN编码器的核心目标是在提取骨架中节点嵌入的复杂空间细节的同时,减少其通道维度。这种策略在准确性和计算效率之间实现了平衡,因为这一阶段的输出将被送入Mamba块,其中最佳的嵌入维度()是必不可少的。这种维度确保了有效信息封装,同时不损害计算效率。从数学上讲,这一阶段可以用一个函数表示,其中是在进入当前块之前通过初始Shift S-GCN得到的张量:
在这一点上,,其中是有效的批处理大小,是通道维度,是时间维度,对应于图中的顶点数量。作者对这个张量进行置换和展平,得到形状为的输出。这随后被送入中间mamba块。
中间Mamba块
SSM基础。结构化状态空间序列模型(S4)和Mamba,都基于状态空间建模(SSM),从连续系统中汲取灵感。这些模型通过将实数空间中的一维函数或序列转换到另一个实数空间来工作。这种转换由潜在隐藏状态促进,位于中。这个系统的核心参数是、和,其中控制隐藏状态的演变,而和作为投影参数。具体来说,位于中,而和属于和。
S4和Mamba表示了连续系统的离散化对应物,通过引入时间缩放参数将连续参数和转换为它们的离散对应物和。这种转换的现行技术是零阶保持(ZOH)方法,如下所述:
对和进行离散化后,式4以步长离散化形式重新表述为:
最后,模型通过全局卷积操作生成输出。
其中表示输入序列的长度,表示一个结构化的卷积核。
与目前主要关注线性时不变(LTI)状态空间模型(SSM)不同,Mamba通过将其核心SSM操作整合选择扫描机制(S6)[9]而独树一帜。在S6中,矩阵,和是从输入数据中导出的。这表明S6能够意识到输入中嵌入的上下文信息,从而确保该机制内权重动态调制。本质上,模型从时不变转变为时变。
块方程。如图1(b)所示,作者将Mamba[9]块与RMS归一化和残差连接耦合,形成中间mamba块。 这个块以(其中)形状的张量为输入,并输出相同形状的张量。
在这个块中,对姿态快照严格的时间关系建模确保了这一阶段的输出富含时间信息,并且这种编码器-解码器结构的潜在状态质量得到提升。
从数学上讲,中间mamba块的操作可以表示为,其中是来自下采样ShiftGCN编码器阶段的输出:
(9)
其中是Silu(.)激活函数,*表示矩阵之间的简单乘法,P是的参数,A属于的参数矩阵。
作者特别选择,,,以及,其中是一个参数化的维投影(_Broadcast_具有相同的表示)。
作者将 的最后一个维度展开并将其置换,使其成为一个形状为 的张量,这也使其与Simba架构的解码器部分兼容。
Up-sampling ShiftGCN Decoder
与下采样部分相似,Simba模块内的上采样路径包含三个连续的Shift S-GCN块。这些块每块将通道维度增加一倍,除了最初的Shift S-GCN,它将维度D转换为C。本质上,上采样路径具有双重目的:首先,促进通道维度的增加,从而减轻编码阶段的信息丢失;其次,确保输出与后续Simba模块兼容。形式上,上采样ShiftGCN解码器可以表示为 ,其中 是3.2小节中提到的 的未扁平化和置换版本:
跳过连接遵循Ronneberger等人[28]概述的U-Net框架,以防止模型中出现梯度消失。此外,这些连接还承担着保持模型最初提供的信息的关键功能,即使在其深度经历了多次卷积操作之后也是如此。上采样ShiftGCN解码器的输出经过一个由Shift T-GCN [2](也称为ShiftTCN)促进的最后精化过程。这个额外的步骤旨在进一步增强时间维度,从而提高输出的整体质量。
Overall Model Architecture
假设Simba网络的第层输入为,那么Simba模块的整体架构可以用以下方程来概括:
(15) (16) (17) (18) (19)
其中是Simba网络中层的输入,是_ReLU(.)激活函数,而Residual(.)只是一个由2-D卷积层和2-D批量归一化层组成的TCN单元。
作者将最终Simba模块的输出通过全连接层传输,将张量变换到与数据集中的类别数对应的维度。与先前的[2, 3, 30]研究保持一致,作者为训练模型使用交叉熵损失函数。在4.2小节中提供了进一步的详细说明。
直觉构建。 Simba模型的编码器-解码器架构可能表明使用更简单的层来对输入张量的通道维度进行下采样和上采样。然而,作者观察到,使用线性层来完成这项任务会损害网络的性能。真正需要的是通道空间的逐渐缩小和平滑扩大。直观地说,这可以通过U-Net [28]架构来实现,其中 Backbone 网应该能够像作者的Shift-GCN Backbone 网一样提取有益的细节。因此,在Simba模块的信息损失与复杂性之间进行仔细权衡至关重要。
4 Experiments & Results
在本节中,作者首先将Simba架构与目前基于骨架的人类动作识别基准测试中的领先方法进行对比,以展示作者模型的卓越有效性。随后,作者进行消融研究,以更深入地探讨作者提出的方法,以获得更全面的理解。
Datasets
作者评估了作者提出的Simba在三个广泛认可的数据集上的有效性:NTU-RGB+D ,NTU-RGB+D 120 ,以及Northwestern-UCLA,以下是这些数据集的简要描述:
NTU-RGB+D 数据集是骨骼基础的人类动作识别的重要基准。它包含56,880个骨骼动作序列,每个序列由一个或两个人执行。这些序列由三个Microsoft Kinect-V2深度传感器同时捕捉,这些传感器高度相同但水平视角不同。
评估采用两个不同的基准:跨主体(X-Sub)和跨视角(X-View)设置。在X-Sub设置中,训练和测试数据集分别来自两个各有20个主体的独立队列。在X-View场景中,训练集由37,920个由摄像头视角2和3捕获的样本组成,而测试集由18,960个由摄像头视角1记录的序列组成。
NTU-RGB+D 120 数据集通过包括57,367个骨骼序列和60个补充动作类别来扩展NTU-RGB+D数据集。它是目前最大的带有3D关节标注的人类动作识别数据集,包含32个设置,每个设置代表不同的地点和背景。作者建议的两个基准评估包括跨主体(X-Sub)和跨设置(X-Setup)。
Northwestern-UCLA 数据集由三个Kinect传感器从不同视角捕捉,包含1,494个视频序列,跨越10个动作类别。
Implementation details
NTU RGB+D 60和NTU RGB+D 120. 作者的模型Simba和U-ShiftGCN进行了90个周期的训练,相较于之前研究中的典型140个周期,作者的模型更早地达到了收敛。学习率从0.025开始,在第75和85个周期时下降0.1。训练和测试批次分别包含64和512的大小。窗口大小(_T_),表示每个视频中采样的帧数,在数据预处理中设置为64,遵循中的方法。
Northwestern-UCLA. 训练和测试的批次大小分别设置为16和64。使用的窗口大小为52。作者的模型训练了400个周期以最大化其潜力,并且作者还遵循了[51]中概述的预处理策略。
对于NTU RGB+D 60和NTU RGB+D 120数据集,作者应用了0.0001的权重衰减,与之前的工作保持一致,而对于NW-UCLA,权重衰减设置为0.0004。在配置mamba块时,作者将嵌入维度(d-model)固定为500,与基于ViT-B[5]启发的 Baseline mamba架构紧密对齐,后者的嵌入维度为768。
为了确保一致性,作者根据NTU数据集和NW-UCLA数据集的骨骼节点数(分别为25和20)调整mamba相邻的Shift-GCN块的通道维度为20和25。作者还按照将模型的深度设置为()。有关实现的更多细节可以在附录材料部分找到。
Comparison with state-of-the-art
遵循该领域最近的进展,作者采用了多流融合方法。具体来说,作者整合了四个流,每个流针对不同的模态:关节、骨骼、关节运动和骨骼运动。关节模态包括原始骨架坐标,而骨骼模态捕捉空间坐标差分。另一方面,关节运动和骨骼运动模态分别关注关节和骨骼模态内的时间差分。为了整合这些流的信息,作者从每个流聚合softmax分数以得到融合分数。
在三个数据集上的比较分别显示在表1、6和3中。如图表6所示,作者的模型在两种设置下:NTU RGB+D 60数据集的Cross-subject和Cross-view,都实现了优于或至少与现有技术水平相当的性能。西北大学-加州大学洛杉矶分校(NW-UCLA)数据集因其有限的训练样本而构成一个显著挑战,从而加大了模型取得优异成绩的难度。
尽管在这种情况下要求很高,但作者的Simba模型在有效捕捉中间时间动态方面表现出其卓越的能力,如表1所示,取得了现有技术的最先进性能。
如表3所示,对于NTU RGB+D 120,作者的模型Simba表现出色,在x-set设置上超过了现有技术水平,并实现了超过86%的准确率。
Ablation study
IMamba模块的影响。 为了评估作者Simba架构核心中的Intermediate Mamba Block的影响,作者简单地移除了IMamba模块(因为IMamba模块期望输入和输出张量具有相同的形状)。这个移除模块后的模型作者称之为U-ShiftGCN。如表4所示,作者新颖的增强Mamba的Simba模型(仅联合模态)在NW-UCLA数据集上达到了94.18%,与U-ShiftGCN(仅联合模态)相比,提高了2.37%,比作者的 Baseline 模型1s Shift-GCN提升了4.33%。这强调了作者工作的主要贡献,突出了Mamba集成在骨骼动作识别(SAR)中的中间时间建模的重要性。
最优层数。 实验上,作者尝试了U-ShiftGCN架构中的层数。如表5所示,在层数集合{6,10,12}中,10层实现了最佳性能。Simba也遵循这一趋势,与之前的架构相似。因此,这证明了作者选择()作为这个模型的深度的合理性。
5 Conclusion
总之,作者的工作开创了将Mamba这一选择性状态空间模型集成到骨架动作识别(SAR)领域的先河,以及图##附录0.A划分门控机制。
在Simba架构中,对于NTU RGB+D 60和NTU RGB+D 120数据集,作者采用了一种特定的划分门控机制,该机制被观察到可以提升模型性能。假设是一个可学习的参数矩阵,属于空间,其中是输入通道的维度。设为划分的数量,为骨骼图的顶点数。作者将_label_定义为关节划分成员标签的一个独热编码向量,其形状为。
这里,表示Simba模块中初始Shift S-GCN块的输出,proj(.)表示一个2-D卷积操作,将通道维度变换为,而是一个选择操作,为每个关节节点获取属于的划分张量,负责在由归一化张量表示的种可能的划分中表示它:
然后,作者使用门控机制定义划分增强输入:
其中*表示矩阵乘法。作者将这个划分增强输入传递给,而不是。这种宝贵的划分融合对于像NTU这样的大型数据集非常有价值,模型能够同时从关节 Level 以及组别或划分 Level 的信息中学习,从而带来更好的性能。
Appendix 0.B Extended NTU RGB+D 60 results
作者在表6中展示了作者NTU RGB+D 60结果的扩展和更全面版本。作者将Simba 2-ensemble(联合+骨骼)的结果与最先进的方法进行了比较。
Appendix 0.C Extended Training Recipe
在表7中,作者提供了在作者对三个基准数据集的实验中使用的配置设置。
以下是作者的新型Simba模块(不包含分区门控机制)的伪代码:(将替换为以获得涉及该机制的相应伪代码):
参考
[1].Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos.
点击上方卡片,关注 「AI视界引擎」 公众号