点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
作者提出了一种基于状态空间模型(SSM)的新框架,用于基于骨架的人类动作识别,并采用解剖学指导的架构,以在临床诊断和一般动作识别任务中提高现有最佳性能。
作者的方法将骨骼运动分析分解为空间、时间以及时空流,并通过通道分割来高效捕捉不同的运动特征。
利用SSM中的结构化多方向扫描策略,作者的模型能够捕捉到多个人体部位之间的局部关节交互和全局运动模式。
这种解剖学 Aware 的分解增强了识别对医疗诊断至关重要的细微运动特征的能力,例如与神经性疾病相关的步态异常。
在公开的动作识别基准测试中,即NTU RGB+D、NTU RGB+D 120 和 Nw-UCLA数据集上,作者的模型优于现有的最佳方法,在较低的计算复杂度下实现了高达3.2%的准确性提升。
作者还引入了一个新的医学数据集,用于基于运动患者的神经系统疾病分析,以验证该方法在自动化疾病诊断方面的潜力。
- Introduction
人体动作识别是基于人类运动对动作进行分类的任务。该问题通常通过利用RGB视频中的丰富上下文特征来解决,但代价是暴露了人们身份的信息。基于骨架的动作识别已成为保护隐私的替代方案,适用于病患监控、物理治疗以及辅助生活环境等敏感应用领域。
骨骼三维关节表示简洁且对环境条件(例如背景杂乱和光照变化)具有鲁棒性,但其稀疏性使得这项任务本身极具挑战性。在医疗领域,精确捕捉关节之间的动态空间-时间关系对于细微动作的精确分析至关重要,这些细微动作能够指示各种疾病。例如,分析患者步态可以为神经性疾病、肌肉骨骼异常和其他健康状况提供重要见解。
骨架关节及其连接(即骨骼)对应于图结构中的顶点和边。作者的研究领域最近提出了通过图卷积网络(GCN)或类 Transformer 架构来建模骨架关节之间空间和时间依赖性的动作识别方法。基于GCN的方法引入了自适应的图结构,专门的关节编码(例如,[4, 32]),并探索了多种模态(例如,[34])以学习鲁棒的表示。基于 Transformer 的方法可以解决GCN方法在处理长时间序列依赖性方面遇到的问题。现有方法通过单样本设置(例如,[77])或在不同动作任务和数据集之间联合训练中利用自我注意机制(例如,[11, 75])来建模物理上邻近和遥远关节/帧之间的骨架时空关系。
类似于Transformer的架构计算需求高,基于GCN的方法在建模物理上相距较远的关节关系时遇到困难——这些关节关系是通过直接传递信息来物理连接的关节获得的。这促使作者提出了一种新型的状态空间模型(SSM)为基础的架构,该架构采用了一种高效的空时扫描策略来建模所有关节关系——旨在分析骨骼数据以识别患者的疾病。
作者的新型方法引入了一种结构化的骨骼运动数据分解方式,该分解跨越三个互补维度进行。给定一个输入序列,作者首先将其通道表示划分为专门的组,以进行空间、时间以及时空分析。空间和时间流捕获局部模式和短程帧间过渡,而时空流则引入状态空间模型(SSM)以实现复杂的动作建模。
神经系统障碍在行走过程中会影响不同的身体部位,导致疾病特异性运动模式。在时空流中,作者进一步根据解剖学意义上有意义的身体部位(例如腿、躯干、手臂)及其关键交互(例如手臂和腿部的协调)来分区输入,并由独立的SSM进行分析。每个SSM采用作者新颖的四向扫描策略,将每个解剖学组划分为四个通道子组。对特定子组应用特定的扫描方向。这使得作者的模型能够高效并行处理——同时减少计算需求——并允许作者在时间和空间两个维度上共同分析运动模式:从时间域到空间域、从空间域回时间域以及相应的反方向。这种多向扫描策略在高效的同时,能够全面捕捉局部关节关系和全局运动模式。
这种新的解剖结构 Aware 架构特别适用于自动化医学诊断,其中细微的运动异常往往会通过不同身体部位随时间的复杂交互而表现出来。然而,作者的模型依然具有普适性,并在现有的具有挑战性的动作识别数据集上展示了显著优于现有最先进的成果,彰显了其灵活性和 robust 性。
作者的贡献主要有三个方面:
- 作者提出了一种新颖的多流架构,利用SVM,有效地将运动分析分解为空间流、时间流和时空流,通过通道分区实现不同的运动特征的高效并行处理。
- 作者引入了一种解剖结构感知的分区方案,根据有意义的躯体部分及其相互作用来指导SVM分析,捕捉对于医学诊断至关重要的局部关节动态和复杂的跨体运动模式。
- 作者开发了一种通道分割扫描机制,将输入特征划分为四个子组,每组由方向特定的SVM处理。这种方法通过降低通道维度,在保持计算效率的同时实现全面的多方向运动分析。
通过在医学诊断任务(作者引入一个用于分析患者行走风格的数据集以辅助自动化神经系统疾病诊断)和标准动作识别基准上的 extensive 实验,作者证明该方法在性能上达到领先水平且具有很高的计算效率。
- Related Work
图卷积网络(GCNs)最初被用于基于骨骼的动作识别中[65]。开创性的工作引入了时空图卷积网络(ST-GCN)框架,用于通过时空图结构建模人体关节。最近的架构创新在多个维度上不断演进,从关节骨骼融合网络[43]和多尺度特征提取[51]到自适应图拓扑学习[48]。具有上下文感知的架构[7,71]和双流时序模型[50]增强了特征提取能力,而自适应图结构[37,67]和高效卷积[8,12]则优化了计算开销。这些发展,结合多模态集成方法[34],显著提升了领域捕捉丰富动作特征的能力,并在各种条件下保持了鲁棒性。
基于GCN的方法依赖于局部图操作和预定义的相邻矩阵,这限制了它们捕捉长程依赖性和动态运动模式的能力。作者的方法则通过引入状态空间模型(SSMs)来进行动态潜在空间分区,有效地捕捉局部和全局交互。
Transformer 结构是基于骨骼的动作识别的一种强大替代架构,主要是由于其通过自我注意机制能够建模复杂的关节和时序运动模式[55]。时空注意力框架[14, 44]能够综合建模结构和动态信息,而全局-局部注意力机制[26]则选择性地聚焦于不同时间尺度上的关键运动模式。频率感知架构[61]通过频谱增强提高数据效率,而专门设计的架构[11]则针对特定的运动类型进行优化。多模态方法[57]引入互补的传感器数据以增强在多种条件下的鲁棒性。自监督预训练策略[75]利用未标注数据提高表示学习的效果,而高效的架构设计[40, 41]则在减少计算需求的同时保持高精度。
尽管取得了这些进展,基于Transformer的方法在建模成对注意力时存在固有的计算复杂度问题(表现为二次复杂度),这促使作者探索更高效的架构以满足实时应用的需求。
状态空间模型(SSMs)提供了一种高效的序列建模方法,特别适用于处理长距离依赖关系。早期关于线性状态空间层的研究[18]为S4[19]奠定了基础,而后续的各种变体[22, 23, 53]则通过简化架构展示了相当的性能。Mamba[17]通过引入输入依赖参数[16]解决了基于内容的推理限制问题。对于视觉任务,现有的SSM适应方法[2, 35, 39, 42]主要遵循固定的单向扫描模式。基于视频的方法[6, 66, 73]在进行空间编码之后按顺序处理时间信息,而3D方法[31, 47, 68]则依赖于预定义的时间序列化策略。近年来的工作进一步将SSM扩展到了图像恢复[10]和语音处理[30]领域,相关综述[64]提供了全面的概述。
尽管SSM具有灵活性,但将其应用于基于骨架的动作识别仍然颇具挑战性。最近的工作[5]通过在GCN潜在空间嵌入的基础上应用时间驱动的一维扫描策略解决了这一问题。相比之下,作者通过通道分组实现了同时四向扫描(空间时间、时间空间,前后双向),实验比较结果显示,这种高效多方向处理能够捕获更丰富的运动依赖关系,从而提升基于骨架的动作分析效果。
神经退行性疾病的自动化诊断通过多模态方法和先进架构取得了显著进展。最近的方法通过将骨架数据与足部压力信息结合,成功应用于帕金森病(PD)评估[38];基于图的网络结合因果机制的增强提高了冻结步态的检测效果[20]。临床研究显示,微调的运动编码器能够有效捕捉病理步态模式[1],并由时空架构进一步提升PD识别能力。基于视觉的集成方法区分PD和膝关节骨关节炎步态[27],这建立在已有的临床对疾病特异性步态模式特征的认识之上。近期, Transformer 架构在早期PD检测方面展示了有前景的结果[36]。这些进步突显了计算机视觉在客观临床步态评估方面的巨大潜力[21]。
这些现有方法通常依赖复杂的预处理/模型架构,或者通过视频分析引起隐私担忧。作者的模型可以直接作用于骨架数据,并捕获行走模式中的独特时空动态,无需大量计算资源或牺牲患者隐私,从而推进了基于骨架的动作识别技术前沿。
3.SkelMamba
SkelMamba 架构如图1 所示。骨架序列表示为 ,其中 表示序列长度, 表示每帧的关键点数量,而 表示关键点坐标。
三维线性层将低维度的骨架数据投影到更高维度的嵌入空间中。在此基础上添加一个可学习的时间-空间Token,然后将其输入至个时间-空间Mamba块(TSMB),每个块包含一个部分组Mamba块(PGMB),用于建模骨架时空关系,以及一个 FFN (FFN)进行特征精炼。为了保留时空动态信息的同时降低计算复杂度,在经过两层TSMB块之后,应用了一个TDown层,该层由步长为2的卷积核ConvID后面跟随BN组成。经过个TSMB块获得的特征通过骨架时空平均池化操作,随后通过一个线性层生成,其中表示类别的数量。
3.1. Time-Space Mamba Block (TSMB)
为了设计作者的新型,作者采用了类似传统Transformer块的结构[55]。块的第一部分通过部分分组交互来建模空间-时间动态。
其中,LN是 LayerNorm 操作符,Split和Concat是通道分割和拼接函数。对于输入,作者将其分割为分别具有、和通道的、和。
遵循类似于多头注意力机制的精神,作者有 个并行的 PGM、SpatialConv 和 TemporalConv 操作器,其中 表示头的数量。新型 PGM 层模型了 中不同身体部位的空间时间关系。
每一个 SpatialConv 是一个带可学习的 矩阵的一层图卷积网络——而不是预定义的邻接矩阵——用于捕捉 中多样化的关节空间连接模式。为了建模 中模式的时间动态,每一个 TemporalConv 执行了一个 组的 Conv1D 过滤操作,其核大小为 。该块的第二部分通过计算来进一步细化捕获到的骨骼的空间时间动态。
3.2. Part-Grouped Mamba (P GM)
该层的设计基于三个关键见解:
(i)空间卷积(SpatialConv)和时间卷积(TemporalConv)操作符用于建模整个身体的短时域动态;
(ii)不同的疾病会影响特定的身体部位,这些部位表现出独特的但彼此相关的长时域动态。根据这样的直觉,作者提出的新型PGM在状态空间模型[19]中引入了通道驱动扫描和基于部分的分解策略,以高效地捕捉长范围的局部和全局运动模式。
状态空间模型(SSMs)设计用于将1D输入序列映射到输出,并通过隐藏状态实现。形式上,这种映射由以下常微分方程(ODEs)控制:
现代状态空间模型[19]使用零阶保持(ZOH)方法离散化公式(8)。
带有时间尺度参数 ,可以将其视为连续输入 的分辨率,从而导出离散的状态空间方程。
可以由卷积高效计算得出
其中, 表示输入序列的长度, 是SSM卷积核。
与传统的线性时不变状态空间模型(SSMs)不同,Mamba[17]引入了一种选择性扫描机制(S6),使得参数B、C和可以直接从输入数据中衍生出来,从而允许沿序列进行输入依赖性的交互。
Channel- wise 空间-时间自注意力模块(C-2D-SSM):Mamba 架构已从一维扩展至二维双向建模(例如,[2, 35, 64]),在图像相关任务中显示出潜力,但在参数空间扩大时表现出不稳定性 [42]。这归因于 Mamba 块广泛的输入和输出投影,其计算和参数复杂度与输入通道维度呈线性关系。
为了有效缓解这些问题,作者利用了这样一个洞察:骨骼数据中的不同信道组可能代表运动的不同但互补方面。如图2所示,作者将输入 在信道维度上分解,以获得等大小的张量。
这些结果独立地由方向特定的二维空间-时间状态模型(即,空间-时间SSM)处理,然后通过Concat操作生成最终输出。
保持输入张量的维度不变。 和 分别表示时序和空间维度,箭头指示时空扫描的方向。
这种新颖的并行方法能够在通道组间捕获互补的运动特征,同时通过处理 的通道输入显著降低计算复杂度。方向特异的空间时间扫描机制有效地捕获了多样化的上下文信息,增强了模型学习局部和全局依赖关系的能力。
部分分组建模:关节的位置随时间变化取决于疾病类型。不同的缺陷是由多个系统和结构(如小脑、锥体系和锥体外系)的参与导致的。例如,遗传性脊柱麻痹主要影响下肢关节[45],而帕金森病和小脑共济失调则涉及整个身体[15]。受这些直观认识的启发,作者提出了基于部分和全局的状态空间模型,以有效捕捉个体身体部位水平上的精细局部运动细节,同时保持对全身运动的整体理解。
作者将身体关键点分解为多个分区,对应于关键的身体部位(臂部、腿部、躯干)及其相关组合(臂部-腿部、臂部-躯干、躯干-腿部)。通过专注于这些特定的分区,作者使模型能够捕捉到对疾病识别至关重要的局部运动和跨段间的时间动态。
作者应用:
其中 是索引集, 是可学习的划分 Token,而 是作者为划分 设计的新颖的 C-2D-SSM。可学习的划分 Token 允许每个 SSM 学习与每个肢体部分或组合特有的运动动力学相关的特定表示,从而增强模型区分细微动作的能力。通过单独处理这些划分,作者的模型可以高效地捕捉到部分特异性的时间模式,例如行走时手臂和腿部运动的韵律交替,或躯干在维持平衡中的稳定作用。
为了确保在关注个体部分时不会遗漏全身运动模式,作者捕获整体运动特征作为 。注意型SSM:这些专门的SSM的输出随后通过可学习加权和进行整合:
其中, 和 是可学习参数。这种集成策略使作者的模型能够根据输入数据动态调整部分特异性运动信息和全局运动信息的重要程度。
为了进一步细化作者的特征表示并增强模型的适应性,作者在SSM处理之后引入了一个通道注意力机制。首先计算
其中,Pool为空间时间平均池化操作符,为sigmoid函数。然后,作者获得了作者新型PGM的输出。
其中, 是一个可学习的参数,而 表示哈达玛积。残差连接 确保在训练过程中有效传递梯度,而通道注意力机制 允许作者的模型自适应地重新校准逐通道特征响应 [25],从而关注每个输入序列中最具有信息性的特征。
- Experiments
4.1.Datasets
医学诊断:作者的目标是提供一种用于自动诊断与运动相关的障碍的方法。为了验证该方法在这一场景中的能力,作者将其验证在一个新收集的数据集和一个公开可用的基准数据集上。这两个数据集都为自动诊断带来了挑战,特别是在基于骨架动作识别的情况下,要求模型能够根据细微的运动特征区分多种神经学条件和健康对照组。
神经退行性疾病 (ND)。作者收集了一个新的数据集,专注于神经退行性疾病的自动化诊断。该数据集包括来自40位受试者的396个视频序列,分为四个不同的类别:原发性退行性小脑性共济失调(11名患者,112个序列)、遗传性痉挛性截瘫(12名患者,105个序列)、特发性帕金森病(7名患者,80个序列),以及健康对照组(10名受试者,99个序列)。数据采集在严格控制的条件下进行,以确保一致性和可靠性。每个序列捕捉了患者在一个标准化环境中行走的画面,每位受试者在两个方向上都有多次录像记录——即朝向和远离摄像机的方向。所有序列都是用30帧/秒的高清摄像头录制的。平均序列长度为140.64帧,范围从69帧到465帧,提供了足够的时间上下文来分析与每种状况相关的运动特征。
KOA-PD-NM[27] 包含基于 Token 的膝骨关节炎(KOA, 50名患者)、帕金森病(PD, 20名患者)和正常(NM, 30名患者)运动模式的序列数据。该数据集在受控的室内环境中捕捉(受试者在冠状面上走在绿色地毯上),使用的是每帧50帧的高清摄像头。数据集包括KOA和PD患者不同程度的严重性等级(轻微、中度、重度),这些严重性等级是由医学专家根据病情评估分级的。作者分别考虑和排除了严重性等级的结果进行了报告(即得到一个7类数据集和一个3类数据集)。
通用动作识别:尽管作者的方法主要是为了自动化诊断与运动相关的神经学疾病而设计的,作者假设其在通用动作识别任务中也具有潜在的应用价值。为了验证这一假设并进行全面评估,作者在基于骨架的动作识别标准公开基准上进行了实验。
NTU [46] 包含 60 个动作类别,涵盖了广泛的日常生活活动。该数据集包含来自 40 名被试、155 个摄像头视角的 56,880 个视频样本,使用 Kinect v2 捕获了 RGB、红外、深度和三维骨架数据。该数据集支持跨被试(X-Sub60)和跨视角(X-View60)的评估协议。其中 11 个类别涉及两个人的互动,形成 NTU-Inter 子集 。
NTU 120 [33] 将 NTU 数据集扩展到包含120个动作类别,共有106个主题的114,480个视频样本。该数据集引入了跨被试(X-Sub120)和跨设置(X-Set120)的评估协议。其中包括26个专注于人类交互的动作类,命名为NTU-Inter 120。
西北-加州大学洛杉矶分校[NW-UCLA, 56]包含1,475个视频样本,涵盖了10个动作类别,由10位受试者在三个不同的摄像机视角下完成。它提供了RGB、红外、深度和3D骨架数据。评估使用了跨视图协议[11, 75],利用两个视图进行训练,一个视图进行测试。
4.2. Implementation Details
作者在NVIDIA L40S GPU上使用PyTorch框架训练模型,每个批次包含128个样本,训练周期为500轮,采用了AdamW优化器并设置权重衰减为。作者采用线性学习率预热策略,在前25个周期内从线性增长到,之后使用余弦退火调度器。对于梯度范数超过1的情况,作者应用了梯度裁剪。作者使用标签平滑交叉熵损失函数进行优化,其中平滑参数。对于ND和KOA-PD-NM数据集,作者采用了[54]中的骨架关节信息。而对于其他数据集,则使用了提供的关键点。
4.3. State-of-the-art Comparison
作者全面比较了作者方法与其他最近的基于骨骼的动作识别方法的性能。按照[11, 74, 75]的研究,作者考虑了三种不同的模态:
(i) 只有关节();
(ii) 关节和骨骼();
(iii) 关节、骨骼和动作()。作者为每种模态训练了一个模型,并合并了它们的输出。
医疗诊断:表1提供了不同模型在三个医疗诊断数据集上的比较评估。作者提出的模型在所有数据集和集成指标上均取得了最高准确性。对于ND数据集,作者在和上达到,进一步提高到上的,展示了在神经系统疾病诊断方面的稳健性能。
在KOA-PD-NM数据集中,作者显著提高了其他方法的准确性,达到了98.62%,这表明该方法在分类分组严重程度方面具有很强的能力。在更具挑战性的KOA-PD-NMSeverity数据集中,作者的方法更好地处理了细粒度的严重程度区别,超越了所有现有的模型。
作者的新型状态空间模型架构在多个数据集上实现了显著的性能提升,突显了其在需要精确区分疾病严重程度的细腻医疗诊断任务中的有效性。这可能得益于模型能够动态捕捉长程局部和全局联合交互的能力。
通用动作识别:表2的结果表明,作者的方法在多种通用动作识别基准上取得了领先性能。作者持续超越了先前的方法,证明了作者建模方法的有效性。在NTU XSub60数据集上,作者的方法在三种考虑的集成策略中分别达到了91.8%、92.8%和93.4%的最高分数,展示了作者方法在捕捉空时依赖关系方面的能力。对于更为复杂的NTU 120数据集,作者的方法通过改进先前的GCN和Transformer Baseline 方法展现了出色的表现。同样,在NW-UCLA数据集上,作者在排行榜上实现了97.6%的最高准确率。
与最新的基于人工交互识别方法(NTU-inter和NTU-Inter 120数据集)进行比较,作者的方法取得的成果也有类似的观点。表3表明,作者始终优于现有方法,这证明了作者在处理复杂的人工交互方面的稳健性和有效性。
复杂性分析:表4提供了与现有架构的计算复杂度对比分析。作者的方法在NTU RGB+D和NTU RGB+D 120数据集上分别记录了平均联合模态准确性为94.3%和88.1%,超越了所有现有的方法。尽管SkelMamba的参数量(6.84M)和FLOPs(9.7G)略高于一些较轻的GCN模型,但其推理时间为7.06 ms,显示出其显著的高效性。这种权衡使作者的方法成为最准确且最快的模型。
4.4. Ablation Study
Part-Grouped Mamba块组件:表5展示了对新颖的part-grouped mamba块的消融研究,调查了其空间、时间以及时空组件对性能的贡献。单独移除空间或时间组件都会导致准确性显著下降,这突显了这两种模态对于块性能的重要性。PGM模块用于建模身体不同部位之间的交互作用,并且在所有配置下都一致地提高了准确性。这表明PGM有效地捕捉了身体部位之间的空间关系。
体部分析和SSM扫描:表6展示了Part Grouped Mamba (PGM) 层的消融研究。从1D SSM转换到C-2DSSM显著提高了性能,突显了空间-时间依赖性建模的优势。引入注意力机制的SSM通过捕捉长距离依赖关系来提升性能,而通道注意力则细化特征表示,带来额外的增益。整体而言,完全集成的PGM层实现了最高的准确性,验证了其在鲁棒姿态基于骨骼的动作识别设计中的有效性。
- Conclusion
作者提出了一种基于骨架的动作识别框架,该框架结合了解剖学 Aware 的状态空间模型(SSMs),以精细分析时空运动模式。作者的方法引入了一种多流架构,将骨骼数据划分为空间流、时间流和时空流,从而能够高效且有针对性地分析复杂的human动作。
通过解剖学指导的身体部位分割以及多方向扫描策略,作者的方法捕捉到了对于需要高精度的应用场景(例如自动化医学诊断)至关重要的局部关节动力学和全局运动交互。
参考
[0]. SkelMamba: A State Space Model for Efficient Skeleton Action Recognition of Neurological Disorders .
点击上方卡片,关注 「AI视界引擎」 公众号