点击下方卡片,关注
「AI视界引擎」
公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
通过远程光电容积脉搏波图(rPPG)估算心率(HR)提供了一种非侵入性的健康监测解决方案。
然而,传统的单模态方法(如RGB或射频(RF))由于光照变化、运动伪影和肤色偏差而在鲁棒性和准确性之间面临挑战。
在本文中,作者提出了CardiacMamba,这是一种结合RGB和RF模态优势的多模态融合框架。该框架引入了时间差Mamba模块(TDMM),利用帧间时间差异捕获RF信号的动态变化,增强局部和全局特征的提取。
此外,CardiacMamba采用了双向SSM进行跨模态对齐,并使用通道级快速傅里叶变换(CFFT),有效地捕捉和细化RGB和RF信号的频域特征,最终提高心率估算的准确性和周期性检测能力。
在EquiPleth数据集上的广泛实验显示了最先进的性能,显著提高了准确性和鲁棒性。CardiacMamba极大地减轻了肤色偏差的问题,在不同的人群群体中减少了性能差距,并在模态缺失的情况下保持了鲁棒性。
通过解决公平性、适应性和精确度的关键问题,该框架推动了rPPG技术向医疗健康领域的可靠实际部署发展。
- INTRODUCTION
心率(HR)是评估一个人健康状况和情绪状态的重要生理信号。传统的心率测量方法,如心电图(ECG)和光体积描记法(PPG),需要接触式传感器,这在长时间监测时可能会感到不舒服且不实际。为了解决这些限制,远程光体积描记法(rPPG)作为一种有前途的解决方案应运而生。rPPG 通过面部视频捕捉由血液循环引起皮肤颜色变化[1-5],从而实现非接触式的心率估计。由于其在医疗保健、人机交互和驾驶员监控系统等领域潜在的应用价值,这种方法正受到越来越多的关注。此外,与传统传感器相比,rPPG 由于其非侵入性、便捷性和经济性,使其适用于持续的健康监测。
非接触生理监测系统,例如使用摄像头进行远程光电体积描记术(rPPG)的系统,依赖皮肤的RGB光谱随血容量脉搏(BVP)的变化来提供有关人类生命体征的信息。基于摄像头的远程光电容积描记术领域有了显著进展,方法包括与血液体积相关的人面部肤色变化,采用物理模型[6, 7]、盲源分离[8, 9]和基于深度学习的方法[10]。然而,环境因素(如光照变化)严重降低了系统性能。例如,在低光照条件下,较深的肤色进一步放大了因光线反射减少而产生的估计误差[11]。
为了解决基于视频的方法的局限性,非接触式的替代方案逐渐出现,这些方案有望克服这些挑战。射频(RF)传感器通过周期性地发射和接收电磁信号来估算心率,以测量胸部附近的径向深度变化,而胸部会因个体的生命节律振动。与依赖RGB像素强度进行生理监测的视频方法不同[12, 13],RF传感器通过电磁信号的传输和接收推理径向深度信息,从而内在地减轻了周围光照的影响。然而,RF传感器也有自身的不足之处,例如其较差的角度分辨率使其容易受到横向运动的影响,并且与摄像头相比,在数据采集方面面临更大的困难。因此,大多数早期的RF生理学方法主要依赖无学习方法。但近年来,基于深度学习的技术也开始崭露头角[16]。
RGB和雷达频域(RF)模态的融合为综合利用它们互补的优势提供了令人信服的途径:rPPG提供了高空间分辨率,便于局部信号提取,而RF则确保了对光照变化和肤色偏差具有鲁棒性。然而,当前的多模态融合策略未能充分解决三个关键问题:
(1)由于异质的时间和空间特性而导致的跨模态特征对齐效率低下;
(2)在频率域中对周期心率信号增强时未能充分利用相关性:
(3)未充分解决代表性不足的人口群体中的公平性差异。为了解决基于视频的方法的局限性,已出现了替代的非接触式解决方案,这些方案可能在克服这些挑战方面具有潜在优势。
为了解决上述问题,本文提出CardiacMamba框架,这是一个基于动态特征增强和跨模态双向交互的多模态RGB-RF融合框架,利用状态空间模型。该框架通过引入创新的模块设计和频域融合策略,旨在显著提高心率估计等任务的性能和公平性。在双层特征提取与对齐阶段中,作者引入了时间差Mamba模块(TDMM)和分叉差值卷积融合(BDCF)。这些模块通过时间差分卷积提取动态特征,并结合Mamba块的全局建模能力,有效地增强了RGB模态的rPPG特征以及RF模态的时间动态信息。在双向特征交互阶段,作者创新地引入了双向状态空间模型(Bi-SSM)。该模型通过共享状态转移矩阵和输入矩阵来实现RGB和RF模态的协同建模。机制在统一的动态框架下整合跨模态信息,并通过双向时间建模(正向和反向)增强全局上下文感知。在双向特征融合阶段,作者提出了通道级快速傅里叶变换,将RGB和RF特征映射到频域进行交互。通过利用可学习的实部和虚部交互参数,模型可以自适应地增强与心率相关的频率带宽并抑制噪声,最终通过逆变换重构回时域特征。实验结果显示,在EquiPleth数据集上,CardiacMamba在涉及肤色偏差和缺失模态的情况下优于现有方法。作者的多模态融合机制有效缓解了传统单模态方法因皮肤反射差异导致的估计偏差。
总之,作者的贡献包括:
作者将Mamba引入基于联合RGB和RF融合的rPPG估计框架中,增强模型高效捕捉和集成多模态特征的能力。通过利用Mamba的高级结构,作者提高了rPPG估计的稳定性和准确性,使模型能够有效地处理来自RGB和RF两种模态的多样性和互补信息。
作者设计了时间差分Mamba模块(TDMM),该模块通过对连续帧之间的时域差异进行利用,增强了标准Mamba框架,从而捕获RF信号的动力学变化。通过引入Mamba块,此模块增强了局部和全局时序特征的提取能力,从而显著提高了模型在复杂动态场景中的性能。
作者设计了通道级快速傅里叶变换(CFFT),有效捕获了RGB和RF模态的独特频域特性。这种频域方法通过揭示跨模态的频率关系并选择性地增强或抑制相关成分,提高了心率估计的准确性,从而加强了模型检测心率周期性的能力。
·在处理缺失模态场景方面,作者达到了目前的最佳性能,并且成功消除了肤色偏见,展示了作者提出的模型在处理不完整数据和跨模态数据偏见方面的优势。同时,作者进行了大量的消除实验,以全面评估模型各个组件的作用,验证了每个模块在提升整体性能中所扮演的关键角色。
II. RELATED WORK
A. RGB Video-Based Methods
基于相机的远程光电体积描记图(rPPG)技术在过去几十年中取得了显著的发展。在基于视频的远程生理监测中,RGB相机可以用来远程重构人体生理信息,尤其是面部区域的信息,因为皮肤的反射光谱会随着诸如血流脉动等生理运动发生变化。最初,传统的rPPG方法主要依赖于信号处理技术来分析面部区域的周期性信号。这些方法通常使用主成分分析(PCA)[18]和独立组件分析(ICA)[19, 20]等信号分解技术,在信噪比低的情况下恢复生理信号。然而,这些传统方法受限于外部因素,如 Head 运动和光照变化,这影响了它们的应用。
随着深度学习技术的发展,rPPG 测量任务取得了显著的进步。卷积神经网络(CNNs)被广泛应用于皮肤分割和 rPPG 特征提取。早期的工作使用 3D CNN 或 2D CNN 来捕捉空间-时间信息 ,从而实现 rPPG 信号的重建。近年来,transformers 已被引入到 rPPG 任务中 [23-25],增强了准周期 rPPG 特征并提升了全局空间-时间感知能力,进一步提高了准确性。由于微妙的生理运动常常受到外部因素的影响,新的方法引入了反注意力机制或时域移位模块等技术,有效抑制了 Head 运动引起的干扰 [26]。
B.RF radar-Based Methods
自20世纪70年代雷达基于远程光电脉谱技术(rPPG)用于呼吸率检测以来[27],该技术得到了显著的发展。随着时间的推移,雷达已被越来越多地应用于监测心率、呼吸率和血压等生命体征。各种雷达系统,包括FMCW、UWB脉冲和连续波多普勒雷达,被用来检测由生理运动引起的微小胸腔位移。
早期的研究表明,在理想条件下,基于雷达和基于摄像头的方法在心率估计方面的表现相似,但雷达系统更容易受到噪声的影响,常常需要研究目标保持静止。最近的研究通过将深度学习技术集成到FMCW雷达中,增强了脉搏信号的检测能力,从而提高了心率估计的准确性[28]。
在基于雷达的远程生理监测中,雷达捕获多普勒信息的能力以及其优越的深度分辨率使其能够追踪胸腔的细微振荡,从而精确测量生命体征。最初,大多数雷达技术依赖于信号分解方法,如频率分析和小波分解。然而,最近的研究利用深度学习进一步提高了对雷达信号的解释。例如,[28]提出了一种编码器-解码器模型,用于从原始RF数据重构生命体征信号,而[29]则采用了变分推理方法。
C.Multi-modalFusionMethods
多模态融合在远程光电 plethysmography (rPPG) 中通过结合多种数据模态来提高生理指标估计性能。这一过程涉及整合不同模态以实现比单一模态更好的结果。在深度学习中,融合可以在中间潜在空间发生,此时来自不同模态的特征被结合;也可以在决策阶段后期进行,此时每个模态的预测被聚合。尽管如此,先前的研究已经尝试将 RGB 与中红外 (MidIR) 和近红外 (NIR) 结合以改善 rPPG 性能 [30-32]。另外,也有一些研究将 RGB 与雷达 (RF) 结合,以便更好地估计人类的生理指标 [17]。在抑郁症检测领域,有研究采用双模态状态机 (Bi-SSM) 作为核心框架,结合音频和视频信息进行抑郁症检测。
此外,最近的研究重点在于结合RGB图像和雷达频段(RF)信号,以在低光照或恶劣天气等具有挑战性的条件下增强鲁棒性。这对于户外应用如自动驾驶尤其重要,在这些应用中,RGB和RF信号的空间融合有助于目标检测。
D. Mamba
Mamba [33]最初是在自然语言处理领域引入的,用于高效处理长序列数据。随着研究的进展,出现了许多Mamba的变体[34-38],并将Mamba扩展到了计算机视觉领域,特别是在引入双向状态空间模型(BSSM)后,发展成了Vision Mamba (Vim)[39]。Vim双向处理图像序列并集成位置嵌入,有效捕捉全局视觉上下文,提高高分辨率图像处理的效率和性能。相比于传统的Transformer模型,Vim在处理高分辨率图像时实现了2.8倍的推理速度提升,并减少了GPU内存使用。这一进展标志着Mamba架构在视觉任务中的重大突破。
III. METHODOLOGY
A. Preliminaries
连续域的状态空间表示:Mamba 和 S4 均为基础自回归状态空间模型(State Space Model, SSM)方法,在深度学习中源自经典控制理论中的线性时不变(Linear Time-Invariant, LTI)系统概念。一个 LTI 系统通过中间隐藏状态
将一维连续输入序列
映射到输出
。从数学上讲,该系统由以下线性常微分方程(Ordinary Differential Equation, ODE)描述:
其中,
是状态转换矩阵,
和
作为投影矩阵,而
表示 Shortcut 。虽然这种连续时间的表述形式受益于控制理论坚实的基础,但将其直接应用于深度学习中的离散序列数据(例如文本或语音)时,需要进行离散化以与现代硬件计算相一致。
零阶保持(ZOH)离散化:为了将连续的常微分方程(ODEs)与离散序列建模连接起来,通常会引入一个时间尺度参数
,并采用零阶保持(ZOH)原则对连续参数
和
进行离散化,得到它们的离散对应值
和
。核心变换过程如下所示:
其中
表示矩阵指数函数,
表示兼容维度的单位矩阵。完成离散化后,式 (1) 可以在离散的时间步长(或序列索引)上重写为:
使用
对每个离散的时间步或序列元素进行索引。这一步将连续的状态动态有效地映射到一个适用于深度学习的离散迭代框架中。
- 从递归神经网络形式到卷积形式:虽然式(3)表面上类似于一种递归神经网络隐藏状态更新的形式,但它可以进一步转换为一维卷积形式。具体而言,通过在先前时间步长中展开
并收集
的项,可以定义一个结构化的卷积核
,从而对序列
进行单次卷积操作。
其中,
表示一维卷积,
表示序列长度。这种形式提供了显著的并行化优势,利用大规模的GPU/TPU并行计算来极大地提高长序列建模的效率和可扩展性。
B. Overview
所提出的CardiacMamba模型融合了三种基本组件用于模态融合过程:双层特征提取与对齐、双向特征交互以及双向特征融合。如图2所示,RGB模态输入表示为
,而RF模态输入则表示为
。初始阶段,双层特征提取与对齐包含低层和高层特征提取过程。在低层阶段,作者采用时间差Mamba模块(TDMM)和分叉扩散卷积融合(BDCF),以从RGB和RF模态中捕获主要特征。RGB模态输出
随后通过空间通道融合模块(SCFM)处理,该模块提取rPPG相关的特征,并将空间信息整合到token通道中。对于RF模态输出
,作者使用两个RF对齐模块(RFAM)来提取更深层次的特征,并在时间域中将RF模态与RGB模态对齐。
在后续的双向特征交互阶段,来自RGB和RF模态的输出
和
被输送到Vision Mamba (
)模块中,该模块将这两种模态对齐到一个共享表示空间中,促进了跨模态信息的交互,并允许提取全局特征。
对齐后的特征通过将
添加到RGB模态的
,以及将
添加到RF模态的
来进行融合。随后,这些融合特征通过线性变换转换到新的特征空间,得到
和
。这一融合过程增强了模态之间的信息交流,从而产生了更为全面的特征表示,提高了最终预测的准确性和鲁棒性。
随后,Vim模块融合的输出通过一个信道 wise 快速傅里叶变换(CFFT)网络,进一步促进了多信道间信息的交互。最后,聚合后的特征被送入预测器以估计BVP信号。
C. Dual-level Feature Extraction and Alignment
低级特征提取:时间差蟒蛇模块(TDMM):为了更好地捕捉射频(RF)模态的时间序列中的动态变化,作者提出了一种名为时间差蟒蛇模块(TDMM)的新模块。如图3和算法1所示,该模块旨在有效地处理时间差异信息,并从时序数据中提取更具区分性的特征,从而显著增强RF信号中的时间信息,并在复杂动态场景中提高模型的性能。
首先,作者计算输入RF数据中连续帧之间的差异,以帮助网络捕捉信号的动态变化。具体地,对于每一帧,作者应用时间移位操作以获得
(即五帧相邻的帧)。通过计算每帧与前一帧和下一帧之间的差异,作者得到帧差异
,这些差异反映了不同时间点RF信号的变化特征。
接下来,作者将差分RF信号与原始信号结合,然后对这些时间差分图应用卷积操作和批量规范化。由于RF信号通常包含周期性的动态特征,为了在时间维度上避免引入过多冗余,作者使用了
的卷积核来高效地提取这些特征。随后,作者引入Mamba块进一步提取全局特征,并最终应用ReLU激活函数以增强非线性表达。
Bifurcated 差异卷积融合 (BDCF):差分融合模块首先将帧差异整合到原始帧中,增强对 BVP 波变化的感知。这有效地提高了 rPPG 特征的质量,且几乎没有增加计算成本。由于 rPPG 需要跨帧的高频信息和帧内的低频信息,因此使用了大的卷积核来捕捉帧内低频信息,并充分地将空间信息融入到通道中。
过程如下:对于输入视频
,首先应用时间移位以获取
和
。接着计算相邻帧之间的差异,得到
和
。将这些帧差异与原始帧结合后,通过Stem1进行特征提取。Stem1包括一个
卷积层,随后是批量归一化(BatchNorm)、ReLU激活函数和最大池化操作。当使用单帧特征时,输入维度为3;当连接帧差异时,输入维度为12。
接下来,通过Stem2将差异视频和原始视频的特征进行合并并进一步增强,Stem2也包含一个大小为
的卷积层、BN和ReLU。融合公式为:
融合系数
和
均设置为 0.5。BDCF 的输出是一个融合并增强后的特征表示。
高层特征提取:空间-通道融合模块(SCFM):该模块旨在有效地从RGB视频信号中捕获高层特征。首先,输入特征通过Sigmoid激活函数进行初始的非线性变换。Sigmoid函数将输入信号压缩到[0, 1]的范围内,增强模型稳定性并有效抑制异常值。经过激活处理的特征随后传入注意力 Mask 模块,该模块采用自注意力机制对输入信号进行加权,并捕获不同空间位置之间的关系。具体来说,注意力 Mask 的计算方法如下:
其中,
表示Sigmoid激活函数,而Stem是一个相对较大的
卷积核,能够有效整合空间信息到通道中。这样,注意力 Mask 突显了图像皮肤区域中的强信号区域,这对于心率估计等任务至关重要。与传统的Softmax机制相比,L1归一化
更加平滑,并生成稀疏的 Mask ,从而使注意力 Mask 能够更精确地聚焦在关键信号区域上,同时所需计算资源较少。
生成的Attention Mask随后应用于融合特征
,从而得到增强的特征表示
。这一增强过程通过L1归一化有效地减少了不必要的噪声,并在空间域中加强了信号的表示。
接下来,经过Self-Attention机制处理的特征通过全局平均池化进一步整合特征。全局平均池化减少了特征的维度,同时有效地将空间信息融入通道中,使得每个通道的表示更加紧凑和具有代表性。池化后的输出特征 (X_{\text{stem}} \in \dot{\mathbb{R}}^{T/2 \times C}) 为后续的卷积操作提供了高度浓缩的信息。
最后,池化特征通过卷积层和批量归一化层进行处理。卷积操作进一步从特征空间中提取有用信息,增强模型的表达能力,而批量归一化则在通道间标准化特征分布,加速收敛并提高训练稳定性。
RF 对齐模块 (RFAM): RF 对齐模块 (RFAM) 设计用于处理 RF 模态数据,通过增强其特征表示并确保与 RGB 等其他模态在时间上的对齐。该模块包含多个关键操作:卷积、批量标准化、通道注意力、下采样和 ReLU 激活。首先,RF 数据通过卷积层提取空间特征,随后通过批量标准化来标准化批量内的特征分布。
接下来,处理后的特征会经过一个通道注意力机制,该机制能够自适应地突出显示最具信息量的通道。注意力机制使用平均池化和最大池化来捕获全局空间信息,这些信息随后通过包含两层卷积层的全连接网络传递。注意力权重使用Sigmoid激活函数计算,并应用于输入特征图上,有选择性地增强相关的通道,同时抑制不那么有用的通道。这一步骤使模型能够专注于RF数据中最重要特征,对于处理RF信号的动态性质特别有用。
最后,RF数据经过降采样,使其时间维度与RGB数据的时间维度对齐。这种时间对齐确保了两种模态同步,并能在模型后续阶段有效融合。降采样之后,数据通过ReLU激活函数,引入非线性特性,有助于捕捉特征中的复杂模式。
D.Bidirectional Feature Interaction
受[39, 45]的启发,作者提出了一种双向特征交互方法,通过协作建模雷达(RF)特征和视频特征来增强多模态表示。借助Vision Mamba编码器[45],该方法捕捉不同模态之间的时序依赖性,并通过共享状态转换矩阵促进它们之间的交互,而无需增加参数。这种方法允许两种模态同时学习跨模态信息,同时保留各自的独特特性,从而提高模型的表达能力和准确性。
视觉猎蟒编码器首先应用线性投影将每个图像片段转化为一系列Token,并通过位置嵌入来保持空间关系。随后,它通过双向状态空间模型(Bi-SSM)双向建模该片段序列,捕获全面的空间-时间依赖关系。这种双向建模有效地整合了全局上下文和局部细节。卷积操作提取局部特征,帮助模型识别细粒度模式,而全局卷积层则捕捉长距离依赖关系。这种多层次结构为后续任务如分类和目标检测生成丰富的视觉表示。
在多模态任务中,Vision Mamba 编码器在处理 RGB 视频和 RF 雷达模态时表现出色。对于 RGB 视频,双向建模捕获了时间依赖性,有助于动态信息的提取,如面部表情和姿态变化。对于 RF 雷达,低分辨率和噪声通常妨碍了细节的提取。然而,通过结合 RF 信号与 RGB 视频信号,双向建模和共享状态矩阵增强了 RF 信号的时间动态特性,从而改进了多模态融合和模型性能。
与传统的多模态学习方法不同,后者为每种模态使用单独的状态转换矩阵,双向特征交互引入了一个共享的状态转换矩阵。这种统一的方法确保雷达特征(RF)和视频模态在同一组动态规则下演化,促进了两者更紧密的合作。共享的矩阵A和B使得两种模态能够同时更新,从而增强融合和互补性。
这种共享矩阵框架简化了模型,并提高了跨模态集成效率,从而实现更高效的多模态任务学习和更好的性能。
引入共享状态转移矩阵不仅简化了模型结构,还显著提高了跨模态信息集成的效率。通过共享矩阵
和
,双向特征交互可以在相同的时序动态下捕获RF信号与视频图像之间的相互依赖关系。共享矩阵消除了模态间的冗余,促进了模态间的信息交流和协同学习,从而有效提高多模态学习任务的性能。
E.BidirectionalFeatureFusion
在本小节中,RGB和RF模态的特征首先被输入到各自的通道级快速傅里叶变换(CFFT)中,以提取更高阶的频域特征。然后,来自两个模态的特征通过求和结合,融合后的特征被送入预测器进行解码,以获得rPPG信号。
如图4所示,CFFT模块首先应用快速傅里叶变换将通道域信号映射到频域,突显不同模态在各个通道中的频率信息。随后,在频域中利用可学习的实部和虚部之间的交互作用来增强或抑制特定的频率成分。最后,通过应用逆傅里叶变换,处理后的结果被恢复回通道域。这一过程不仅保留了原始特征表示,还在频域中有效地融合了RGB和RF信号,并增强了模型检测心率周期性的能力。
通过在通道维度上进行快速傅里叶变换而不是直接在时间维度或其他维度上进行变换,作者可以有效地提取每个模态的独特频率特性,因为RGB和RF信号在不同的通道中携带不同的频域信息。这种按通道的方法使模型能够捕捉到RGB和RF信号中的独特频率成分,并揭示它们之间的跨模态频率关系,从而提高心率估计的准确性。此外,这种方法还可以增强或抑制特定的频率成分以更有效地去除噪声并突出与心率相关的信息。
沿通道维度的快速傅里叶变换(FFT):作者将 FFT 应用于特征的通道维度,将其信号从时域转换到频域:
其中,
是通道维度(在此积分形式中为连续变量),
是通道频率变量,
表示通道域中的原始信号,
和
分别是
的实部和虚部,且
是虚数单位,满足
。
频域交互:将特征转换到频域后,作者使用可学习参数执行交互操作。这使得模型能够专注于最重要的频率成分并抑制无关的成分。频域特征的实部和虚部之间的交互被建模为:
逆傅里叶变换(IFFT):在频域交互之后,应用逆傅里叶变换(IFFT)将特征转换回时间域:
F. 损失函数作者的损失包括负皮尔逊损失 (L_{neg}) 和信噪比(SNR)损失 (L_{SNR})。负皮尔逊损失定义如下:
信噪比损失定义如下:
其中,
和
分别是
和
的傅里叶变换,
是选择的窗口大小。整体损失函数为:
IV. EXPERIMENT
A. Datasets and Metrics
数据集。为了进行评估,作者在EquiPleth数据集[17]上进行了大量实验。该数据集包含28名浅肤色、49名中等肤色和14名深肤色的志愿者。RGB相机设置为默认工厂设置,在30帧每秒下工作,而FMCW雷达则设置为起始频率为77 GHz。作者使用这些设备为每位志愿者录制了6个会话,每个会话持续30秒,包括RGB视频和雷达IQ数据。
评价指标。本研究采用了均方误差(MSE)、平均绝对误差(MAE)和皮尔逊相关系数(
)作为评价指标。特别是,较低的MAE和RMSE值表明误差较小,而接近1.0的
值则反映了误差的减少。MAE和RMSE均以每分钟拍数(bpm)表示,在后续的表和分析中将会省略单位。
B. Experimental Setup
RGB分支的输入是由MTCNN [46]处理过的视频片段,使用该方法定位面部区域,尺寸为
像素。RF分支的输入是IQ数据,经过处理转换为距离矩阵,在一个
的窗口内提取感兴趣区域的数据。所提出的Fusion-Vital模型使用ADAM优化器在批量大小为32、学习率为0.0001的情况下,在4090 GPU上训练了30个周期。
C. Comparison with State-of-the-Art method
如表1所示,作者评估了所提出模型与多种基于单模态的最新远程生理监测模型([22][10][40][23][41][42])的性能。作者还评估了作者的模型与多模态远程生理监测模型([17])的性能。
对于心率估计,作者的模型在性能上显著优于基准模型。与最佳的RGB模型输出相比,作者提出的多模态融合模型将MAE降低了67%,RMSE降低了68%。此外,它还优于最佳RF模型。当与之前表现最好的多模态融合模型进行比较时,作者的方法将MAE降低了15%,RMSE降低了11%。虽然作者的单一模态RGB模型在性能上与最佳RGB模型输出相当,但作者的单一模态RF模型却超越了最佳RF模型的性能。
D.Measuring Skin Tone Bias and Fairness
为了应对肤色偏差问题,本研究系统地评估了不同模型的公平性,通过量化亮皮肤样本与暗皮肤样本之间的性能差异(差异值)。如表3所示,所提出的RGB和RF融合模型在三个关键指标上展现出显著的优势:MAE、RMSE和
。具体而言,在衡量绝对误差的MAE方面,作者的模型实现了最小化的肤色差异0.26,比Vilesov等人[17]的(0.67)低61.2%,并且分别比传统方法ICA(4.42)[9]、CHROM(4.97)[6]和PhysNet(2.22)[10]高出约17倍、19倍和8.5倍。
关于RMSE,作者的模型显示出明显的改进,数值为1.28,分别比Vilesov等人(1.44)[17]和PhysNet(4.05)[10]降低了11.1%和68.4%。在
方面,它代表了光皮肤和暗皮肤样本间相关性的差异,作者的模型实现了最小的差异0.05,相比ICAv(-0.36)[9]、CHROM(-0.38)[6]和PhysNet(-0.25)[10]显著更高的差异,这表明作者的方法确保了不同肤色间的更一致和公平性能。这些结果表明,通过结合RGB和射频(RF)的多模态信号,作者的模型有效缓解了传统单模态方法因肤色变化引起的光谱反射率估计偏差,为公平敏感的应用提供了更为可靠的技术途径。
E. Measurement in Missing Modality Scenarios
在缺失模态的鲁棒性测试中,提出的多模态融合模型(RGB和RF)表现出色。如TABLE IMl所示,在测试过程中部分模态缺失时(例如,仅RGB或仅RF),该模型依然保持着最佳性能。在完整模态测试(RGB和RF)下,作者的模型分别超越Vilesov等人[17]的性能14.3%和10.5%,并且比 Baseline 模型高出20多倍,从而验证了深度多模态融合的有效性。
在仅使用RGB的测试中,与Vilesov等人[17]相比,作者的模型将MAE降低了82.4%,误差水平接近全模态的表现,突显了RGB特征提取的稳健泛化能力。尽管在仅RF的测试中,该模型的表现不如Vilesov等人[17](MAE=7.25,RMSE=9.62),但其在全模态下的优越性证实了RF信号主要作为框架中的补充成分发挥作用,通过多模态协同作用最大化其价值。
这种能力不仅凸显了模型在模态不完整情况下的 robustness,还确保了其在真实复杂环境中的可靠部署。
F. Ablation Study
如表4所示,为了验证每个模块的贡献,作者进行了系统的消融研究。结果显示,Vision Mamba和信道快速傅里叶变换(CFFT)对模型准确性至关重要。排除Vision Mamba(第一行)仍然保持了不错的性能,
,
。移除CFFT(第二行)则导致严重的性能下降,
,
,这表明跨模态特征对齐高度依赖于频域补偿。时空同步模块(SSM)和射频对齐模块(RFAM)提供了辅助稳定性和细节增强。它们的缺失分别仅略微增加了
至1.862和1.85,但保持了
,证明了模型对部分模块失效的良好容忍度。值得注意的是,排除时间差分Mamba模块(TDMM)使
翻倍(从1.7变为3.82),且均方根误差(RMSE)增加了64.5%,突显了其在时间一致性调节中的关键作用。综上所述,Vision Mamba和CFFT构成了核心框架,而SSM、通道注意力机制和时间差分通过多层次优化协作提升了性能,实现了平衡的指标(
,
),从而验证了作者模块的完整性和鲁棒性。
G. Visualization and Analysis
面部和雷达频谱特征可视化:如图5所示,作者展示了RGB和RF两种模态的可视化表示。图5a展示了一个来自EquiPleth数据集的图像,其中包含一个人脸的捕捉。图5b突出显示了该图像的特征 Heatmap ,展示了用于心率估计的关键区域。 Heatmap 强调了具有强烈信号相关性的区域,例如面部皮肤区域。转向图5c,雷达频谱图可视化了雷达捕获的频率信息。最后,图5d展示了雷达频谱的特征 Heatmap ,其中与生理信号相关的关键频率成分被突出显示。这一系列图像清晰地对比了两种模态的空间域和频域特征。
CardiacMamba与其他方法的Bland-Altman图:图6展示了将CardiacMamba与其他方法(Vilesov等人[17])的心率估计值与真实值进行比较的Bland-Altman图。图6a显示了CardiacMamba模型的Bland-Altman图,表明心率估计值在置信区间内更为集中,意味着更高的准确性和一致性。相比之下,图6b展示了Vilesov等人[17]的结果,显示出心率预测值分布更广且变化更大。这一比较突显了CardiacMamba在估计稳定性和准确性方面的优越性能。
心率和PPG信号的真实值与预测值比较:如图7所示,图6b对比了真实心率(红色)和预测心率(蓝色)随时间(秒)的变化情况。预测的心率紧密跟随真实值,波动很小,表明预测准确性高。两曲线的一致性显示了模型在估计心率方面的稳健性。图7b展示了真实PPG信号(红色)与预测PPG信号(蓝色)随时间的变化对比。预测的PPG信号准确地反映了真实值,验证了模型追踪PPG信号周期性模式的能力。这一对比突显了模型在预测生理信号方面的效果。
RGB-only与RGB-RF融合方法的心率结果比较:如图8所示,比较了两种方法的心率预测结果:仅RGB(黄色)和RGB-RF融合(蓝色),以及真实值(红色)随时间(秒)的变化。显然,RGB-RF融合模型(蓝色)的预测结果更接近真实值,波动较少且稳定性更强,相比之下,仅RGB预测(黄色)的表现较差。RGB-RF融合方法优于仅RGB方法,显示出其更高的准确度、稳定性和鲁棒性。融合模型提供了更为平滑和一致的心率估计。
V. CONCLUSION
在本文中,作者提出了CardiacMamba,一种结合RGB视频和射频(RF)传感器的心率估计多模态融合框架。CardiacMamba 通过时间差感知模块和卷积对齐模块实现了双层特征提取与对齐,增强了RGB和RF模态的动力学特征,并利用Mamba块提高特征表达能力。
基于双向状态空间模型,它执行跨模态协作建模,保留了每个模态的语义信息并增强全局上下文 Aware 。
此外,通道傅里叶变换自适应地增强心率相关的频率带,抑制噪声并重建时序特征,从而改善心率信号检测。
实验结果表明,该框架在多个性能指标上优于现有方法,有效减轻肤色偏见,提高深色皮肤样本的准确度,并即使在模态缺失的情况下仍然保持强大的适应性,显著提高了准确度、鲁棒性和公平性。
参考
[0]. CardiacMamba: A Multimodal RGB-RF Fusion Framework with State Space Models for Remote Physiological Measurement .
点击上方卡片,关注
「AI视界引擎」
公众号