双配置视觉 Transformer 在多模态中的突破 !

大模型数据库机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

本研究已提交至首届下一代疼痛评估多模态感知挑战赛(A1APAIN)。

所提出的多模态框架利用面部视频和功能性近红外光谱(fNIRS),并提出了一种模态无关的方法,无需特定领域的模型。

采用双重ViT配置,并采用波形表示fNIRS以及从两种模态提取的嵌入,证明了所提出方法的有效性,在多层次疼痛评估任务中达到了的准确率。

I Introduction

国际疼痛研究协会(IASP)将“疼痛”定义为“与实际或潜在的组织损伤相关的不愉快的感觉和情感体验,或以这种损伤来描述”[1],这标志着对定义的最新更新。疼痛显著影响个人和社会结构,所有年龄段的人因事故、疾病或医疗治疗而经历疼痛——使其成为医疗咨询的主要原因。急性疼痛和慢性疼痛带来临床、经济和社会难题。除了直接影响一个人的日常生活外,疼痛还与各种负面后果相关,如增加阿片类药物使用、物质滥用、成瘾、社交互动减少以及心理健康问题[2]。有效的疼痛评估对于早期诊断、疾病进展监测以及治疗效果的评价至关重要,特别是在管理慢性疼痛方面[3]。此外,在如肌筋膜治疗等疗法中调整疼痛强度也很关键,在这种治疗中,治疗师(如物理治疗师)从外部诱导疼痛,了解患者的疼痛水平至关重要[4]。疼痛评估对医疗专业行人来说至关重要但也具有挑战性[5],尤其是在处理无法用言语沟通的患者时。这一挑战在老年患者中进一步加剧,他们可能表达较少或不愿讨论自己的疼痛[6]。此外,全面的研究[7, 8, 9]强调不同性别和年龄组在疼痛表达上存在显著差异,增加了疼痛评估过程的复杂性。疼痛评估包括从被视为黄金标准的详细评分量表和问卷调查的自我报告方法,到观察行为指标如面部表情、发声和身体动作[10]。它还包括分析生理反应,如心电图和皮肤电导,这些反应提供了对疼痛物理表现的重要见解[3]。此外,功能性近红外光谱成像(fNIRS)是一种有前景的测量疼痛相关生理反应的方法。这种非侵入性神经成像技术通过追踪脑血流量和氧合变化来评估脑活动。具体来说,fNIRS同时记录氧合血红蛋白(HbO)和脱氧血红蛋白(HBR)在大脑皮层中的浓度变化,提供了对大脑功能的关键见解[11]。此外,fNIRS研究已经证明,有害刺激在健康和疾病受试者的多个大脑皮层区域引发氧合水平的变化[12]。

本研究介绍了一个模态无关的多模态框架,该框架利用视频和fNIRS。所提出的流水线基于双视觉 Transformer (ViT)配置,通过将输入解释为通过2D波形表示的统一图像,消除了对特定领域架构或每种模态的广泛特征工程的必要性。

II Related Work

近期的发展已经引入了多种创新方法,用于从视频数据中评估疼痛程度。[13]号文献中的作者开发了一个时间卷积网络(TCN),并使用了HSV色彩模型,他们认为这对于与人类视觉感知相关任务,比如皮肤像素检测和多脸检测,具有更多优势。[14]号文献中的作者将VGG-Face卷积神经网络与3层长短期记忆网络(LSTM)结合,从灰度图像中提取时空特征,并应用零相位分量分析进行增强。[15]号文献中则采用了主成分分析来降低维度。最后,在[16]号文献中,作者介绍了一种混合方法,结合视觉 Transformer 进行空间特征提取和标准 Transformer 进行时间分析,达到了高准确率。在疼痛研究领域,有几项研究将功能性近红外光谱(fNIRS)与机器学习方法结合使用,有效提取相关特征并评估疼痛状况。[17]号文献中,将词袋(BoW)方法与K近邻(K-NN)分类器结合,分析时间-频率特征,其效果优于单独分析时间或频率特征。相反,[18]号研究显示,将时间域和频率域特征与高斯支持向量机(SVM)结合,可以获得最佳结果,而Rojas等人[19]使用原始fNIRS与两层双向长短期记忆网络(BiLSTM),在多类分类任务中达到了90.60%的准确率。[20]号文献中的作者开发了一种卷积神经网络(CNN)和LSTM模型的混合架构,以捕获fNIRS中的时空特征,并实现了高绩效。关于多模态方法,Gkikas等人[21]引入了一种有效的基于 Transformer 的多模态框架,该框架利用面部视频和心率信号,证明了将行为和生理模态相结合可以增强疼痛估计性能。[22]号文献中,从电皮肤活动、呼吸频率和光电容积描记图中提取统计特征,并实施了联合互信息处理,以评估疼痛强度和定位疼痛起源。

III Methodology

本节将介绍所提出的多模态自动疼痛评估框架的处理流程,模型架构,预处理方法,预训练策略以及增强技术。

Framework Architecture

提出的框架名为_Twins-PainViT_,包括两个模型:_PainViT-1_和_PainViT-2_。这两个模型在架构和参数上是相同的,并且遵循相同的预训练过程,具体将在第三节D中详细介绍。_PainViT-1_接收相应的视频帧和可视化的功能性近红外光谱(fNIRS)通道,并作为嵌入提取器。_PainViT-2_获取嵌入的视觉表征并完成最终的疼痛评估。

Iii-A1 PainViT

视觉 Transformer (ViTs)[23]因其性能而成为计算机视觉任务中的新范式。然而,尽管这些基于 Transformer 的模型效果显著,它们在面对更大输入尺寸时却面临着扩展的挑战,导致计算成本大幅增加。这种低效主要源于多头自注意力机制中的逐元素操作。众多研究通过修改自注意力模块或整体模型结构来提高基于 Transformer 架构的效率和降低复杂性[24][25]。作者的方法基于[26]将分层架构引入视觉 Transformer ,以及[27]提出提高效率和速度的机制。

Iii-A2 PainViT-block

每个模块包含两个组件:_Token-Mixer_(标记混合器)和_Cascaded-Attention_(级联注意力)。其结构以_Cascaded-Attention_模块为核心,_Token-Mixer_模块位于其前后。对于每张输入图像,应用重叠的图像块嵌入,生成的图像块,每个块被投影为一个维度为的标记。

Token-Mixer :为了增强局部结构信息的融合,标记通过深度卷积层进行处理:

其中是标记在通道上的深度卷积输出。是专门针对通道的卷积核,是标记的第个通道,是加到通道的卷积输出上的偏置项。符号表示卷积操作。在深度卷积之后,对输出应用批量归一化:

其中是标记在通道上的批量归一化输出。和是特定于通道的可学习参数,用于缩放和平移归一化后的数据。是的批量均值,是的批量方差,是一个很小的常数,用于数值稳定性,避免除以零。接下来,前馈网络(FFN)使得不同特征通道之间的通信更为高效:

其中是输入的前馈网络输出。和是第一层和第二层线性层的权重矩阵;和分别是第一层和第二层的偏置项,ReLU是激活函数。

在关注机制方面,只有一个自注意力层。对于每个输入嵌入:

其中 是第 个 PainViT块 的完整输入嵌入。更具体地说,_级联注意力_ 模块采用了一种级联机制,将完整的输入嵌入划分为较小的段,每个段指向一个独特的注意力头。这种方法允许计算在各个头之间分配,通过避免处理过长的输入嵌入来提高效率。注意力描述如下:

其中每个 -th 注意力头计算 的自注意力, 代表完整输入嵌入 的第 段,结构为 ,其中 , 表示头的总数。投影层 、 和 将每个段输入嵌入映射到不同的子空间。最后, 是一个线性层,它将所有头连接的输出嵌入重新组合成一个与原始输入维度相匹配的嵌入。此外,级联架构增强了 、 和 层更丰富嵌入表示的学习。这是通过将每个头的输出添加到后续头的输入中实现的,从而在整个过程中积累信息。具体来说:

在这里, 表示第 个输入段 与来自第 个头的输出 的相加。这个求和替代了 ,作为第 个头在自注意力计算中的新输入嵌入。最后,需要注意的是,在每个注意力头的 上应用了深度卷积。这使得后续的自注意力过程能够捕捉全局表示和局部信息。

该框架由三个_PainViT块_组成,分别具有、和的深度层次。这种分层结构的特点是通过对每个阶段的分辨率进行的降采样,逐步减少标记的数量。相应地,该架构使得在各块中提取维度为的嵌入,具体为、和。此外,每个块内的多头自注意力机制分别采用、和个头。图1(a-d)展示了_PainViT_架构及其基本构建模块,而表1列出了参数数量以及以浮点运算(FLOPS)表示的计算成本。

picture.image

picture.image

Embedding extraction & Fusion

对于视频的每一帧,_PainViT-1_提取相应的嵌入向量。这些嵌入向量被聚合以形成视频的统一特征表示。同样地,对于fNIRS信号的每个通道,_PainViT-1_也提取嵌入向量,随后将这些向量聚合以创建fNIRS信号的表示。这个过程可以用以下方式描述:

其中和分别代表视频和fNIRS信号的对应嵌入表示。在提取嵌入向量之后,和被可视化成波形图。来自每种模态——视频和fNIRS——的波形被合并成一幅分辨率为的单一图像。这种统一的视觉表示被输入到_PainViT-2_中进行最终的疼痛评估。(图1e)展示了所提出的多模态处理流程的高级概述。

Pre-processing

预处理包括对视频对应帧进行人脸检测以及从原始功能性近红外光谱(fNIRS)生成波形图。本研究采用了MTCNN人脸检测器[28],利用一系列级联的卷积神经网络来预测人脸及面部标志点。检测到的人脸分辨率为像素。所有fNIRS通道都被用于生成波形图。波形图直观地表示了信号波随时间进展的形状和形式,展示了信号的振幅、频率和相位。这种方法提供了最简单、最直接的可视化信号方式,因为它无需进行任何变换或额外的计算,例如创建频谱图、连续波图或重现图。同样,从_PainViT-1_提取的嵌入向量也采用相同的方法进行可视化。尽管这些嵌入向量不是信号,但一维向量仍可以在二维空间中进行绘制,以便从深度学习视觉模型进行分析或利用。所有从fNIRS数据和嵌入向量生成的波形图都被格式化为像素分辨率的图像。图2展示了特定通道的fNIRS信号波形表示、从视频中提取的嵌入向量以及从特定通道的fNIRS样本中得到的嵌入向量。

Pre-training

在自动疼痛评估训练过程之前,采用了多任务学习策略对_Twins-PainViT_模型进行了预训练。使用了四个数据集,这些数据集包含了用于情感评估任务的图像。_AffectNet_[29]和_RA-DB basic_[30]数据集提供了用于识别基本情绪的面部图像,而_Compound FEE-DB_[31]和_RA-DB compound_[30]数据集则用于识别复杂情绪。此外,还使用了五个包含生物信号的数据集。_EEG-BST-SZ_[32]包含用于识别精神分裂症的脑电图,_Silent-EMG_[33]包含用于确定肌电图(EMG)起源位置的肌电图,例如喉咙和中颚。此外,_BioVid_[34]数据集中的心电图、肌电图和皮肤电反应样本被用于疼痛评估任务。所有生物信号均以波形表示的形式使用,如III-C中所述。多任务学习过程描述如下:

表1:所提出_Twins-PainViT_各组件的参数数量和FLOPS。

其中与对应不同数据集的每个特定任务的损失相关,表示在学习过程中习得的权重,这些权重指导学习过程以最小化总体损失,同时考虑到所有个体损失。表2详细列出了预训练过程中使用的数据集。

picture.image

Augmentation Methods & Regularization

在训练所提出框架的过程中,采用了多种增强方法。在预训练过程中,使用了_RandAugment_[35]和_TrivialAugment_[36]。此外,还采用了来自均匀分布的辅助噪声,并配合_MaskOut_,这是一种自定义实现的技巧,用于 Mask 输入图像的随机方形区域。对于自动疼痛评估任务,除了_RandAugment_、_TrivialAugment_和_MaskOut_这些增强方法外,还采用了_AugMix_[37]。此外,_Label Smoothing_[38]和_DropOut_[39]被用作正则化技术。

IV Experimental Evaluation & Results

本研究使用了由主办方提供的资料集[22, 40],其中包括来自65名参与者的面部视频和功能性近红外光谱(fNIRS)数据。该资料集在澳大利亚堪培拉大学的 人机界面实验室记录了41个训练样本、12个验证样本和12个测试样本。经皮电神经刺激电极,作为疼痛刺激源,被放置在参与者内侧前臂和右手背部。疼痛阈值被定义为刺激变得疼痛的最低强度(轻度疼痛),而疼痛耐受度定义为一个人能够忍受的最高疼痛强度,在该强度以上疼痛变得无法忍受(重度疼痛)。对于fNIRS,每个视频利用了24个通道来测量HbO和HbR,并使用了所有30帧的视频资料。本研究呈现的结果集中在资料集的验证部分,并采用多级分类设置(无疼痛、轻度疼痛和重度疼痛)。表3概述了自动疼痛评估的训练框架细节。作者注意到,在每种模态及其融合上进行了众多实验,但后续章节和相应表格中仅呈现了最成功的结果。

picture.image

Facial Videos

在面部视频的背景下,作者采用了两种融合嵌入技术:_加法_ 方法将30个嵌入向量聚合为一个维度为的单个融合向量,以及_拼接_ 方法将这些嵌入向量组合成一个维度为的向量。使用_加法_ 方法,在多类分类任务中,作者观察到初始准确度为,该任务采用了增强和正则化水平(_AugMix_、_Rand_、_Trivial_的值为,_MaskOut_的值为,_DropOut_的值为)。将增强强度提升至,并将_MaskOut_提升至,准确度提高到了。应用_MaskOut_设置为,并将_DropOut_从提升至,准确度达到了。将_DropOut_提升至,并将_AugMix_、_Rand_和_Trivial_提升至,准确度进一步改善至。表4展示了这些结果。采用_拼接_ 方法,在统一增强概率为的初始设置下,_AugMix_、_Rand_、_Trivial_以及_MaskOut_的和_Ls_的、_DropOut_的,准确度为。将_MaskOut_提升至,同时保持其他增强为,准确度提升到。在所有增强设置为的情况下,除了将_MaskOut_调整为,以及高正则化(_LS_,_DropOut_)之外,获得了最高的准确度。相应的结果总结在表5中。

picture.image

picture.image

fNIRS

类似于面部视频,作者采用了加法和拼接方法。从原始的24个通道开始

由于故障被排除。对于HbR和_加法_方法,开始时的准确率为39.35%,_AugMix_、_Rand_、_Trivial_的增强概率设置为0.5,_MaskOut_设置为0.6|5。将_MaskOut_调整至0.7|3并增加_LS_,准确率略有下降,而进一步调整_LS_和_DropOut_后,准确率提升至41.20%(见表6)。在HbR和_拼接_方法中,初始增强设置_MaskOut_为0.7|3时,准确率达到40.97%。将所有增强概率提升至0.9同时保持_MaskOut_为0.7|3,准确率峰值达到42.13%(见表7)。对于HbO和_加法_方法,以0.3的统一增强概率和_MaskOut_为0.3|3开始时,准确率为43.06%。将_MaskOut_提升至0.7|3,并对 LS 和_DropOut_进行轻微调整,保持了相似的准确率,而将_MaskOut_优化至0.8|3,性能提升至44.68%(见表8)。在HbO和_拼接_方法中,以0.1概率的增强方法开始时准确率为42.13%。在平衡增强为0.9和_MaskOut_为0.7|3时,达到最高准确率44.44%,表明增加整体应用增强并结合高正则化是有效的。后续调整略微降低了准确率,强调了优化增强设置的重要性(见表9)。总体而言,与HbR相比,HbO的性能有所提高,这也是其他研究[41]中注意到的,因为其信噪比更高。采用_加法_方法的HbR和HbO组合最初显示的准确率为42.82%,除了_MaskOut_设置为0.7|3外,所有增强概率均为零。将_AugMix_、_Rand_和_Trivial_提升至0.5,同时将_MaskOut_提升至0.7|7,准确率略有提高至43.29%。保持增强不变,将_MaskOut_调整回0.7|3并轻微增加_LS_,准确率略有下降至42.59%。然而,进一步将所有增强概率提升至0.9和_LS_至0.3,同时保持_MaskOut_为0.7|3,准确率最大化至43.75%。在最终配置中,将_DropOut_降至0.1,准确率略有下降至43.06%,这强调了在实现最佳结果时,优化正则化与增强策略同样重要(见表10)。

picture.image

picture.image

picture.image

picture.image

Fusion

在本节中,作者描述了面部视频与近红外光谱成像(fNIRS)的融合。由于HbO(氧合血红蛋白)在实验中表现出优于HbR(还原血红蛋白)的性能,因此仅采用HbO进行实验。作者开发了两种数据融合方法:之前描述的_Addition_方法,它将视频帧和fNIRS通道的嵌入向量进行汇总然后合并;以及_Single-Diagram_方法,两种模态汇总的嵌入向量在同一图像中同时可视化。对于_Addition_方法,在中等增强水平(_AugMix_、_Rand_、_Trivial_的和_MaskOut_的)的初始配置下,准确率达到了。将增强水平提高到并调整正则化参数(_LS_最高到,_DropOut_最高到),准确率有所提高,最高达到(见表11)。对于_Single Diagram_方法,如表12所示,准确率也有所提高。从较低的_MaskOut_水平和标准的增强概率()开始,准确率为。将增强概率提高到,并将_MaskOut_调整到,显著提高了性能,最高达到了。

picture.image

picture.image

V Interpretation & Comparison

在框架解释方面,从处理了统一图像的_PainViT-2_的最后层生成了注意力图,该统一图像同时展示了视频和HbO嵌入波形。这一层包含个神经元,每个神经元都对输入有独特的贡献和关注点。图3展示了四个示例,其中某些神经元关注视频嵌入波形,其他神经元关注HbO波形,还有一些同时关注两种波形,强调不同的部分和细节。表14比较了所 Proposal 的 Pipeline 与挑战组织者提供的 Baseline 结果。采用_Addition_方法基于视频的方法比 Baseline 提高了。使用HbO和_Addition_方法,提升较少,为。最后,使用_Single Diagram_方法的模态融合带来了更显著的提升,达到。

picture.image

picture.image

VI Conclusion

本研究概述了作者为下一代疼痛评估的首个多模态感知大赛(AI4PAIN)所做的贡献,采用了面部视频和近红外光谱成像(fNIRS),通过一种模态无关的方法。

作者引入了 Twins-PainViT框架,这是一个基于双配置视觉 Transformer 并在多任务学习环境下,在大量数据集上预训练的框架。此外,所提出 Pipeline 的一个基本组成部分是波形表示,它被应用于原始fNIRS数据以及从两种模态学到的嵌入。

这种提取嵌入并将它们有效且高效地整合到单一图像图中的方法,实际上消除了对每个模态都需要专用领域特定模型的需求。进行的实验展示了在单模态和多模态设置下的高性能,超过了提供的 Baseline 结果。

另外,通过为图像图创建注意力映射来解释_Pain-ViT-2_,结果表明特定神经元针对特定的模态或它们的不同方面,这表明在分析过程中有整体性的考量。

作者建议未来的研究采用多模态方法,这已被证明是评估现实世界疼痛的最有效方法。

同时,开发用于解释数据的方法也至关重要,特别是为了将这些框架整合到临床实践中。

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论