点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
三维(3D)医学图像的高效评估对于医疗保健领域中的诊断和治疗实践至关重要。近年来,深度学习和计算机视觉在分析和解释医学图像方面的应用显著增加。传统方法,如卷积神经网络(CNNs)和视觉 Transformer (ViTs),面临巨大的计算挑战,因此需要架构上的改进。
近期的研究努力已经引入了新型架构,例如“Mamba”模型,作为传统CNNs或ViTs的替代方案。Mamba模型在低计算需求下高效处理一维数据。
然而,Mamba在3D医学图像分析方面的潜力尚未充分探索,并且随着维度增加可能会面临显著的计算挑战。本论文介绍了MobileViM,这是一种用于高效分割3D医学图像的精简架构。在Mobile ViM网络中,作者创新了一种维度无关机制和双向遍历方法,以结合基于视觉Mamba框架。Mobile ViM还包含一种跨尺度桥梁技术,以提高各种医学影像模态下的效率和准确性。
通过这些改进,MobileViM在单个图形处理单元(例如,NVIDIA RTX 4090)上实现了超过每秒90帧(FPS)的分割速度。此性能比使用相同计算资源处理3D图像的现有最先进的深度学习模型快约24 FPS。
此外,实验评估表明,Mobile ViM在PENGWIN、BraTS2024、ATLAS和Toothfairy2数据集上的表现优越,Dice相似度分数分别达到92.72%、86.69%、80.46%和77.43%,远超现有模型。
unsetunset1. Introductionunsetunset
医学诊断中早期检测的重要性不言而喻,尤其是对于诸如癌前病变、肝细胞癌(Quinton等,2023)、脑肿瘤(LaBella等,2024)和骨盆骨折(Liu等,2023b)等疾病。这些疾病的病理在大小、形态和密度方面往往表现出多样性,这给检测带来了显著挑战,而准确的检测对于改善患者预后至关重要。例如,在进行颌面外科手术如种植牙植入和智齿拔除时,准确识别下颌支管对防止损伤下颌神经至关重要(Lumetti等,2024)。
此外,这些病理区域的形态学评估准确性对于评估疾病风险和进展至关重要(Quinton等,2023;Liu等,2023b;Labella等,2024;Lumetti等,2024)。
深度学习的进步彻底革新了医学影像分析领域,使诊断准确率达到了与人类专家相当的水平。然而,不同影像设备和患者之间的数据多样性带来了显著挑战。像UNet(Ronneberger等,2015)及其演变版本
(Zhou等,2019)和SwinUNETR-V2(He等,2023)这样的编码器-解码器架构,在图像分割方面展示了增强的能力,这对于精确的医学分析至关重要。尽管取得了这些进步,但对于能够实时高效运行以支持临床实践的模型的需求依然迫切(Liu等,2023a;Dai等,2024a)。
轻量级深度学习模型,针对速度和效率进行了优化,在计算资源受限的临床环境中得到了越来越广泛的应用(Dai等,2024a)。近期在网络压缩(Vasu等,2023;Zhang和Chung,2024)及神经网络架构设计方面的创新(Chen等,2017;Howard等,2019;Mehta和Rastegari,2021;Dai等,2024a)提高了这些模型的计算效率,使其能够在性能较弱的设备上部署,比如临床工作站和移动设备。尽管这些模型在一般的物体识别任务中取得了成功,但它们在三维医学图像分析中的潜力尚未得到充分研究。
本文介绍了MobileViM架构,该架构专门针对各种模态下的3D医疗图像分割复杂性进行了优化,以实现更高的效率和精度。作者的主要贡献包括:
MobileViM 的发展:作者提出了 MobileViM,这是一种基于 visionMamba 框架的新型轻量级架构。MobileViM 利用了一种维度无关机制、双向遍历技术以及尺度桥梁方法,能够在不到 650 万参数的情况下以超过每秒 90 帧(FPS)的速度有效处理 3D 医学图像,从而为临床应用设立了新的基准。
高效的3D数据处理:该机制通过将3D数据转换为更易管理的1D格式,减少了参数数量达1100万,并使MobileViM在单块图形处理器上的运行速度提升了至70 FPS。
双向信息 Stream :双方向遍历方法通过在两个方向上扫描信息流来增强特征学习,仅增加不到0.02百万个参数的情况下显著提高了性能。
多级特征提取:通过结合Mamba和卷积策略,MobileViM 利用局部层次结构和跨Patch关系,促进对医学图像的高效分析。
多尺度特征学习:通过利用高分辨率的早期阶段特征来弥补压缩伪影,该方法增强了Mobile ViM在多个尺度上学习特征的能力。
跨数据集验证:MobileViM 在四个公开数据集(PENGWIN、BraTS2024、ATLAS 和 ToothFairy2)上进行了评估,并在多种影像模态的分割任务中展示了优越的表现,Dice 相似度评分超过 75%。
unsetunset2. Related Workunsetunset
2.1. Medical Image Segmentation
语义分割在分析医学图像时至关重要,它能够区分不同的组织结构,并提供细微的洞察。先进的深度学习技术已经显示出显著的成功,经常能够达到甚至超越专家 Level 的精度(Dai等人,
;Ronneberger等人,2015;Shaker等人,2024;Isensee等人,2021;Dai等人,2024d)。由Long等人首次建立的编码解码架构是这一领域的一个基石,它包括一个用于提取特征的编码器和一个用于生成 Mask 的解码器。
Ronneberger等人(2015年)提出了UNet架构,该架构专门针对医学成像,采用了U形配置。周等人(2019年)在此基础上引入了
,增强了多尺度特征融合的能力;
而伊森希等(2021年)修改了UNet,使其能够兼容2D和3D成像场景,并开发了nnUNet。何等人(2023年)结合Swin Transformer开发了SwinUNETR-V2,旨在进行多器官CT和MRI分析。
舍克等人(2024年)开发了
,通过集成注意力机制提高了空间特征提取的效果。陈等人(2024年)提出了TransUNet,该模型结合了视觉 Transformer 和卷积神经网络,以便更好地捕捉图像中的长程依赖关系并细化预测区域。尽管这些模型取得了显著成功,但它们相对较大的规模和较高的计算需求往往限制了其在实时医疗应用中的使用。
2.2. State Space Model
结构化状态空间模型(SSMs)解决了transformer在处理长序列时计算效率低的问题。Gu等人开发的结构化状态空间序列(S4)模型(Gu等,2022)提供了一种传统transformer的可行替代方案,展示了与序列长度线性或近线性的扩展特性。然而,传统的S4模型在捕捉诸如文本和图像等信息密集型数据中的上下文细微差别方面仍然存在问题(Gu等,2022)。为克服这些局限性,Gu等人(Gu和Dao,2024)通过引入先进的选择机制和递归扫描策略,即Mamba模型,改进了S4模型。Mamba模型更有效地将序列长度信息整合到SSMs中,从而提升了基于内容的推理能力。Dao等人(Dao和Gu,2024)进一步推出了Mamba2模型,这是一种对原版Mamba模型的改进,通过半分离矩阵变换整合了各种注意力机制,并引入了并行训练框架以提高效率。
在视觉任务中,朱等人(朱等,2024)将2D图像转换为适合SSM的1D处理格式,并适应了Mamba模型进行双向处理,从而提升了图像分类和分割性能,并且相较于ViTs,在计算成本上有所降低。
此外,刘等人(刘等,2024b)通过在2D图像上应用四种不同的路径进行栅格扫描,增强了标准SSM,并开发了VMamba,解决了SSM只能处理1D数据的局限性。朱等人(朱等,2025)进一步改进了VMamba,通过引入上下文簇来学习局部特征。此外,阮等人(阮和向,2024)通过融入Mamba模块改进了UNet架构,创建了VMUNet,提供了更广泛的数据建模能力。另外,邢等人(邢等,2024)将Mamba块嵌入到UNet的编码器部分,称为SegMamba,专门用于处理3D结直肠癌成像中的 Voxel 特征。此外,刘等人(刘等,2024a)研究了使用预训练的ImageNet权重以提升医学图像分割性能的优势。尽管这些进展取得了显著成果,但在测试阶段仍存在一个普遍忽视的问题,即计算成本问题,这对实时疾病诊断至关重要。
2.3. Light-weight Neural Networks
2.3.1. Network Compression
网络压缩结合了在训练过程中或训练完成后施加结构约束的策略,以减少网络中的冗余。技术包括直接在训练过程中进行压缩(Zhang 和 Chung, 2024)或在学习完成后应用压缩(Vasu 等人, 2023)。网络压缩中一个值得注意的方法是知识蒸馏,该方法在训练过程中将较大的“教师”网络的特征转移到较小的“学生”网络。虽然知识蒸馏可以减少推理时所需的参数量,但它引入了管理和训练两个独立网络的计算负担(Zhang 和 Chung, 2024)。另一种用于网络压缩的方法是网络重构参数化,该方法使用可适应模块进行训练,并部署简化版本进行推理。与知识蒸馏类似,由于涉及模块的可调性,网络重构参数化增加了训练复杂度(Vasu 等人, 2023)。
2.3.2. Neural Architecture Design
设计移动友好的架构比单纯的网络压缩提供更多灵活性。在开发轻量级CNN时,关键策略之一是使用深度可分离卷积,通过将标准卷积替换为深度卷积和点卷积层来大幅降低计算成本,同时保持性能(Howard等,2019;Mehta和Rastegari,2021;Dai等,2024a)。另一种强大的方法是使用扩张卷积,尤其是在与空洞空间金字塔池化(ASPP)结合使用时(Chen等,2017),后者利用扩张卷积来捕捉不同尺度的空间特征,从而提高分割边界的定义能力。
针对适配移动环境的ViT,MobileViT架构被开发出来,该架构通过在混合块中结合卷积层和transformer组件来解决图像分割引起的延迟问题,并保持归纳偏置(Mehta和Rastegari,2021;Dai等,2024a)。Lee等人(Lee等,2023)在其3DUX-Net中整合了大型 Kernel 和深度可分离CNN与swin transformer块,减少了标准化和激活层的数量,从而最小化了模型的参数数量。
在高效Mamba架构领域,Pei等(Pei et al., 2024)开发了一种基于空洞的扫描方法以优化Patch采样并降低视觉Mamba的复杂性。Yao等(Yao et al., 2024)致力于增强内容感知表示,并通过集成SVMs来减少高光谱成像中的光谱变化性和混淆,从而编码语义关系。此外,对Mamba内的状态方差进行了量化,将状态缓存存储为低比特元素进行低秩逼近(Anonymous, 2024)。另外,Lee等(Lee et al., 2024)简化了Mamba中隐藏状态的序列长度以降低计算成本。
尽管这些移动架构在性能上可与传统网络相媲美,但在医学图像分析领域,尤其是3D成像方面,其潜力尚未得到充分探讨。作者提出了一种轻量级视觉Mamba架构,该架构集成了维度无关机制、双向处理技术和尺度桥梁,能够进行3D医学图像分割任务,并克服现有领域的限制。
unsetunset3. Methodologyunsetunset
3.1. Overall Framework
本节介绍了移动视觉Mamba(MobileViM)网络,如图1所示。该网络主要包括两个主要部分:MobileMamba块和尺度桥接器。
MobileMamba 块:如图1 中绿色虚线框所示,MobileMamba 块被结构化为全局通信和局部连接的区域。该块集成了维度无关 (Dimin) 机制,旨在捕捉更广泛的空间层次结构,对于高级上下文特征学习至关重要。Dimin Mamba 使用一种维度无关机制分别处理三维数据的每个维度,从而显著提升了计算效率。此外,MobileMamba 块采用双向信息 Stream 机制来处理前后方向堆叠的 patches,这被称为双方向 Mamba。patch 的双向遍历确保了空间信息的全面整合,增强了块在特征提取方面的能力。
在Mamba模块之前,使用相对较小的卷积核大小(
或
)的深度可分离卷积(深度卷积和点卷积)被应用于学习 Voxel 的局部连接。在Mamba模块之后,特征拼接和相加被采用,以提高从卷积输出或Mambas输出中获得的局部和全局特征的融合。
尺度桥梁模块:该组件包含特征图内部的一系列步幅卷积,如图1中的橙色箭头所示。它有助于在整个学习过程中追踪特征演变,指导网络后续阶段的进展。
其他组件:架构以编码器启动,如图1的第一行块所示。它以一个
开始,随后是四个MobileMamba块和三个DWConv ↓ 2。这种设置通过使用较少的步进卷积来优化传统的编码器——总共只有四个——从而实现更紧凑的模型大小和更快的推理速度。在架构中,每个“ Bottleneck ”模块整合了一系列卷积:从一个
卷积开始,接着是一个
卷积来压缩特征空间,然后再用一个
卷积进行特征精炼。“DwConv”,即深度卷积,贯穿整个网络以减少计算量同时保持稳健的特征提取能力。
在本研究中,模型被缩放为两种规模以满足不同的计算和性能要求:“超小”和“小”。每个尺度,详见表1,均包含特定的架构调整,有效平衡了模型大小与期望的性能目标之间的关系。
3.2. State Space Model Foundations
结构化的状态空间序列(S4)模型是一种专门的状态空间模型(SSM)的子集,设计用于通过隐状态
将一维序列
映射到
,以模拟连续系统。S4模型由四个参数定义:时间尺度参数
、演化参数
以及投影参数
和
,这些参数定义了序列到序列的转换(Gu等人,2022)。连续系统的输出
被定义为:
其中 ( M ) 是状态扩展因子,(\boldsymbol{A} \in \mathbb{R}^{(M,M)}),( B, C \in \mathbb{R}^{(M,1)} )。S4 模型离散化连续参数 (\pmb{A}) 和 (\pmb{B}),并通过时间步长 (\Delta) 和零阶保持方法转换为离散参数 (\overline{A}) 和 (\overline{B})。
其中
表示单位矩阵。
使用式(1)和式(2),离散系统可以表示为:
最后,S4模型通过全局卷积计算结果:
其中,
是一个结构化的卷积 Kernel ,
表示卷积操作。
是 Kernel 大小,
表示输入序列的长度。
Mamba 扩展了 S4 模型,通过根据参数调整张量形状,从而能够从文本或图像中学习长距离特征 (Dao 和 Gu, 2024)。如果参数
随时间变化,S4 模型可以有选择地在每个时间步关注或忽略输入。然后可以增强并表示 Eq. (3) 如下:
其中,
,
,且
。
3.3. Dimension-independent Mechanism
在作者的研究中,作者将Mamba模型的应用范围从最初的1D序列数据扩展到了更高的维度数据,特别是图像。为了实现这一点,作者重新格式化了输入数据,将其表示为张量
,转换成了一个二维 Patch 的系列
。其中,
表示通道数,而元组
则指定了输入张量的尺寸。
变量
表示总的 Patch 数量,并且同时作为输入的长度,而
表示 Patch 的尺寸。
为了减少计算需求并提高效率,作者提出一个问题:是否可以在不丢失信息的情况下“线性化”数据维度?以往的研究探讨了沿维度分离特征图的方法,并使用注意力图作为 Short-Cut 连接以重新加权主流程中的特征(Hou等,2021)。然而,直接分离主流程特征图的维度可能会导致丢失对于有效特征学习必要的信息。
为了应对这一挑战,作者采用了一种简单而有效的矩阵乘法方法,该方法使用了Mamba输出的单维度Patch进行分解。在测试的3D图像数据集中,高度和宽度维度是一致的,但深度维度有所不同。因此,矩阵乘法分别应用于高度和宽度维度,以及深度维度。通过这种方式,不同的维度信息融合确保每个 Voxel 可以从三个维度获取信息,并重新整合这些独立的维度。作者将这种方法称为维度无关(Dim-in)机制。Dim-in可以被视为一种语境学习操作,显著增强了 Voxel 之间的全局通信能力。如第4.3节中详述的消融研究所示,Dim-in机制可以在减少计算量的情况下提高模型性能。Dim-in机制在图1中进行了说明,并在图2中详细描述。
Mamba模块中的SSM和ViT中的Self-Attention机制对于自适应地提供全局上下文至关重要。考虑由
表示的视觉序列,Self-Attention机制和SSM的计算复杂度差异显著:
自注意力的计算复杂度随序列长度 ( N ) 呈平方增长。
与之相对,SSM的复杂性随着序列长度
线性增长。
其中,
是一个常量的状态大小参数,通常设置为 16。
表示输入序列的大小。
借助于维度无关机制,通过将序列长度调整为 (N) 的立方根,Dimin框架的计算复杂度可以显著减少。假设维度 (D)、(H) 和 (W) 相等,计算复杂度可以表示为:
Dimin框架降低计算复杂度对于有效管理涉及 gigapixel 图像和长序列的应用至关重要。
3.4. Dual-direction Information Flow
受 Mamba2 块(Dao 和 Gu, 2024)基础概念和双向序列混合器(Hwang 等, 2024)的启发,作者提出了一种针对视觉处理任务的先进双向 Mamba 块。这一新模块在图1 的蓝色框中示出,并在图3 中详细描述,其算法实现见算法 1。双向视觉 Mamba 块利用
个块来处理 Patch,并学习 Patch 之间的表示以提升其分析能力。
参数
使用区间
上的连续均匀分布进行初始化。每个输入 Patch
在被分成两条路径
和
之前先进行归一化处理,每条路径的通道数都扩展了两倍。
双向扫描是指在长度维度N的两个相反方向——前向和后向——分析
路径的过程。这会产生两个向量:
向前和向后。每个方向上的输出
(其中
可以是“向前”或“向后”)被投影到各自的矩阵
、
和
中。然后使用
中的值对参数
和
进行离散化,分别转换为
和
。
经过SSM递归处理后的输出
随后由与
相关的门控函数进行控制。门控操作之后,输出会被规范化并聚合,以生成增强的PATCH
。SSM状态扩展因子
的默认设置配置为16。
这种双向方法增强了数据分析的深度,并显著提升了模型在处理和解释双向语境中的复杂视觉信息时的精度。
3.5.Mobile Vision Mamba
为了在保持相对较低计算需求的同时提高局部和上下文表示学习能力,作者通过应用Dimin机制(第3.3节)、双向Mamba(第3.4节)以及卷积技术开发了MobileMamba模块,并将其可视化为图1中的绿色框。MobileMamba模块结合了深度可分离卷积,随后是使用Dimin机制进行的双向Mamba操作,最后以后续的卷积层收尾。该配置包括Dimin Mamba框架内的I个双向Mamba块。
MobileMamba块通过交替使用堆叠和非堆叠特征图,弥合了常规卷积技术和新颖的Mamba方法之间的操作差异。这种方法缓解了Mamba块固有的局限性,如缺乏内在偏置以及对大量训练数据的高度依赖(Gu 和 Dao, 2024)。
在MobileMamba模块中,卷积操作被精心优化以从医学图像中提取精确的局部特征,包括但不限于角度、角落、边缘和颜色变化。如图4a所示,这一过程确保了在处理全局信息之前分析局部特征。随后,Dimin Mamba框架专门设计用于整合更广泛的属性,包括形态学特征、强度变化、医学实体的整体颜色分布及其空间关系,如图4b所示。Dimin Mamba模块捕获编码图像块之间的远程空间依赖关系。这种做法的有效性由表4中消融研究的结果支持,结果显示Dimin Mamba模块显著增强了MobileViM模型的分割能力。
3.6. Scale Bridger
神经网络在处理医学图像时,其性能往往会随着特征图形状的压缩而下降,主要归因于压缩伪影的引入(Dai等,2024b)。为了应对这一挑战,作者的研究引入了一个尺度桥梁模块,该模块利用了网络早期阶段更高分辨率的特征。假设
表示目标编码阶段,则在此阶段的输出
通过以下公式计算得出:
其中,
表示编码阶段
的输入张量,而
则表示从阶段
到阶段
之间的卷积步幅次数;函数
表示应用了
组卷积步幅操作,以实现不同尺度特征的集成。
如图1中的橙色箭头所示,该跨尺度集成方法(由方程(9)描述),在网络的各个阶段中起着关键作用,能够提升模型保留高分辨率信息的能力。这种方法减轻了由于压缩而导致的细节损失,并提高了模型在医学图像分析中的整体准确性。
3.7. Loss Function
为了评估预测分割 Mask 与医学图像分割任务中的Ground Truth之间的准确性,作者使用了交叉熵损失和Dice损失,这两种损失在 Voxel Level 分类中效果良好。如Milletari等人(2016)所述,在医学影像研究中已经充分证明了这两种损失结合的有效性。
交叉熵损失用于评估预测概率与实际标签之间的差异,其定义如下:
其中,
表示输入图像的总数,
表示类别的数量,
是类别成员性的二进制指示器,而
是第
个 Voxel 属于第
个类别的预测概率。
Dice损失旨在量化预测分割与实际分割之间的相似度,其数学表达式为:
为了计算总分割损失,作者将Dice损失和交叉熵损失相加:
unsetunset4. Experimental Resultsunsetunset
4.1. Evaluation Protocol
4.1.1. Dataset
在本研究中,作者评估了MobileViMs的有效性,并使用四个基准数据集与七种其他领先模型进行了比较:PENGWIN(Liu等,2023b)、BraTS2024(LaBella等,2024)、ATLAS(Quinton等,2023)和ToothFairy2(Lumetti等,2024)。
PENGWIN 数据集:该数据集包含100例骨盆计算机断层扫描(CT)图像,突出了骶骨和髋骨碎片的特征,有助于对骨盆结构进行详细分析。
BraTS2024 数据集:包含500张增强MRI脑部扫描图像,这是 BraTS2024 挑战赛中的第三项任务,专门用于自动分割脑膜瘤的大体肿瘤体积,提供了丰富的脑肿瘤分析数据。
ATLAS 数据集:该数据集包含90例T1对比增强磁共振成像(CE-MRI)扫描,主要针对肝脏肿瘤。它为评估器官特异性肿瘤检测和分割能力提供了基础。
ToothFairy2 数据集:该数据集包含480个锥形束计算机断层扫描(CB-CT)图像,分为43个不同的类别,代表各种解剖特征和牙齿结构,包括颌骨、上颌窦、咽部以及牙桥、牙冠和种植体等修复物。
为了进行详尽且严格的评估,所有数据集均按4:1的比例划分为训练和测试子集。这种设置确保了作者的模型在不同的医学成像模态和解剖学挑战下性能的准确衡量。
4.1.2. Implementation Details
本研究使用了AMD Ryzen 9 7950X处理器和NVIDIA RTX 4090图形卡进行实验。作者使用Dice和交叉熵损失函数训练分割模型,并使用AdamW优化器(Loshchilov和Hutter, 2017)进行优化。模型采用mini-batch大小为四的数据进行训练。为了增强模型的稳健性,作者采用了多种数据增强技术,包括采前景和背景块以及应用随机变换(旋转和平移)。初始学习率设为
,在接下来的100个周期中按照余弦退火调度逐渐衰减至
(Loshchilov, Ilya和Hutter, Frank, 2016)。为了确保可靠性,结果是在三个独立的训练和测试循环中进行了平均计算。所有模型都在这些标准化条件下进行了评估。对于对照组中的模型,未指定的配置遵循其各自的官方实现。实验代码是在PyTorch(Paszke等, 2019)框架下实现的。
4.1.3. Evaluation Metric
为了全面评估研究模型在语义分割上的性能,作者采用了多种指标。通过参数数量(#Params,以百万计),作者衡量了每个模型的复杂度。此外,作者使用乘累加操作(MACs,以十亿计)来量化每个模型的计算需求,并通过每秒帧数(FPS)来评估其实用性。为了精确评估 Voxel Level 的准确性,作者利用平均Dice相似系数(Dice),这对于评估医学影像中的分割精度至关重要。同时,作者还使用均方根误差(RMSE)来评估预测体积与Ground Truth之间的差异。这些指标共同构成了一个详细的评价框架,能够跨不同成像应用测量分割的准确性和有效性。
4.2. Results for Medical Image Segmentation
为了评估Mobile ViMs在处理三维数据方面的有效性,作者使用PENGWIN、BraTS2024、ATLAS和ToothFairy2数据集与七个最先进的(SOTA)网络进行了对比研究。这一研究的结果如图5所示,并详细列于表2中。从分析的角度出发,根据模型参数量将这些模型分为三类:“小型”用于参数少于700万的模型,“中型”用于参数在700万至3500万之间的模型,“大型”用于参数超过3500万的模型。
如图5所示,MobileViMs位于左上区域,相较于其他SOTA模型,它在参数量相对较少的情况下表现出更优的性能。例如,MobileViM-s仅使用了6.29百万参数和195.56亿MACs,但在BraTS2024和ATLAS数据集上的Dice分数分别达到了86.69%和80.46%。此外,MobileViM-s在PENGWIN和ToothFairy2数据集上的Dice分数也分别达到了92.72%和77.43%,位列第二。进一步分析显示,MobileViM-s在四个数据集上的Dice分数均超过了SegMamba,分别高出1.83%、7.03%、3.33%和0.99%。
尽管 nnUNet 和
在 PENGWIN 和 ToothFairy2 数据集中分别获得了最高的Dice分数,分别为93.05%和79.30%,但它们的表现受限于较低的帧率(<25 FPS)和较高的参数量(>31百万),这反映了显著的资源消耗。根据表2,MobileViMs 的推理速度超过90 FPS,比其他SOTA模型快20 FPS以上。鉴于其高速度,MobileViMs 适用于涉及3D医学影像的临床诊断,例如CT和MRI扫描。相比之下,像
、Segmamba、3DUXNet、SwinUNETR-V2和nnUNet等模型在识别3D图像时消耗超过790亿MACs,并且操作速度低于25 FPS,如图5中的黄色或红色区域所示。
此外,最小的模型Mobile ViM_xs仅包含289万个参数,在BraTS2024脑肿瘤数据集上取得了第二高的Dice分数86.18%,在ATLAS肝脏癌症数据集上的Dice分数为79.65%,并且具有94 FPS的快速推理速度。上述结果强调了MobileViMs在处理和诊断不同医学领域3D医学图像方面的有效性与适应性。
进一步分析见表2,显示MobileViM-s在ATLAS数据集中达到了最低的RMSE值为
,在BraTS2024数据集中则为第三低的RMSE值
。在PENGWIN和ToothFairy2数据集中,MobileViM-s分别获得了竞争力的RMSE值
和2.05,仅比这些数据集中表现最佳的模型高出约15%。此外,最小的模型MobileViM_xs在PENGWIN、BraTS2024、ATLAS和ToothFairy2数据集中的RMSE值分别为
、
、
和2.07。这些结果突显了Mobile ViMs在3D医学图像中标注感兴趣区域方面具有显著低误差率的能力。
为了进一步分析模型在数据集中不同类别的性能,作者重点关注了PWENGWIN数据集的结果。如表3所示,MobileViM_s 在特定解剖区域的表现优于其他SOTA方法,左髂骨的Dice得分为92.15%,右髂骨的Dice得分为92.18%。此外,Mobile ViM_s 在识别骶骨时记录的Dice得分为86.76%,比UNet++取得的最佳结果低了6.80%。而且,在区分盆骨骨折CT扫描中的背景时,所有评估的方法都一致地获得了超过99.70%的Dice得分。
为了可视化Dice分数分布,作者绘制了前三个类别的小提琴图——左侧髋骨、右侧髋骨和骶骨的小提琴图,并在图6中展示。虽然
在骶骨类别的最高中位数附近表现出紧致的聚类,但在左侧和右侧髋骨类别中表现出较宽的分布且中位数相对较低,这表明这些模型在三个类别中的性能存在不平衡且不稳定的现象。如图6所示,3DUX-Net、SwinUNETR-V2和TransUNet的小提琴图基部较宽,表明分割性能的变化较大。这种变化表明这些模型可能不一致地提供准确的分割结果。相比之下,MobileViMs相较于 Baseline 模型的小提琴图形状更窄,意味着分割Dice分数的一致范围更广。如图6ab所示,在左侧和右侧髋骨类别中,MobileViMs表现出显著高的中位值,表明其在识别盆腔骨折方面具有稳健的表现。
综上所述,表2和3以及图5和6中的数据证实,Mobile ViMs在参数量和计算需求方面不仅高效,能够实现快速推理速度,还在使用CT和MRI等三维成像技术进行临床诊断时展示了准确可靠的区分能力。这些特性使得Mobile ViMs非常适合实时临床应用,与虽尺寸更大、计算负荷更高的其他模型相比,其处理速度明显更快。
4.3. Ablation Studies
所有消融研究都在PENGWIN和ATLAS数据集中进行。本节详细介绍了MobileViM-s架构中每个关键组件(即尺度桥接模块、视觉Mamba模块、维度无关机制以及双向遍历方法)对性能的影响。
表4第一行和第二行的数据表明,添加尺度桥接模块使得PENGWIN和ATLAS数据集的Dice分数分别提高了27.77%和7.32%。进一步整合基础Mamba模块,则在基础尺度桥接模块基础上,分别针对检测盆腔骨折和肝肿瘤,使得Dice分数额外提升了8.37%和2.16%。将维度无关机制融入Mamba模块后,该模块的表现进一步提升,在PENGWIN和ATLAS数据集中的Dice分数分别提升了8.33%和2.62%。此外,在Mamba模块中采用双向扫描方法还分别使得PENGWIN和ATLAS数据集的Dice分数提高了4.42%和1.02%。通过将维度无关机制与双向扫描方法结合应用在基础Mamba模块中,PENGWIN和ATLAS数据集中的Dice分数分别达到了92.72%和80.60%。这些结果证明了这些模块显著提升了三维医学影像的诊断能力。
进一步的分析表明,从表4可以看出,尺度调节器在尺寸无关机制和双向遍历(完全装备的Mamba模块)的情况下,分别比Mamba模块提供的增强功能高出
和
。然而,尽管引入尺度调节器使得推理速度显著提高至140 FPS,但它也导致了更大的模型大小,参数量达到546万,而仅结合完全装备的Mamba模块时,参数量为106万且推理速率为104 FPS。当尺度调节器与完全装备的Mamba模块结合使用时,Mobile ViM_s以更低的推理速率91 FPS运行,并且参数量增加到629万。尽管如此,Mobile ViM_s中所有提出的模块组合仍然在性能和计算效率方面取得了最优的结果。这一点由骰子分数的所有p值均低于0.001所证实,表明这些结果具有统计上的显著性。
4.4. Negative Case Analysis
为了评估分割质量并开展错误分析,作者展示了来自不同模型在PENGWIN、BraTS2024、ATLAS和ToothFairy2数据集上的分割结果的可视化示例,如图7所示。为了清晰比较,选择了Mobile ViM的最大版本。
在图7a中,对照组的模型未能准确勾勒出骶骨、左侧髋骨和右侧髋骨的完整边界。值得注意的是,
、SegMamba、3DUX-Net、SwinUNetR-V2 和 nnUNet 错误地将左侧和右侧髋骨内的大空腔识别出来了,而 GT 情况仅显示右侧髋骨有一个较小的空腔,并且左侧没有空腔。此外,TransUNet 未能区分左侧和右侧髋骨,这从其分割输出中的明显颜色梯度可以看出来。进一步来说,
错误地将左侧髋骨分类为右侧髋骨,而且漏掉了右侧髋骨的分割。对照组的所有方法都将骶骨表示得比 GT 的要小。相反,MobileViM_s 能够准确地分割这三个解剖区域,且与 GT 标注高度吻合。尽管 MobileViM_s 没有捕捉到右侧髋骨的空洞,但它准确地识别出了骶骨中的空腔。
对于脑癌诊断,在图7b中,所有方法错误地识别了一个位于前额附近的肿瘤体积,偏离了由GT表示的实际肿瘤位置。然而,MobileViM-s正确指出了肿瘤的位置并精确地勾勒出了肿瘤边界。在肝肿瘤检测方面,如图7c所示,所有对照组方法均未能检测到肝脏内的肿瘤区域,并且难以准确识别内部结构。具体来说,
、3DUX-Net、SwinUNetR-V2、nnUNet和
将多个单独的肿瘤区域视为一个整体。相反,SegMamba和TransUNet要么遗漏了两个肿瘤区域,要么低估了肿瘤的大小。相比之下,MobileViM-s成功发现了肝脏内三个肿瘤区域,并显著地复制了它们的尺寸与GT一致。
关于牙齿结构的诊断,在图7d中,只有Mobile ViM_s和
正确识别了牙齿的类型和形状。其他模型未能识别后牙,并且无法准确区分下颌前牙。此外,除了Mobile ViM_s和
之外,其他测试方法错误地描绘了比GT所示更大的下颌骨。此外,这些方法错误地定位了咽部,可能在手术过程中增加医疗并发症的风险。
这些视觉结果与第4.2节中的讨论一致,突显了MobileViM在各种医学影像模态应用方面的显著能力,为其在疾病诊断和手术规划中提供了重要的优势。
unsetunset5. Discussionunsetunset
随着MobileViM两种尺度的引入,这些模型可以适应广泛的应用场景。在需要高诊断性能的情况下,建议使用Mobile ViM_s。MobileViM_s拥有629万参数,在NVIDIA RTX 4090上达到91 FPS,既能满足高性能要求,又具有相对较低的计算需求。对于硬件较弱的环境,如低端GPU、笔记本电脑、智能手机和经济型微控制器等,MobileViM_xs则成为一种可行的选择。
Dimin机制是一种与维度无关的方法,所需的参数相对较少,对于实时医学成像应用具有重要的潜力。这些模块对于扩大医学技术的应用范围至关重要。此外,Dimin机制通过patch表示学习提供了处理多维数据的新方法。无论是处理2D、3D还是更高维度的数据,Dimin机制都只沿一个维度进行处理,从而减少了计算需求并提高了诊断性能。
近年来,基础视觉模型在各类医学影像任务中取得了令人印象深刻的成果(Ma等,2024)。这些模型主要采用了CNN或ViT。MobileViM框架为基于Mamba架构设计基础模型提供了新的视角。此外,本工作中提出的一些轻量级技术可能会启发基础模型社区开发更多适用于移动部署的模型。
unsetunset6. Conclusionunsetunset
本文介绍了Mobile ViMs,这是一种将Mamba模型与维度无关机制、双向遍历技术和规模桥梁框架相结合的移动网络,用于高效分析3D医学图像,辅助检测威胁生命的疾病。实验结果表明,Mobile ViMs在处理各种医学影像模态方面非常有效。
Mobile ViMs在参数量减少高达-106.45百万的同时,在BraTS2024和ATLAS数据集上分别实现了Dice分数提高9.79%和3.66%,且能够在超过90 FPS的情况下运行。此外,MobileViMs还在PENGWIN和Toothfairy数据集上分别取得了92.72%和77.43%的最高Dice相似度得分,位居第二。
可视化结果进一步证实,Mobile ViMs能够准确识别3D医学图像中的感兴趣区域,展示了其在医学图像分割方面的卓越能力。这些发现突显了Mobile ViMs在3D医学图像分析领域的重要性,标志着一个重要的进展。
unsetunset参考unsetunset
[0]. Mobile ViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis .
点击上方卡片,关注「AI视界引擎」公众号