点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
为解决自动心脏MRI分割中复杂病理特征提取的挑战,本研究提出了一种名为SAMba-UNet的创新双编码器架构。该框架通过整合视觉基础模型SAM2、状态空间模型Mamba以及经典UNet实现跨模态特征协同学习。
为缓解医学图像与自然图像之间的域差异,设计了一种动态特征融合细化器,通过多尺度池化和通道与空间维度的双路径校准机制,增强小病灶特征提取。
此外,引入了异构全注意力汇聚模块(HOACM),结合全局上下文注意力和分支选择性强调机制,有效融合SAM2的局部位置语义和Mamba的长程依赖建模能力。
在ACDC心脏MRI数据集上的实验表明,所提出模型实现了0.9103的Dice系数和1.0859毫米的HD95边界误差,显著优于现有方法,特别是在右心室异常等复杂病理结构的边界定位方面。
1 引言
心血管疾病仍然是全局主要死因之一,早期诊断主要依赖心脏磁共振成像(MRI)等影像学方法。然而,传统MRI分析需要专业临床医生手动标注心脏结构(如心室、心肌),这一过程耗时且易受主观因素影响。这一局限性在检测复杂病理情况(如缺血性心力衰竭、肥厚型心肌病和右心室异常)时尤为明显,人类解释难以实现高灵敏度和一致性。在人工智能(AI)的推动下,医学界正在开发自动化算法系统,以提升诊断效率、减少人为错误,并为早期筛查、个性化治疗优化和心脏疾病预后评估提供数据驱动的决策支持。Sanyaolu [2025]
近年来,深度学习架构在医学图像分割领域取得了显著突破,基于编码器-解码器的卷积神经网络(CNN)表现出卓越的性能 Ronneberger et al. [2015], Zhou et al. [2019]。
作为该领域的一个里程碑式架构,UNet通过其独特的对称编码器-解码器设计和跨层 Shortcut 机制,在医学图像分割任务中确立了其核心地位。为增强特征表示能力,后续研究开发了多种创新的辅助模块 Huang et al. [2017], He et al. [2016], Woo et al. [2018], Howard et al. [2017], Yu and Koltun [2015], Zhou et al. [2020]。这些技术进步使UNet架构能够在CT、MRI和超声成像等多种模态的医学图像分割中展现出突出的临床价值。
Transformer通过其注意力机制在建模长距离依赖关系和捕捉全局上下文方面展现出显著优势 Chen et al. [2021], Zhang et al. [2021], Valanarasu et al. [2021], Hatamizadeh et al. [2021]。在先进的网络架构 Dosovitskiy et al. [2020] 和大规模数据集 Kirillov et al. [2023] 的推动下,近期分割趋势已从特定任务专家模型转向通用基础模型,这些模型无需大量特定任务开发即可执行分割 Moor et al. [2023], He et al. [2024], Khan et al. [2025]。作为新开发的视觉基础模型,SAM Kirillov et al. [2023] 和 SAM2 Ravi et al. [2024] 在各种自然图像任务中均表现出令人印象深刻的零样本性能。然而,自然图像与MRI扫描之间存在的巨大领域差距,阻碍了SAM在医学影像中的直接部署 Huang et al. [2024], He et al. [2023], Roy et al. [2023]。为解决SAM2应用于MRI分割时因训练于自然图像而导致的模糊或缺失的小病灶及精细结构等挑战,本研究提出了一种动态特征融合细化器。
尽管Transformer架构在建模长距离依赖关系方面展现出显著优势,但其固有的二次计算复杂度导致在医学图像分割任务中资源消耗过大[李等人,2024a],[黄等人,2022]。相比之下,Mamba架构因其线性计算复杂度及强大的长距离依赖关系捕捉能力,成为医学图像领域的有前景解决方案[熊等人,2024],[杨等人,2024]。在SAM2采用的Hiera架构中,窗口注意力机制和基于窗口的绝对位置编码可能导致像素级空间位置语义信息的丢失,从而影响分割边界特征的提取。为增强长距离依赖关系学习同时降低计算资源消耗,作者引入VMamba架构以捕捉全局语义特征,补充SAM2的层次化特征。针对SAM2与Mamba编码器特征自适应融合的挑战,作者创新性地设计了异构全注意力汇聚模块(HOACM),有效整合两种架构的异构语义特征。基于作者对现有数据的收集与分析,表明作者提出的模型SAMba-UNet是首个成功融合SAM2、Mamba和UNet架构的开创性框架。
总之,作者的贡献如下:
(1) 提出了首个协同框架(SAMbaUNet),整合了视觉基础模型(SAM2)、状态空间模型(Mamba)和经典UNet,解决了医学图像分割中全局语义建模与局部细节捕捉之间的权衡问题。
(2) 设计了一种多尺度池化和通道空间双路径校准模块,称为动态特征融合细化器(Dynamic Feature Fusion Refiner),以缓解自然图像与医学图像之间的域差异,增强小病灶分割的鲁棒性。
(3) 引入了异构全注意力汇聚模块(HOACM)。开发了一种跨架构注意力融合机制:OCA强化像素级位置语义,而BSEA实现全局-局部特征的动态聚合。(4) SAMba-UNet在ACDC心脏MRI数据集上实现了Dice分数0.9103和HD95边界误差
,为临床心脏功能量化建立了新的技术标准。
2 相关工作
2.1 使用SAM进行医学图像分割
Segment Anything模型(SAM)的引入Kirillov等人[2023]标志着图像分割领域的重要里程碑。尽管SAM通过用户 Prompt (例如点、边界框)无需特定任务训练即可展现出卓越的零样本分割能力,但由于自然图像与医学成像方式之间存在显著领域差异,将其直接应用于医学图像分析,特别是MRI分析,面临着挑战。为解决这一问题,参数高效微调(PEFT)策略Zu等人[2024]通过更新少量参数(通常占总权重的45%)同时冻结大部分参数,提供了一种有效解决方案。
基于此概念,Wu等人[2025]提出了一种医学SAM Adapter (Med-SA),通过PEFT注入医学领域知识而非直接对SAM进行微调,仅通过2%的参数更新即可在医学图像分割中达到当前最佳性能。为进一步优化MRI分割任务,作者引入了动态特征融合精炼模块,以解决SAM在捕捉微小病灶和细微解剖结构方面的局限性,这一局限性源于其在自然图像数据集上的大量训练。
2.2 医学图像分割与Mamba
状态空间序列模型(SSMs)如Mamba Gu和Dao [2023]通过其在线性复杂度
在长序列处理中提供了高效全局依赖建模的新方法。与自注意力机制不同,SSMs通过压缩隐藏状态实现序列元素与历史信息的交互,从而避免了二次计算开销。Mamba-Unet Wang等人[2024]框架通过将U-Net Ronneberger等人[2015]架构与Mamba的能力相结合,提出了一个新型医学图像分割模型。然而,其局部特征提取能力的不足限制了细微病灶结构的有效捕捉。
后续改进如U-Mamba Ma等人[2024]和SegMamba Xing等人[2024]将Mamba与CNN结合,实现直接像素级长距离依赖建模。但这类基于Mamba的模型由于其1D序列处理方式,牺牲了局部邻域像素的空间连续性,对细节建模产生不利影响。为解决这些局限性,作者提出利用SAM2的Ravi等人[2024]在捕捉基于窗口的绝对位置空间语义信息方面的能力,以弥补Mamba架构固有的细节建模缺陷。
2.3 将Segment Anything模型与Mamba架构协同化
SAM-Mamba Dutta等人[2025]提出了一种Mamba引导的Segment Anything模型用于高效的息肉分割,引入了Mamba-Prior模块作为连接SAM的通用预训练表示与息肉相关细微线索的桥梁。LFSamba Liu等人[2024b]开发了一种新型多焦点光场图像显著目标检测模型,通过单焦点图像重建3D场景以捕获空间几何信息。
尽管现有工作将SAM与Mamba结合,本研究创新性地将SAM2与Mamba结合。SAM2的MAE He等人[2022]预训练的层次化Hiera图像编码器Ryali等人[2023]在注意力计算过程中完全消除了相对位置偏差(RPB),采用基于窗口的绝对位置编码Yu等人[2024],这可能损害像素级空间位置语义并不利地影响分割性能。为解决这一问题,作者提出利用Mamba在以线性计算复杂度捕获全局语义信息方面的显著优势,从而协同增强SAM2建模全局语义和位置敏感局部特征的能力。
3 方法
Samba-UNet是一种U形架构,包含双流编码器(SAM2和VMamba)以及单个VMamba解码器。在SAM2编码器分支中,作者采用动态特征融合细化器结合MLP Adapter ,对冻结的SAM2 Hiera-Large编码器提取的多尺度特征进行自适应细化。VMamba编码器分支利用状态空间模型增强全局语义特征提取,与SAM2的局部关注形成互补。一种新颖的异构全注意力汇聚模块通过基于注意力的增强,动态融合来自两个编码器的跨架构特征,将整合后的表示输入VMamba解码器进行最终分割预测。模型架构图如图1所示。
3.1 架构概述
双流编码器在SAM2编码器分支中,作者整合了FE-UNet和Medical SAM Adapter的设计原则,建立了一个用于Hierarchical Block微调的双 Adapter 架构。为了弥合SAM2自然图像预训练与MRI特征之间的领域差距,作者提出了一种动态特征融合细化器,该细化器对注意力输出进行领域自适应细化,同时辅以并行的MLP- Adapter 操作,共同增强非线性映射能力。
在Mamba编码器分支中,作者采用了与Mamba-UNet相同的VSS模块配置,以捕获全局语义上下文,从而有效解决SAM2由于其窗口位置编码机制导致的像素级空间位置语义丢失问题。
为有效融合SAM2和VMamba编码器特征,作者提出了异构全注意力汇聚模块(HOACM)。该模块集成两个核心组件:1)全知上下文注意力(OCA),通过全局上下文感知增强SAM2的像素级空间语义关系建模;2)分叉选择性强调注意力(BSEA),实现VMamba特征的通道空间自适应协同增强,以进行跨架构动态聚合。
单VMamba解码器 在解码器设计中,作者通过实现其渐进式上采样框架,与Mamba UNet保持架构一致性。这种多阶段特征聚合机制通过连续的转置卷积实现层次化特征融合,最终通过参数共享预测头生成高分辨率分割 Mask 。
3.2 动态特征融合细化器
鉴于SAM2的自然图像预训练与MRI特征之间的领域差异(包括细节的固有模糊、由于物理成像机制导致的小病灶/细微结构特征的衰减,以及由患者运动引起的非刚性变形,这些变形损害了解剖结构关系),作者提出了动态特征融合细化器(模块架构如图2所示),以增强医学图像的适应能力。
动态特征融合细化器以注意力输出作为输入特征
。它采用双重自适应池化操作:自适应最大池化保留全局显著语义,而自适应平均池化抑制高频噪声干扰。经过维度置换后,这些池化特征沿通道维度进行拼接:
Xcat = Concat([AdaptiveAvgPool2d(Permute
), AdaptiveMaxPool2d(Permute(X))], dim = 1) (1)拼接后的特征
通过可学习的注意力门控机制进行通道动态校准。这种 Bottleneck 结构操作建模了通道间依赖关系,以选择性地增强判别性通道,同时抑制噪声污染的通道:
公式中的参数
和
代表可学习的权重矩阵,其中
表示压缩率为
的 Bottleneck 维度,
作为通道门控激活函数。通过构建级联卷积路径来增强局部感受野:下采样卷积压缩空间维度,转置卷积恢复分辨率,ReLU非线性增强局部特征提取:
通过残差连接将精炼特征与原始输入相结合以保留多尺度信息,同时应用层归一化以稳定梯度传播并确保训练过程中的数值稳定性:
3.3 异构全注意力收敛模块
为解决跨层级的语义差异并实现SAM2与VMamba编码器输出的有效融合,作者设计了异构全注意力汇聚模块(HOACM)(模块架构如图3所示)。该模块包含三个关键组件:1)全知上下文注意力(OCA),通过多尺度上下文感知增强SAM2的全局语义表征;2)分叉选择性强调注意力(BSEA),采用通道-空间双路径动态放大VMamba的判别性特征;3)交叉注意力融合机制,通过分阶段的特征交互逐层整合局部细节、全局上下文和历史融合语义。
分支选择性强调注意力(BSEA)分支选择性强调注意力(BSEA)采用双路径池化注意力架构:1)空间平均池化路径通过捕获跨区域长程依赖关系来保留VMamba的全局上下文建模能力,2)局部显著性池化路径应用空间约束以防止注意力过度集中,从而缓解局部与全局语义不匹配问题。
鉴于Mamba编码器的逐层输出特征
,作者实现了一个并行空间最大池化通路,以保留VMamba在捕获局部显著模式方面的固有优势。该设计通过强调区域响应极值特征,增强了对于关键分割边界的敏感性:
池化特征
通过共享权重的自适应自注意力机制进行处理,以实现路径间特征空间对齐和动态贡献平衡。具体而言,三个独立的
卷积层生成 Query 、 Key和Value 的三个三元组:
公式中的卷积核
是可学习参数,用于生成相应的
(其中
表示展平的空间维度)。计算 Query 与键之间的相似度矩阵,随后通过Softmax归一化得到空间关系权重:
注意力权重矩阵
通过与值特征
进行矩阵乘法动态地聚合上下文信息。
由共享权重的自适应自注意力机制处理的双路径特征,通过加权求和融合,生成空间注意力图。这些图通过逐元素乘法增强原始Mamba特征:
全知上下文注意力为解决SAM2编码器在建模全局像素级位置语义方面的局限性,作者提出了全知上下文注意力(OCA)机制。该模块通过全局上下文感知注意力架构增强特征表示,建立长距离跨区域依赖关系,并实现多尺度语义整合:
该机制首先执行双通道压缩操作:沿通道维度进行空间最大池化(例如提取显著特征)和空间平均池化(捕获全局上下文信息),以实现多粒度特征表示:
SAM2编码器的逐层输出特征
。作者首先执行双路径通道压缩:空间最大池化提取显著特征,而空间平均池化捕获全局上下文。然后沿通道维度将它们连接起来:
一种门控空间注意力(GSA)机制使用
卷积核对长程空间依赖进行建模:
基本卷积和Sigmoid激活生成的空间注意力权重自适应地重新校准SAM2特征:
4 实验与结果
自动心脏诊断挑战ACDC数据集源自2017年同名MICCAI挑战赛,由法国多个临床中心(包括迪戎大学医院)收集的100名患者的心脏MRI短轴序列构成。该数据集包含五种心脏病理和正常案例:扩张型心肌病(DCM)表现为左心室增大,肥厚型心肌病(HCM)表现为左心室心肌异常增厚,心肌梗死(MINF)呈现左心室心肌瘢痕,右心室功能障碍(RV-abnormal)表现为右心室结构/收缩功能异常,以及正常心脏解剖结构。病理特征主要位于左心室(DCM、HCM、MINF)或右心室(RV-abnormal),需要通过MRI短轴视图进行全面的、多层级的心脏分割和功能分析,以实现准确诊断。
4.1 实现细节
实验环境建立在Ubuntu 23.10操作系统上,使用Python 3.12.0和PyTorch 1.10深度学习框架,通过CUDA 12.1加速。硬件配置包括NVIDIA A800-SXM4-80GB GPU和Intel Xeon Platinum 84 62 Y+ CPU。作者采用预处理后的ACDC数据集进行二维医学图像分割任务。SAMbaUNet模型进行了10,000次训练迭代,批处理大小为12。实现了随机梯度下降(SGD)优化器[2],初始学习率为0.01,动量为0.9,权重衰减系数为0.001。每200次迭代在验证集上评估模型性能,并保存最优参数的预训练权重。
4.2 评估指标
SAMba-UNet与 Baseline 方法的性能评估采用了全面的指标集。Dice系数用于评估预测分割与真实标签之间的重叠程度。IoU(IoU)量化了重叠面积与总并集面积的比例。准确率衡量了正确分类像素的比例,而精确率反映了在预测正例中真正例的百分比。灵敏度(召回率)评估了真正例像素的识别能力,特异性则表示真负例像素的正确排除率。边界匹配通过两个指标进行评估:95百分位数Hausdorff距离(HD95),计算为预测边界与实际边界之间最大距离的95百分位数,以减轻异常值的影响;以及平均表面距离(ASD),计算为对应边界点之间最小距离的平均值。HD95和ASD值越低表示性能越好,而其他所有指标则偏好更高的值。
4.3 定量比较
SAMba-UNet在特征提取网络(UNet++)、注意力机制方法(R50 Attn-UNet)和纯Transformer模型(SwinUNet、UNETR)的基础上,通过创新性地整合SAM2架构和状态空间模型,在保持与主流方法相当的心室(LV,0.9335)分割精度(差异
2%)的同时,实现了协作分割性能的突破。
5 消融实验
作者进行了实验以探索以下两个方面:(1)模型架构不同组件的有效性;(2)不同 Adapter 及其组件的有效性研究。
5.1 模型架构不同组件的有效性
如表2所示的消融研究结果表明,完整模型架构(ALL)在所有评估指标上均实现了最佳性能,充分证明了模块间协同交互的重要性。进一步分析显示,移除关键组件(例如OCA模块)会导致分割精度显著下降和边界定位能力减弱,突显了其在系统中的关键作用。虽然移除其他组件(如IRMLP和AdaptAttn)并未完全损害基本模型功能,但它们均对核心性能指标产生了不同程度的负面影响。这些观察结果有效地验证了整体架构的高效设计以及不同模块间的功能互补性。
5.2 不同 Adapter 和其组件的有效性研究
如表3所示的消融研究结果表明,完整 Adapter 架构(ALL)在所有评估指标上均实现了最佳性能,充分证明了组件间协作工作机制的有效性。移除核心模块(如通道注意力模块或细化模块)会导致性能显著下降,尤其在边界定位精度和分割一致性指标上表现明显。尽管MLPAdapter的缺失对整体性能影响相对较小,但仍导致细节特征的精度损失,表明该模块在特征细化中具有不可替代的作用。
实验结果表明,每个子模块分别提升了模型的特定能力维度(例如区域识别精度、边缘锐度),而将这些精心设计的组件进行系统性集成是实现最佳分割性能的关键因素。
参考
[1]. SAMba-UNet: Synergizing SAM2 and Mamba in UNet with Heterogeneous Aggregation for Cardiac MRI Segmentation
点击上方卡片,关注「AI视界引擎」公众号