两阶段分割框架应对三维颈动脉分割难题:插值标注结合DBF-UNet攻克医学图像Sparse标注挑战 !

大数据机器学习算法

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

医学图像分析由于标注数据有限而面临重大挑战,特别是在三维颈动脉分割任务中,现有数据集表现出空间上不连续的切片标注,且在完整三维体数据中只有少量专家标注的切片。

为应对这一挑战,作者提出了一种两阶段分割框架。

首先,作者通过插值标注切片质心之间的距离构建连续的血管中心线,并沿这些中心线传播标签,为未标注切片生成插值标注。专家标注的切片用于微调SAM-Med2D,而未标注切片上的插值标签则作为 Prompt ,在推理过程中指导分割。

在第二阶段,作者提出了一种新型密集双向特征融合UNet(DBF-UNet)。

这种轻量级架构实现了完整三维血管结构的精确分割。

该网络在编码器中结合了双向特征融合,并集成了多尺度特征聚合与密集连接,以实现有效的特征重用。

在公共数据集上的实验验证表明,yinqing-DBF-UNet_2504有效解决了颈动脉分割中的Sparse标注挑战,同时与现有方法相比实现了更优的性能。

源代码可在https://github.com/Haoxuanli-Thu/DBF-UNet获取。

一 引言

动脉粥样硬化是一种严重威胁全局人类健康的慢性炎症性疾病,其特征在于脂质 Patch 沉积、平滑肌细胞增殖和细胞外基质在动脉壁中的积累,主要影响向大脑供血的颈动脉[1]。磁共振(MR)黑色血管壁成像(BB-VWI)已成为一种强大的诊断工具,能够有效可视化正常和病理动脉血管壁,并为动脉粥样硬化特征提供关键证据。该技术在揭示血管壁异常和量化动脉粥样硬化负荷方面表现出色,对于临床诊断和治疗规划具有重要价值[2]。

尽管颈动脉分割具有重要的临床意义,但当前手动标注方法在临床实践中面临严峻挑战。该过程需要经验丰富的放射科医生投入大量时间,且极易受到观察者间差异的影响。这种差异源于临床经验的差异以及图像特征的主观解读,可能影响血管分析的可靠性。此外,动脉粥样硬化病变的复杂几何结构进一步增加了准确界定血管边界的难度。这些局限性凸显了自动化分割解决方案的迫切需求,以提升诊断效率和准确性[3]。

基于深度学习的图像分割算法为这些挑战提供了新颖的解决方案[4]-[6]。这些算法能够自动学习和提取图像特征,显著减少人工干预,同时提高颈动脉分割的准确性和精确性。通过从大规模医学影像数据集中学习可靠的特征表示,这些算法高效地完成分割任务,缩短诊断时间,减轻医生的工作负担,并可能降低医疗成本。因此,基于深度学习的颈动脉分割已成为医学图像处理领域的关键研究方向和技术挑战,兼具理论价值和实际意义,预计将在未来的医学诊断和治疗中发挥重要作用。

当前,自动颈动脉分割面临两大挑战:首先,高质量标注数据往往缺乏空间连续性,限制了三维分割模型训练的有效性;其次,在颈动脉发生显著结构变化的血管分叉处和病变区域,插值标注的可靠性降低,导致这些关键区域难以进行精确的血管轮廓界定。

通过开发稳健的自动化分割算法来解决这些挑战具有重要的临床价值和科研意义。以COSMOs2022 [7]数据集为例,该数据集仅提供部分切片的空间域标注,作者在图1中展示了原始标签与三种伪标签生成方法之间的比较。一种直接的方法是仅使用可用的标注切片来训练模型。然而,由于大量切片缺乏标注,导致模型召回率低,严重限制了其临床价值。

picture.image

为提升模型性能,研究行人最初提出了基于邻接关系的插值伪标签(AIPL)方法[2],该方法将标注切片的标签直接复制到相邻的未标注切片上。虽然这种方法提供了一定的空间连续性,但它会产生问题性的阶梯状结构和暴露的血管腔,这与血管壁应始终包围腔内的解剖学原理相悖。为解决这些局限性,作者开发了以质心引导的插值伪标签(C-IPL)方法,该方法通过在相邻标注切片的质心位置之间进行插值,从而提高了血管标注的连续性。

然而,在血管形态发生剧烈变化的区域,C-IPL方法可能会生成次优伪标签,如图2所示,其中血管壁和腔道分别用蓝色和绿色表示。由于快速形态变化(黄色轮廓突出显示),C-IPL表现出显著偏差,而作者所提出的SAM Refined Pseudo Label(S-RPL)方法,利用SAMMed2D强大的医学图像泛化能力,准确捕捉局部血管特征并生成解剖学上合理的标注。这种方法不仅保持空间连续性,还为分割模型训练提供更高质量的监督。

picture.image

本文的主要贡献总结如下:

作者提出了S-RPL,一种SAM精细伪标签方法,能够有效处理分叉点和病理区域的血管形态变化。该方法生成解剖学一致的标注,为网络训练提供可靠的监督。作者设计了DBF-UNet,一种增强型U形架构,包含三个创新模块:DSDBlock通过密集连接实现高效特征下采样,MLKBlock结合统计注意力机制进行多尺度特征学习,以及BFFBlock用于不同编码器层之间的双向特征融合,共同实现精确的血管分割。在COSMOs2022数据集上的大量评估验证了yinqing-DBF-UNet_2504优于现有先进方法,在血管结构复杂且标注有限的挑战区域展现出显著的分割精度提升。

II. 相关工作

unsetunsetA. 任意分割模型unsetunset

近年来,以SAM(Segment Anything Model)[8]为代表的大规模视觉基础模型展现出卓越的零样本泛化能力和基于 Prompt 的分割性能。然而,由于医学图像与自然图像之间存在显著的领域差距,将SAM直接应用于医学图像分割时表现出明显的局限性。为应对这一挑战,研究行人提出了多种改进方法:MedSA [9] 引入轻量级 Adapter 模块,通过仅更新2%的参数实现性能提升;SAM-Med2D [10] 采取更全面的策略,通过构建大规模二维医学图像数据集并对SAM进行微调,支持多种交互式 Prompt 模式;而对于三维医学图像,SAM-Med3D [11] 放弃SAM的预训练权重,采用全三维网络架构,通过在包含22K图像和143K Mask 的大规模三维数据集上采用两阶段训练策略,实现了更优的分割性能。

unsetunsetB. 颈动脉分割unsetunset

随着深度学习的发展,颈动脉分割技术取得了显著进步。Alblas等人提出了一种两阶段方法,首先利用3D UNet预测动脉中心线分布,随后在极坐标系中通过CNN进行壁厚预测,确保血管壁的环状结构[12]。随后,Hu等人引入了一种基于标签传播的两阶段分割网络,该网络首先通过插值从有限的2D标注中获取连续的3D伪标签,并利用这些伪标签生成后续nnUNet训练的精细标签[2]。最近,Li等人开发了结合SAM和跨模态迁移学习的MT-Net框架,该框架将CTA数据中学习的血管特征迁移到MRI数据中,同时利用SAM为 未标注 的切片生成伪标签,进一步提升了分割性能[13]。

尽管付出了这些努力,现有方法仍面临三个关键局限性:

(1) 像A-IPL这样的方法在相邻切片间传播伪标签时包含相当多的噪声,特别是在分叉等复杂区域;

(2) 基于SAM的方法既受到自然图像与医学图像之间的领域差距的影响,又受到 Prompt 使用的限制,因为当前方法仅采用基于质心的点 Prompt ,而忽略了框和 Mask Prompt ;

(3) 由于缺乏配对的医学数据集,导致多模态数据利用效率低下。

HII. 方法

unsetunsetA. 第一阶段:基于SAM-Med2D生成伪标签unsetunset

为应对这些挑战,作者提出一种基于SAM-Med2D微调的船舶分割方法,旨在生成高质量的伪标签。整体工作流程如下:

从标注切片中沿中心线传播到相邻 未标注 切片,从而生成空间连续的3D标注。

  1. SAMMed2D数据集构建与标签处理:专家标注的切片用于训练,而使用C-IPL生成的标签切片作为测试集。鉴于血管壁分割的复杂性,作者在微调过程中采用简化策略,将血管腔和壁标注合并为完整的血管 Mask 。随后通过从预测的完整血管 Mask 中减去预测的腔 Mask ,获得血管壁 Mask ,如图3所示。

picture.image

  1. 一种基于质心引导的插值伪标签(C-IPL)生成方法:首先,作者从3D标签中的标注切片计算血管质心,并对这些质心点进行插值以构建血管中心线。随后,进行标签...
  2. 模型微调:为了使SAM-Med2D适用于颈动脉分割,作者分别使用专家标注图像对模型进行血管壁和腔室分割的微调。作者冻结图像编码器的参数,并通过结合点、框和 Mask Prompt 的多 Prompt 策略来优化 Mask 解码器和 Prompt 编码器。这种方法增强了模型捕捉血管细节的能力,如图4所示。

picture.image

  1. 模型推理优化:由于C-IPL固有的局限性,船舶标注可能与其实际解剖位置存在空间偏差,特别是在形态学变化显著的区域。为应对这一挑战并增强作者的分割框架的鲁棒性,作者提出了一种综合推理策略,该策略结合了基于噪声的框扰动与集成投票机制。

在推理过程中,虽然C-IPL提供了初始 Prompt 信息,但作者为每个插值边界框生成多个扰动版本以考虑潜在的空间偏差。这些扰动边界框产生了多样的分割 Mask ,随后通过投票机制进行整合以生成SAM精细伪标签(S-RPL)。接着,S-RPL与专家标注进行融合,以创建用于网络训练的空间连续3D标签。完整的推理工作流程如图5所示。

picture.image

这一策略的关键在于作者针对边界框扰动的自适应噪声注入方案。考虑一个原始边界框

。扰动过程通过以下步骤适应目标尺寸:

首先,作者计算一个与尺寸相关的标准差:

其中

表示框的维度,

是一个预定义的系数。

为确保可控扰动,作者限制了最大噪声幅度:

其中

限制了最大允许扰动。

然后从以下公式中采样随机扰动:

其中

表示在

上的均匀分布

最后,扰动后的框坐标计算如下:

这种自适应扰动机制确保噪声幅度与目标大小成比例,而多个预测的集成投票有效补偿潜在的C-IPL标注偏差,从而提高整体分割可靠性。

unsetunsetB. 阶段2:DBF-UNetunsetunset

为提升船舶分割的准确性和鲁棒性,作者提出了密集双向特征融合UNet(DBF-UNet)。如图6所示,DBF-UNet的核心架构由三个创新模块组成:密集空间下采样模块(DSDBlock)、多级核模块(MLKBlock)和双向特征融合模块(BFFBlock)。

picture.image

  1. DsDBlock:受RDNet[14]中高效密集连接设计的启发,作者提出了用于特征下采样的DSDBlock,通过渐进式特征聚合增强特征表示。对于输入特征图

,DSDBlock采用步长为2的

深度可分离卷积进行下采样:

随后,采用一个

的点卷积来扩展通道维度,使输入通道数量翻倍。

为了有效捕获和整合多尺度特征信息,作者首先沿通道维度连接所有中间特征,然后进行逐点卷积。引入基于平均池化的残差连接以保持特征一致性:

这种密集的连接结构结合了深度可分离卷积和逐点卷积,以实现高效的特性重用,同时保持计算效率。

  1. MLKBlock:为了增强编码器的多尺度特征表示能力,作者设计了一个类似Transformer的多级核(MLK)模块。如图7所示,该模块

picture.image

MLK模块借鉴了Transformer架构,由三个核心组件构成:用于特征归一化的LayerNorm、用于捕获多尺度特征的Multi-scale Statistical Dense Attention(MSDA)模块,以及由MLP和逐点卷积组成的 FFN 。MLK模块的计算过程可正式表示为:

其中

是用于自适应特征融合权重调整的可学习 Layer Scale 参数。每个组件都配备了 Layer Scale 参数和残差连接,有效保留了 Transformer 架构在特征提取方面的优势。

  1. MSDABlock:多尺度统计密集注意力(MSDA)模块是MLK Block的核心组件。该模块通过深度可分离卷积和统计特征分析来增强特征表示,有效利用多尺度特征的互补性和统计特性。MSDA模块包含两个关键处理流:密集连接的多尺度特征提取和基于统计的注意力计算。在多尺度特征提取阶段,该模块采用不同 Kernel 大小的深度可分离卷积,并通过密集连接逐步融合特征。这种逐步特征融合策略有效捕获不同感受野下的空间上下文信息,其表达式为:

其中

表示具有

核大小的卷积层。通过残差连接的设计,浅层特征可以直接传播到深层,有效缓解深度网络训练中的梯度消失问题。

在统计分析阶段,该模块首先沿通道维度拼接多尺度特征,然后提取统计特征并计算注意力权重:

此处,

表示拼接的多尺度特征,

包含三个关键统计指标:均值

捕获分布趋势,标准差

描述特征分散度,最大值

保留显著特征信息。这些统计指标通过可学习的线性变换矩阵

和 softmax 函数转换为注意力权重

最终特征融合与输出计算表示为:

其中

表示输入特征,

表示注意力权重,LN 和 ACT 分别表示层归一化和激活函数。

  1. BFFBlock:为提升特征提取的有效性,作者提出了双向特征融合(BFF)模块。该模块通过融合来自编码器的自下而上空间细节和自上而下语义信息,实现全面特征表示。具体而言,BFF模块在编码器不同层级之间建立双向信息流,促进多层级特征的交互。

在层

,BFF模块的特征融合过程可以表示为:

其中

表示编码器层

的输出特征

表示由 BFF 模块处理的融合特征

分别表示解码器层

的输出特征和解码器层

的输入特征。通过残差连接的设计,该模块在整合多级特征表示的同时更好地保留了原始特征信息。在浅层编码阶段,原始模块被替换为 MLKBlock,该模块通过逐元素相加处理来自最浅层编码器输出和 BFFBlock 的组合特征。

IV. 实验

unsetunsetA. 数据集unsetunset

在COSMOS2022 [7] 数据集上进行了实验验证,该数据集包含来自50名受试者的颈动脉MRI扫描图像。这些图像通过Philips 3T MRI系统使用3D VISTA序列采集,实现了在所有维度上具有

分辨率的各向同性 Voxel 。该数据集中的专家标注遵循区间采样策略,即在3D体积的轴向方向上以固定间隔标注血管壁和腔室边界。

unsetunsetB. 实现细节unsetunset

在作者的实验设计中,COSMOS数据集按照35:2:13的比例划分为训练集、验证集和测试集。对于单阶段方法,采用A-IPL进行训练。在作者的两阶段框架中,作者使用Centroid-guided Interpolated Pseudo Labels对SAM-Med2D进行微调。对于SAM-Med2D微调,作者配置以下参数:输入图像分辨率为

,批大小为16,Adam优化器初始学习率为

,C,训练200个epoch。损失函数结合了Focal Loss、Dice Loss和IoU Loss,相对权重分别为20:1:1。

在推理过程中,每个初始边界框通过噪声扰动生成10个候选边界框。

为确保公平比较,所有方法均使用一致的配置进行训练:3D Patch 大小为

,批处理大小为2,Adam优化器初始学习率为

,以及300个epoch。损失函数采用交叉熵损失和Dice损失的加权组合。

表1 不同方法在 COSMOS2022 数据集上血管光通量分割的性能比较

表2 不同方法在 Cosmos2022 数据集上血管壁分割的性能比较

picture.image

unsetunsetC. 评估指标unsetunset

为全面评估分割性能,作者采用了五种广泛使用的指标:

Dice相似性系数(DSC)用于衡量预测分割与真实标签之间的重叠程度:

其中

分别表示预测分割 Mask 和真实分割 Mask 。

交并比(IoU)评估预测与真实值交集和并集的比值:

精确率量化了所有预测为正的像素中正确预测为正的像素的比例:

召回率衡量了在所有实际正像素中正确识别的正像素的比例:

平均表面距离(AsD)计算预测边界与真实值边界之间的平均距离:

其中

分别表示预测和真实边界的点集,

表示点

到点集

的最小欧几里得距离。这些指标在评估分割质量的不同方面互为补充:DSC 和 IoU 评估整体分割精度,Precision 和 Recall 提供对假阳性预测和假阴性预测的洞察,而 ASD 则专门评估边界精度。

unsetunsetD. 对比实验unsetunset

为全面评估yinqing-DBF-UNet_2504的有效性,作者在COSMOS2022数据集上针对血管腔和血管壁分割任务进行了广泛的实验。作者将yinqing-DBF-UNet_2504与几种最先进的医学图像分割方法进行了比较,包括基于卷积的架构(nnUNet、UX-Net、MedNeXt)、基于transformer的方法(UNETR、SwinUNETR)、基于Mamba的方法(LKM-UNet、UMamba)以及一个使用nnUNet进行标签传播的两阶段分割框架。在表1和表2中,作者展示了定量的比较结果,其中粗体数字表示所有比较方法中的最佳性能。

如表1所示,作者提出的SAM-Med2D+DBFUNet框架在血管腔分割方面所有评估指标上均取得了优异性能。具体而言,其Dice系数达到

,交并比IoU为

,分别比 Baseline nnUNet高

。精确率

和召回率

指标进一步证明本方法在减少假阳性与假阴性的能力上具有优势。值得注意的是,本方法获得最佳ASD值

,表明边界界定更为精确。

对于更具挑战性的船体壁分割任务(表2),yinqing-DBF-UNet_2504在Dice分数为

、IoU为

和ASD为0.1937的情况下保持了具有竞争力的性能。虽然与腔室分割任务相比,改进幅度相对较小,但yinqing-DBF-UNet_2504在大多数指标上仍优于其他方法。

与基于Transformer的方法如SwinUNETR相比,yinqing-DBF-UNet_2504在两项任务中均表现出显著改进。例如,在光晕分割任务中,yinqing-DBF-UNet_2504在Dice分数上比SwinUNETR高出4.36%。在壁分割任务中,性能差距更为明显,yinqing-DBF-UNet_2504比SwinUNETR高出3.32%。表3展示了DBF-UNet与现有方法的计算效率对比。yinqing-DBF-UNet_2504仅包含2.81M参数,显著小于SwinUNETR(15.64M)、UNETR(121.35M)和MambaClinix(108.33M)。DBF-UNet的计算成本为211.52

picture.image

表3 不同方法的计算复杂度比较

表4 DBF-UNET在COSMOS2022上的血管腔分割中关键组件的消融研究

picture.image

表5 DBF-UNET在COSMOS2022上的血管壁分割中关键组件的消融研究

picture.image

其GFLOPs也显著低于基于Mamba的模型(UMamba: 13447.52 GFLOPs, MambaClinix: 13960.54 GFLOPs),表明其在保持竞争性性能的同时具有极高的计算效率。

如图8所示,作者提供了关于血管腔(第一行)和血管壁(第二行)分割的定性可视化结果。作者的两阶段方法SAM-Med2D

DBFUNet在两项任务中均优于其他方法,分别达到了95.03%和83.33%的Dice分数。这些结果相较于单阶段DBFUNet有显著提升,后者分别获得了94.51%和79.70%的分数,特别是在血管壁的界定方面。在血管壁分割任务中,Label-Propagation和nnUNet都存在严重的欠分割问题,导致相邻切片中的血管壁出现不连续和碎片化。这种结构不连续性不仅破坏了解剖完整性,还对下游临床分析的可靠性产生不利影响。相比之下,yinqing-DBF-UNet_2504始终保持了血管腔和壁的结构连续性和精确边界界定。值得注意的是,SAM-Med2D

DBF-UNet在捕捉血管壁的细粒度细节方面表现出色。

picture.image

unsetunsetE. 消融实验unsetunset

为验证作者提出的DBF-UNet组件的有效性,作者在血管分割任务上进行了消融实验,如表4和表5所示。对于腔室分割,引入BFFBlock将Dice分数从93.41%提升至93.80%,而MSDABlock单独使用时将其提升至94.10%。这两个组件的集成进一步将性能提升至94.61%,在分割精度和边界召回率(Rec从93.01%提升至95.13%)方面均显示出显著改进。

在壁分割中,BFFBlock和MSDABlock分别将Dice分数从84.57%提升至85.42%和85.65%。当这两个组件结合使用时,实现了最佳性能,Dice分数达到85.93%,并将召回率从85.29%提升至86.61%。

这些结果表明BFF增强了特征融合能力,而MSDABlock强化了空间注意力机制。它们的结合带来了互补效益,尤其在分割任务的召回率提升上表现得尤为明显。在不同指标上持续的性能提升验证了作者架构中这两个组件的必要性。

V. 结论

本文提出了一种用于颈动脉分割的两阶段框架,有效解决了空间上不连续的标注和复杂血管形态的挑战。yinqing-DBF-UNet_2504结合了SAM-Med2D微调和质心引导插值,通过基于噪声的框扰动和投票机制生成高质量的伪标签。所提出的DBF-UNet,具有用于密集下采样的DSDBlock、用于特征增强的MLKBlock以及用于双向融合的BFFBlock,在捕捉血管特征方面表现出卓越的能力。

在COSMOs2022数据集上的评估显示,yinqing-DBF-UNet_2504在血管腔和血管壁分割方面分别达到了95.22%和86.08%的Dice分数,实现了当前最佳性能。

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论