MSA-UNet3+:结合MSD-Bottleneck与CAFM用于DSA图像分割,辅以SPCL克服挑战实现精准诊断 !

向量数据库大模型机器学习

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

对比学习冠状动脉数字减影血管造影(DSA)图像的精确分割对于诊断和治疗冠状动脉疾病至关重要。尽管基于深度学习的分割技术取得了进展,但低对比度、噪声、重叠结构、类内方差高和类别不平衡等挑战限制了精确的血管轮廓描绘。

为了克服这些限制,作者提出了MSA-UNet3+:一种多尺度注意力增强

架构,用于冠状动脉DSA图像分割。

该框架结合了多尺度扩张 Bottleneck (MSD-Bottleneck)和上下文注意力融合模块(CAFM),不仅增强了多尺度特征提取,还保留了细粒度细节,并提升了上下文理解能力。

此外,作者提出了一种新的监督原型对比损失(SPCL),该损失结合了监督学习和原型对比学习,通过关注难以分类的背景样本,最小化类别不平衡和类内方差。在私有冠状动脉DSA数据集上的实验表明,MSA-UNet3+优于现有最佳方法,实现了87.73%的Dice系数、87.78%的F1分数,并显著降低了平均表面距离(ASD)和平均轮廓距离(ACD)。

该开发的框架为临床医生提供了精确的血管分割,能够准确识别冠状动脉狭窄,并支持精准的诊断和治疗决策。

代码将在以下GitHub个人资料链接中发布:https: //github. com/rayanmerghani/MSA-UNet3p1us。

  1. 引言

冠心病(CAD)是全局主要死亡原因之一[1, 2]。准确的诊断对有效治疗至关重要;然而,依赖冠状动脉造影视觉解释的传统方法不仅耗时,还存在观察者间差异和人为误差。数字减影血管造影(DSA)仍然是冠心病(CAD)的金标准成像方式,具有高空间和时间分辨率[1, 3]。然而,从DSA图像中提取有意义数据面临重大挑战,包括解剖结构干扰(肋骨、脊柱、膈肌)、血管重叠、对比度分布不均以及运动伪影[4]。

这些因素影响了冠状动脉的可见性,突出了需要先进的分割技术来提高诊断结果的需求。图像分割,定义为将图像划分为不同的语义区域的过程[4, 5],是冠状动脉分析中的一个基本步骤。该技术能够对血管形态、狭窄检测和 Patch 特征进行定量评估[6, 7]。尽管传统方法常难以处理DSA图像的复杂性,深度学习在图像分析方面已展现出显著的成功[4, 8]。其从大数据集中学习复杂特征的能力,使其在冠状动脉分割方面特别有效[6, 7]。

多项研究探讨了冠状动脉DSA图像分割的先进深度学习架构和训练策略。Zhang等人[3]提出了CIDN模型,用于X射线血管造影分割,该模型集成了生物启发式注意力模块(BAB)和多尺度交互模块(MIB),同时结合了二元交叉熵(BCE)和自适应交叉熵(ACE)损失函数。Deng等人[9]提出了DFA-Net,这是一种双分支网络,用于X射线DSA图像中的冠状动脉血管分割,采用对比度增强Transformer(CIET)和ResUnet++架构,通过联合风险交叉熵和Dice损失减轻类别不平衡问题。尽管DFA-Net优于现有方法,但它对时间和空间信息的利用不足。Shen等人[10]开发了DBCU-Net,集成了U-Net、DenseNet和双向卷积LSTM(BConvLSTM),以改进特征提取和上下文理解。DBCU-Net受类别不平衡和高计算成本的限制。Cui等人[11]提出了SMAU-Net,该模型采用多尺度空间注意力模块、特征聚合模块和细节监督模块来处理复杂的血管结构。

尽管SMAU-Net优于UNet,但它仍面临类别不平衡和精细血管分割的挑战。Zhang等人[12]提出了一种中心线监督多任务学习网络,通过通道注意力跳跃模块和中心线辅助监督模块改进UNet。尽管该网络优于当前最先进的方法,但它受类别不平衡和计算复杂性的限制。Zhu等人[13]开发了一种金字塔场景解析网络(PSPNet),这是一种多尺度CNN,利用迁移学习来解决低对比度和数据稀缺问题。然而,PSPNet面临类别不平衡和计算需求等挑战。

所综述研究中,分割网络,特别是编码器-解码器架构,面临关键性局限。编码器往往优先考虑性能而非语义嵌入[14],未能使相似类别向量在嵌入空间中紧密聚类。这一挑战在冠状动脉DSA分割中尤为突出,由于背景类别的结构多样性和边界模糊性,导致显著的类内差异和类别不平衡。当前方法为两类学习判别性表征,但难以应对负类别的极端多样性。大多数方法还忽视了硬负样本——这些样本因视觉差异而最优化信息丰富却最稀缺。

为解决这些局限性,作者提出了一种结合原型学习[15]和监督对比损失[16]的深度学习框架。作者的混合方法(图1)通过以下方式提高编码器判别性:

(1)通过监督对比损失对正特征进行聚类,同时将其与负特征分离;

(2)通过原型对比损失细化背景嵌入,该损失通过原型距离隔离难负样本。这种双重策略通过关注具有挑战性的样本,明确地针对类别不平衡和类内方差。作者将提出的监督原型对比损失(SPCL)集成到作者的多尺度注意力修改

(MSA

框架(图2)中。

该架构通过三个关键修改增强

(1)使用多尺度注意力编码器(M-encoder)替代传统编码器进行层次化特征提取;

(2)使用具有Atrous Spatial Pyramid Pooling(ASPP)的多尺度扩张 Bottleneck (MSD-Bottleneck)进行多上下文特征融合;

(3)使用执行通道特征再校准的上下文注意力融合模块(CAFM)。

解码器随后合成这些精细的多尺度特征,以生成精确的冠状动脉DSA分割 Mask 。这项工作的关键贡献可以总结如下。

picture.image

picture.image

  1. 作者提出了一种新的混合损失函数,监督原型对比损失(SPCL),它是监督对比损失和原型对比损失的混合。SPCL可以缓解类别不平衡和高类内方差的问题,显著增强编码器在冠状动脉DSA图像分割中区分复杂类的能力。这一新颖的解决方案减轻了当前技术的重大缺陷,从而提高了分割性能。
  2. 作者的独特方法特别强调并处理难以分类的背景样本,而常规方法通常忽略这些样本。聚焦于此类困难案例,所提出的框架保持了更高的学习效率、更鲁棒的分割精度,以及更适用的知识,即如何处理冠状动脉DSA图像中的类别不平衡问题。这种方法确保了与实际临床动态实现相比的改进泛化能力和性能。
  3. 作者开发并提出了多尺度注意力修改版

,这是一个具有多尺度注意力编码器、多尺度扩张 Bottleneck 以及上下文注意力融合模块(CAFM)的通用分割框架,旨在达到最先进的性能。该架构特别针对冠状动脉DSA图像进行了优化,因此有助于提升特征提取、上下文理解以及复杂解剖结构的精确分割。作者称作者的新模型为nMSA-UNet3+,它在医学图像分割的准确性和计算效率方面超越了先前最先进的技术。

  1. 相关工作

医学图像分割对于计算机辅助诊断和治疗规划至关重要[17, 18]。虽然UNet及其变体[19, 20]在捕捉空间上下文信息方面表现出色,但标准U-Net在细节处理和类别不平衡方面存在困难。Res-UNet和Attention Res-UNet等变体解决了这些问题。近期进展包括:(1)基于卷积神经网络(CNNs)的架构用于鲁棒特征提取[18, 21, 22],(2)全卷积网络(FCNs)用于灵活的输入尺寸[5],(3)循环神经网络(RNNs)/ConvLSTMs用于时序建模[23, 24],以及(4)生成对抗网络(GANs)用于数据增强[25]。

Transformer(如TransUNet[26])和基础模型如SAM[20]现可通过注意力机制实现长距离依赖。然而,类别不平衡仍然是一个基本挑战,特别是在医学影像中,背景主导会偏移模型性能[27]。

2.1 传统类别不平衡方法

处理机器学习中类别不平衡的传统方法,如数据重采样技术,也可应用于医学图像分割。过采样技术,如从少数类创建合成样本,旨在平衡类别分布[28]。然而,简单的过采样方法可能导致过拟合,特别是在医学图像的背景下,其中生成真正有代表性的合成数据具有挑战性。另一方面,欠采样涉及从多数类中删除样本[29]。

虽然这可以降低计算成本并减轻过拟合,但它会导致信息丢失并可能丢弃有价值的数据。这些技术的有效性高度依赖于特定数据集和类别不平衡的性质[29]。然而,即使使用过采样,也必须仔细考虑用于生成合成数据的方法,以确保它们准确代表底层数据分布并防止过拟合[28]。

2.2. 损失函数修改

直接在损失函数中解决类别不平衡问题是一种常见的策略。虽然标准的交叉熵损失对类别不平衡敏感,从而倾向于多数类[30, 31],但存在三种关键改进:

(1) 加权交叉熵通过手动加权重新平衡类别贡献,防止模型被多数类主导[31, 32],然而确定合适的权重可能具有挑战性,并可能需要超参数调整[33];

(2) Focal损失[30, 34]减少易于分类样本(通常来自多数类)的贡献,并将学习重点放在少数类的更具挑战性的样本上;

(3) Tversky损失[35],作为Dice损失的推广,通过调整假阳性与假阴性的权重,为解决类别不平衡提供了另一种途径,允许在精确率和召回率之间进行更平衡的权衡。损失函数的选择取决于数据集特征和期望的精确率-召回率权衡[30]。

2.3. High-Level技术

为解决医学图像分割中的类别不平衡问题,已探索了超越传统及基于损失函数方法的High-Level技术。半监督学习利用 Token 数据与 未标注 数据相结合显示出潜力[36, 37]。对比学习[38, 39]和一致性正则化等方法从有限 Token 数据中学习鲁棒表征,提升少数类别的性能。这些方法通常涉及数据增强并在同一图像的不同增强版本之间强制预测一致性。例如,提出了一个多任务对比学习框架,通过全局和局部对比学习以及多尺度不确定性估计来解决类别不平衡[38]。此外,一个双路径框架通过将目标划分为子类别并使用加权图来指导分割,解决类内不平衡问题[40]。

尽管大多数对比学习研究集中于无监督设置,Khosla等人[41]通过将同一类别的所有样本视为正样本,将其扩展到了监督学习。对比学习也被应用于语义分割。Chaitanya等人[42]在自监督框架内引入了技术来利用体积医学图像中的结构相似性,将相似体积的切片分类为正样本对,将不同体积的切片分类为负样本对。类似地,Zhao等人[43]提出了一种使用对比损失的微调方法用于语义分割。然而,这些研究的主要目的是在有限数据的情况下提高性能,而不是训练分割编码器以使其能够内在地学习语义嵌入。

尽管取得了显著进展,但在医学图像分割中解决类别不平衡问题仍面临挑战。生成高质量的合成数据仍然困难,且损失函数或数据增强策略的最佳选择往往是数据集特定的[44]。克服这些挑战对于准确分割冠状动脉DSA图像至关重要。本研究整合了监督学习和原型对比学习策略,提出了一种结合监督对比损失与原型对比损失的混合损失。该方法增强了编码器生成判别性特征的能力,从而能够更好地区分不同类别。通过聚焦于具有挑战性的负样本,混合损失有效解决了类别不平衡和高类内方差问题。

  1. 方法

3.1. 概述

在本研究中,作者提出了一种结合对比学习的多尺度注意力修改

(MSA-UNet3+)网络,用于CAD诊断中的冠状动脉DSA图像分割。现有方法在处理冠状动脉DSA图像时面临重大挑战,这主要源于两个相互关联的因素:模糊的背景类别包含多种解剖结构(肋骨、脊柱、膈肌和肺部),以及由此产生的类内方差高和类别不平衡。为解决这些局限性,作者引入了监督原型对比损失(SPCL),该损失统一了监督学习和原型对比学习的优势。监督部分提升了判别性特征学习,而原型部分优化了类别感知嵌入。通过这种双重机制,SPCL显著提高了前景-背景分离效果,同时通过基于原型的硬样本挖掘有效解决了类别不平衡问题。

3.2. 基于监督原型对比学习的监督对比学习

图1展示了yinqing-MSA-UNet3+_2504的流程图,该方法集成了原型[15]和监督对比学习[16]。该框架包含两个关键组件:1)监督对比嵌入(SCE)通过最小化语义相似区域(例如前景-前景或背景-背景对)的特征向量之间的距离,同时最大化不相似区域(前景-背景对)之间的距离来学习判别性特征表示。这确保了语义相关的图像区域在嵌入空间中聚类。2)原型对比损失(PCL)通过将前景样本吸引到类特定的原型,同时将背景样本排斥这些原型来增强特征分离。这通过专注于区分前景和背景来减少训练负担,而前景和背景通常表现出高类内可变性。此外,模型根据其与前景原型的距离识别和优先处理具有挑战性的背景样本,从而增强了学习表示的判别能力和鲁棒性。

组合监督原型对比损失(SPCL)利用了全局(SCE)和局部(PCL)特征关系。通过根据硬负样本与前景原型的距离自适应地加权,SPCL解决了类别不平衡和类内变异问题。这种双重策略生成了鲁棒的特征表示,提升了分割性能,特别是在具有异构背景结构的挑战性案例中。

3.3. 架构概述和损失函数

MSA-UNet3+架构扩展了

框架,用于医学图像分割,特别针对冠状动脉DSA分析进行了优化。如图2所示,该模型采用编码器-解码器结构,包含三项关键创新:首先,编码器执行分层下采样以提取多尺度特征,而 Bottleneck 层集成了空洞空间金字塔池化(ASPP)模块用于多上下文特征聚合。其次,上下文注意力融合模块(CAFM)通过多特征融合组合编码器输出,有效融合细粒度细节与高层语义上下文。这种双尺度集成提升了不同大小和复杂度结构的分割性能。最后,解码器通过上采样和 Shortcut 的特征重组逐步重建分割 Mask 。该架构生成两个输出:(1)通过最终卷积层生成的分割 Mask ,(2)通过嵌入层生成的紧凑特征表示用于辅助分析。这些设计元素共同使MSA-UNet3+在具有挑战性的冠状动脉DSA分割任务中达到当前最佳性能,尤其适用于受噪声和低对比度影响的复杂解剖结构。

U-Net自提出以来,一直作为医学图像分割的基础架构。后续的改进,包括

,显著提升了这一 Baseline 性能。在这些改进中,

通过其创新的编码器-解码器结构,特别是其内部连接和外部连接,展现了特别的有效性。这种设计在保留空间信息的同时,能够捕捉全面的多尺度特征,解决了

的两个关键局限性:特征不足和计算效率低下。通过充分利用先前特征图,

实现了更高的学习效率,同时降低了计算开销。基于这些优势,作者采用

作为作者提出的MSA-UNet3

架构的核心。

3.3.1. M-编码器(多尺度注意力编码器)

传统编码器在特征提取、空间信息保留和上下文理解方面通常存在局限性。为克服这些挑战,作者借鉴[45]提出了一种M-编码器,如图3所示。该架构采用三个渐进式卷积层,用于精炼和连接特征,从而实现更深层次和更全面的特征提取。一项关键创新是集成了挤压-激励(Squeeze-and-Excitation,SE)模块,该模块作为通道注意力机制。该组件动态重新校准特征响应,增强关键特征同时抑制信息量较少的特征。通过在SE模块之前连接多尺度特征,M-编码器在每个层上实现了更丰富的特征表示。整个过程以一个降维卷积结束,该卷积在保留重要信息的同时提高了计算效率。完整的M-编码器操作由公式(1)正式定义。

picture.image

其中,

表示输入到M-Encoder的特征图,Output表示输出特征图,Cat表示在通道维度上的拼接操作,

表示Squeeze-and-Excitation模块。

3.3.2. MSD-Bottleneck(多尺度扩张 Bottleneck )

连续的卷积和池化操作常常会降低对精确分割至关重要的细粒度细节,而传统的上采样方法又无法充分恢复这些特征。为了克服这些局限性,作者基于[45]引入了MSD-Bottleneck模块(图4)。该模块将Bottleneck结构与空洞空间金字塔池化(ASPP)机制相结合,以同时保留细粒度细节并捕获多尺度上下文。MSD-Bottleneck采用三种渐进式膨胀模式([1,2,1]、[2,4,2]、[4,8,4]),以高效地提取多尺度特征,而不会显著增加参数量。残差连接缓解了梯度消失问题,促进了更深网络层的训练。ASPP组件通过并行膨胀卷积(膨胀率

[4,8])和全局平均池化,进一步增强了上下文理解。这些特征被连接并投影到原始通道维度上,有效地结合了局部精度与全局上下文。从数学上讲,对于输入

,该模块首先通过三个带残差连接的膨胀Bottleneck块进行处理,如公式(2)所示。然后输出通过ASPP阶段。

picture.image

其中,

表示输入到MSDBottleneck的特征图,符号 dilation

指明了三个卷积层,其膨胀率分别为1、2和1,ASPP表示输出特征图,Cat表示在通道维度上的拼接操作,AAP表示自适应平均池化。

3.3.3. 上下文注意力融合模块 (CAFM)

分割网络中的编码器通过渐进式下采样分层提取特征图;然而,深层往往丢失关键的空间上下文,特别是在复杂的医学影像(如冠状动脉数字减影血管造影(DSA))中。为解决这一问题,上下文注意力融合模块(CAFM)(图5)通过使用扩张卷积整合多尺度上下文信息来增强特征图。这些卷积在保持分辨率的同时扩展感受野,从而实现跨不同血管尺寸的鲁棒特征提取,这是冠状动脉DSA的关键要求。此外,CAFM集成了Squeeze-and-Excitation(SE)块,以动态重新校准通道特征重要性,确保模型优先考虑具有诊断意义的特征。通过细化特征表示,CAFM为解码器提供高质量、上下文丰富的输入,用于精确的分割重建。此外,它通过增强的多尺度表示弥合了编码器-解码器层次之间的语义差距。该模块捕获精细和粗略解剖结构的能力显著提高了医学影像任务中的分割性能。其数学公式在公式(3)中给出。设

为输入到CAFM模块的特征图。该模块执行的操作可描述如下,扩张率为[1, 2, 4, 8]:

picture.image

其中,

表示输入到CAFM模块的特征图,

表示Squeeze-and-Excitation模块,符号dilation=[1, 2, 4, 8]指定了四个卷积层,其膨胀率分别为1、2、4和8。

3.3.4. 损失函数

在本研究中,作者使用复合损失函数优化用于冠状动脉DSA图像分割的深度学习模型。鉴于此类任务中固有的类别不平衡和高类内变异性的挑战,损失函数的选择至关重要。尽管二元交叉熵(BCE)和Dice损失被广泛采用,但它们并不内在地强制编码器进行语义上有意义或具有区分性的特征学习。为解决这一局限性并提高分割性能,作者提出了一种新的监督原型对比损失(SPCL),并与BCE和Dice损失一起使用。通过作用于嵌入特征向量,SPCL鼓励编码器生成语义丰富且具有区分性的表示,从而提高分割网络的整体性能。

  1. 二元交叉熵损失(BCE)是二元分割任务中广泛使用的损失函数。它测量预测概率图与真实标签之间的不相似度。对于二元分割任务,BCE损失的定义如公式(4)所示:

其中

是像素 i 的真实标签(0 或 1),

是像素 i 属于前景类的预测概率,

是像素总数。BCE 损失通过惩罚与真实标签的偏差,确保模型能够正确分类每个像素。然而,它可能难以处理类别不平衡问题,因为它对所有像素一视同仁,无论类别分布如何。

  1. Dice Loss是评估分割性能的常用指标,尤其在医学图像任务中,预测 Mask 与真实 Mask 之间的精确重叠至关重要。它测量预测分割 Mask 与真实 Mask 之间的相似性。通过最大化这种重叠,Dice Loss促使模型关注感兴趣区域,从而提高分割性能。Dice Loss的定义如公式(5)所示:

其中

分别为像素

的真实标签和预测概率。Dice损失通过强调正确的 foreground 类别预测来补充BCE损失,这对于冠状动脉DSA图像的精确分割至关重要。

  1. 受监督原型对比损失为解决类别不平衡和高类内方差问题,作者引入受监督原型对比损失(SPCL)。该损失结合了受监督对比损失和原型对比损失,增强了编码器区分不同类别的能力。(1) 受监督对比损失:该损失促使编码器将相似图像样本(前景或背景区域)的特征向量在嵌入空间中映射得更近,同时将不相似的样本推得更远。损失函数定义为式(6)中的形式:

其中

是特征向量,

的正对集合,

的所有对集合,sim 是余弦相似度函数,

是温度参数,在本工作中未经超参数调整设置为 1。

(2) 原型对比损失:该损失学习前景类原型,将前景样本拉向它们,同时将背景样本推离。损失函数定义为式(7)所示:

其中,

:有效嵌入的总数(像素),

:原型数量,

:嵌入

与原型

之间的余弦距离,

:正样本的权重(接近其原型),

:负样本的权重(远离其原型),以及

:控制类别分离的边缘参数。

(3) 总损失:总损失是上述损失的加权组合,如公式(8)定义:

其中,

是控制每个损失分量贡献的超参数。该组合损失利用了各个损失的优势,以提高冠状动脉DSA图像任务的分割性能,其中

结合了

4 实验结果

4.1. 数据集

本研究使用的DSA数据集来源于[46]的作者,原始数据来自南方战区总医院。该数据集包含50名患者的300个冠状动脉血管造影序列,每个序列分辨率为

像素,包括左右冠状动脉成像。本研究仅使用右侧冠状动脉图像(150张图像)。视频捕捉了造影剂在冠状动脉中的 Stream ,临床医生选择最具临床意义的帧。经过预处理后,图像被调整为

像素。数据集分为120张训练图像和30张测试图像。训练过程中采用5折交叉验证,将120张训练图像分为五个等份。最终评估结果为所有折的均值。

4.2. 实现细节

所提出的模型使用PyTorch和PyTorch Lightning实现,为深度学习实验提供了灵活且可扩展的环境。实验在配备24 GB内存的NVIDIA RTX 4090 GPU上进行。数据集被划分为训练集和测试集,图像和标签均被调整至

像素。预处理包括使用均值为0.5和标准差为0.5将数据归一化至

范围[47]。在训练过程中应用了数据增强技术,如随机亮度调整[48]和对比度调整[49],以增强泛化能力。模型使用Adam优化器进行训练,初始学习率为0.001,并在训练周期的60%和80%时通过多步调度器将学习率降低0.1倍。训练共进行100个周期,批处理大小为5。

4.3. 评估指标

作者使用五个指标评估了分割模型:召回率、F1分数、Dice系数、平均轮廓距离(ACD)和平均表面距离(ASD)。

  1. Dice系数(Dice相似系数,DSC)它衡量预测分割 Mask 与真实标签之间的重叠程度。在医学图像分割中广泛使用,它强调正确的前景类预测。DSC的数学表示如式(9)所示。

其中,True Positives (TP) 表示被正确预测为前景的像素;False Positives (FP) 表示被错误预测为前景的像素;False Negatives (FN) 表示被错误预测为背景的像素。

  1. 召回率(灵敏度)它衡量模型正确识别出的真正阳性像素的比例,如公式(10)所定义:

召回率是医学影像中的关键指标,因为遗漏目标结构的一部分(例如冠状动脉)可能造成严重后果。

  1. F1分数

这是精确率和召回率的调和平均值,如公式(11)所示,它提供了一个平衡的模型性能度量。

精确度衡量正确预测的前景像素的比例(精确度

)。F1分数平衡了精确度和召回率,使其成为评估分割性能的综合指标,特别是在不平衡数据集上。

平均表面距离 (ASD)

ASD测量预测 Mask 和真实 Mask 表面之间的平均距离,作为

标注:

,VV p值<0.01,p值

,p值

,与 Baseline

相比; Baseline

:使用SPCL,AU-Net注意力U-Net和NAUNet注意力UNet++。

由公式(12)定义:

其中,

分别是预测 Mask 和真实 Mask 的表面积;

是点

上到

的最小欧几里得距离;

是点

上到

的最小欧几里得距离。ASD 评估分割边界精度,较低值表示预测轮廓与真实轮廓之间更好的对齐,这对于冠状动脉分割等任务至关重要。

平均轮廓距离 (ACD)

ACD测量预测 Mask 和真实 Mask 轮廓之间的平均距离,特别关注轮廓点。其定义为公式13所示:

其中,

分别是预测 Mask 和真实 Mask 的轮廓;

是点

上到

的最小欧几里得距离;

是点

上到

的最小欧几里得距离。ACD 提供了对轮廓对齐的聚焦评估,这对于需要精确形状和边界任务的场合至关重要,例如血管结构分割。

4.4. 比较结果

作者通过两种互补的分析来展示作者的研究结果。首先,作者评估了作者提出的监督原型对比损失(Supervised Prototypical Contrastive Loss,SPCL)在六种已建立的医学图像分割架构中的有效性:UNet[50]、Att U-Net[51]、UNet++[52]、R2U-Net[22]、Attention UNet+[53]以及R2AU-Net[23]。对于每种架构,作者进行了配对实验,比较基准性能(在公式8中

)与SPCL增强版本(在公式8中

)的性能。

如表1所示,作者在冠状动脉DSA数据集上的5折交叉验证结果表明,采用SPCL时,结果具有一致且具有统计学意义的提升(单尾t检验,

0.05)。具体而言,Dice系数从

提升至

picture.image

87.15%,以及85.68%至87.87%的87.85%,87.83%,87.03%,87.79%和86.80%,分别对应U-Net、Att U-Net、UNet++、R2UNet、Attention UNet++和R2AU-Net。所有架构和指标上的这些定量改进证实了SPCL作为通用增强方法在医学图像分割任务中的有效性。

作者对冠状动脉DSA分割的损失函数进行的比较分析(图6)表明,将SPCL与Dice+BCE相结合能够在所有架构中带来一致的性能提升,DSC增益范围从UNet的+0.36到R2AU-Net的+1.12。这一性能提升与表1中的研究结果一致,证实了SPCL的双重能力:(1)通过语义聚类提升特征区分能力;(2)通过对比学习解决类别不平衡问题。SPCL在U-Net至R2AU-Net不同架构中展现出的鲁棒性以及显著的性能提升幅度,使其成为医学分割任务的通用解决方案。

picture.image

这些结果证实了作者早期的定量评估,同时为SPCL的架构依赖优化特性提供了新的见解。图7中的定性比较展示了SPCL的两种关键改进效果:(1)增强的血管连续性,特别是在 Baseline 模型会断裂血管的复杂分支结构中;(2)传统方法常遗漏的细小血管的更好保留。

picture.image

这些视觉改进与表1中所示的定量指标相一致。黄色高亮区域特别展示了SPCL在临床挑战区域保持解剖保真度的能力,在保留关键血管连通性的同时抑制背景噪声,最终得到与真实标注更匹配的分割结果。

在作者SPCL评估的补充下,第二个视角将所提出的MSA-UNet3+与十五个最先进的医学分割模型进行对比:SwinUNet [54]、CMU_Net [55]、MMDC_Net [56]、FR_Unet [57]、Isunetv1 [46]、CA_Net [58]、MBS_Net [59]、CMU_NeXt [60]、BCU_Net [61]、MCDAU_Net [45]、MGA_Net [62]、IMFF_Net [63]、DATrans_Unet [64]以及PMFS_Net [65]。通过全面的定量指标和定性视觉比较,作者展示了MSA-UNet3+'在分割性能上的优越性,特别是在具有挑战性的解剖区域。

标注:粗体数字表示每种架构和指标的最佳性能,而加下划线的数字表示次优性能。

p值<0.0001,

p值<0.0005,p值<0.05,VV p值<0.01

p值<0.1,与MSA-UNet3+(作者)相比,p值<0.2。

4.4.1. 定量分析

本节评估了MSA-UNet3+在冠状动脉DSA数据集上的分割性能。表2中的定量结果表明,该模型性能优越,尤其是在捕捉精细血管结构方面优于现有方法。在冠状动脉DSA数据集上对所提出的MSA-UNet3+进行评估(表2)显示,该模型在关键指标上表现出具有竞争力的性能。尽管MCDAU_Net获得了最高的召回率

,但MSA-UNet3+在多个关键方面实现了更优的性能:具有第二高的召回率

、所有模型中最佳的F1分数

和Dice系数

,以及卓越的边界精度(最低的ASD

  • 和ACD

)。虽然CMU_Net(召回率:

)和MCDAU_Net表现出具有竞争力的结果,但在整体F1、Dice和边界精度方面均低于MSA-UNet3+。类似地,FR_UNet和CA_Net显示出虽具竞争力但始终劣于所提出模型的性能。这些结果表明,MSA-UNet3+是冠状动脉DSA分割的当前最佳解决方案,结合了均衡的指标性能与临床至关重要的边界精度。

picture.image

图8展示了模型效率(以参数数量衡量)与分割精度(以DSC和ACD量化)之间的权衡关系。所提出的MSA-UNet3+实现了最佳平衡,仅用7.54百万参数即可达到87.78%的DSC,显著少于CA_Net、CMU_Net和MMDC_Net等同等精度的模型。虽然PMFS_Net表现出更高的效率(0.33百万参数),但其较低的DSC(84.49%)凸显了精度与效率之间的权衡。图中视觉编码增强了可解释性:点的大小随模型规模变化,而颜色强度反映ASD,颜色越深表示ASD越低(表面距离精度越好)。MSA-UNet3+在两个维度上均表现优异,结合了具有竞争力的ASD(0.76)和紧凑的架构。这些结果将MSA-UNet3+定位为计算资源和分割质量均至关重要的实际应用中的理想解决方案。

picture.image

进一步验证模型的鲁棒性,图9中的性能分布分析表明,yinqing-MSA-UNet3+_2504("ours")实现了较高的中位数Dice系数和相对较紧的四分位距,这表明了可靠的分割性能。可视化中的标注 Token (橙色圆圈表示中位数,绿色三角形表示均值)揭示了一个重要的权衡:CMU_Net和MMDC_Net等模型虽然显示出较高的中位数Dice系数,但具有更宽的四分位距,表明性能一致性较差。

picture.image

相比之下,更稳定的模型(MGA_Net、MCDAU_Net)实现了更窄的误差范围,但分割质量有所下降。结合参数效率分析,这些结果将作者的解决方案定位为临床最优,在性能、一致性和计算实用性方面实现了平衡,适用于临床实施。

4.4.2. 定性分析

图10中展示的定性比较考察了四个具有代表性的测试样本,从左到右依次显示:原始DSA图像、真实标注、五个成熟方法的分割结果(BCU_Net、CMU_NeXt、DATrans_Unet、Isunetv1和PMFS_Net),以及yinqing-MSA-UNet3+_2504的结果。视觉标注通过黄色矩形 Token 假阴性(漏检血管)和绿色矩形指示假阳性(错误检测)来突出性能差异。yinqing-MSA-UNet3+_2504在所有评估样本中均表现出持续优越的性能,展现出三个显著优势:(1)精确勾勒精细血管结构,尤其在第三行的细小血管中明显可见;(2)在包含成像噪声和解剖重叠的诊断挑战区域中表现可靠;(3)相对于对比方法,在假阳性和假阴性错误方面实现了平衡的缓解。

picture.image

详细分析表明,尽管BCU_Net和CMU_NeXt在复杂解剖背景下产生了大量的误报,但DATrans_Unet和Isunetv1表现出显著的漏报率,未能识别精细的血管细节。PMFS_Net的性能介于两者之间,在不同血管结构上的准确率存在差异。

作者分割结果与真实标注之间的紧密视觉对应关系,突显了该模型在冠状动脉分析中用于临床实施的潜力,其中精确的血管轮廓描绘对于准确诊断和治疗计划至关重要。

4.5. 消融研究

提出的MSA-UNet3

框架通过整合三项关键创新来应对冠状动脉DSA分割的挑战:用于多尺度特征提取的多尺度扩张 Bottleneck (MsDBottleneck)、用于空间上下文信息整合的上下文注意力融合模块(CAFM)以及用于特征判别和类别不平衡缓解的监督原型对比损失(SPCL)。这些组件共同针对冠状动脉造影中的复杂血管形态、前景背景不平衡和边界模糊问题。如表3所示,消融研究量化了每个模块对模型整体性能的贡献,突出了它们在解决不同分割挑战时的互补优势。

picture.image

4.5.1. 有监督原型对比损失(SPCL)的影响

SPCL代表1种专门设计的损失函数,旨在通过促进学习特征空间中更清晰的类别表示来提高特征区分能力。当将其整合到 Baseline 模型中时,SPCL在所有评估指标上均产生了持续改进:召回率从

提升至

,F1分数和Dice系数均显示出可测量的提升,分别从

改进为

。尤为突出的是,SPCL显著降低了分割误差指标,平均表面距离(AsD)从0.8914减少至0.8517,平均轮廓距离(ACD)从0.8639提升至0.8263。这些结果表明SPCL能够通过优化模型的特征表示来增强类别分离能力,尤其是在具有挑战性的边界区域。当与互补的架构组件结合时,SPCL的完整潜力尤为明显。例如,当与多尺度扩张 Bottleneck (Multi-Scale Dilated Bottleneck,base

配置)结合时,SPCL实现了显著的性能提升。F1分数和Dice系数分别达到

,而AsD和ACD指标进一步改善,分别达到0.7689和0.7509。这些结果显著超越了 Baseline 性能。这种组合突显了SPCL在多尺度特征提取方面的补充能力,使模型能够在不同尺度上以极高的精度区分类别。SPCL通过提高特征区分能力和增强多尺度性能做出了重要贡献。

4.5.2. MSD Bottleneck 的影响

MSD-Bottleneck模块采用具有不同膨胀率的膨胀卷积来捕获多尺度特征,从而实现对具有不同尺寸和形态特征的物体的鲁棒处理,这对于冠状动脉DSA图像分割是一项关键能力。当集成到 Baseline 架构中时,MSD-Bottleneck显著提升了性能,将召回率从

提高到

,同时将平均表面距离(AsD)从0.8914降低到0.7989,并将平均轮廓距离(ACD)从0.8639降低到0.8136。这些定量改进突显了多尺度特征提取对于在不同空间尺度上准确检测和分割血管结构的基本重要性。当与监督原型对比损失(SPCL)结合使用时,该模块的有效性进一步增强,分割误差指标进一步降低至0.7689(ASD)和0.7509(ACD)。

MSDBottleneck与SPCL之间的互补交互源于其互补机制:MSD-Bottleneck通过其扩张卷积架构提供全面的尺度特征提取,而SPCL则同时优化这些特征的判别质量。这些组件的结合操作相较于其单独贡献产生了更优的分割性能,表明尺度特征捕获和特征空间细化在相互促进的方式下运行。

4.5.3. 上下文注意力融合模块(CAFM)的作用

上下文注意力融合模块(CAFM)通过选择性地整合来自不同图像区域的上下文信息,同时抑制无关特征,提升了分割性能。这种注意力机制显著增强了模型的全局上下文理解能力,这对精确的冠状动脉血管分割至关重要。当与 Baseline 架构(baseline+cAFm)结合使用时,该模块展示了可测量的性能提升:召回率从

增加到

,F1分数从

)和Dice系数从

均有所上升。此外,CAFM大幅减少了分割错误,如平均表面距离(ASD)从0.8914降至0.8003,平均轮廓距离(ACD)从0.8639降至0.7820,证实了边界对齐精度的提升。然而,当与其他High-Level组件结合时,该模块的增量效益变得不那么显著。在结合监督原型对比损失(baseline+S P C L+C A F M)或多尺度扩张 Bottleneck (baseline+CAFM+MsD)的配置中,性能提升较为温和,仅表现为F1分数的轻微改善和ASD、ACD指标的微小降低。这一观察结果表明,虽然CAFM独立提供了显著的上下文理解增强,但当与其他复杂模块集成时,其附加价值会减弱,因为它们各自的贡献似乎通过互补机制而非放大机制来与CAFM的功能相互作用。

4.5.4. 综合贡献

完整的MSA-UNet.

架构,集成了三个关键组件(MSD-Bottleneck、CAFM和SPCL),在所有评估指标上均表现出最优性能。统一模型实现了86.775%的召回率,以及87.776%的F1分数和87.733%的Dice系数,同时同时获得了最优的边界对齐指标,ASD和ACD值分别为0.7587和0.7411。这些结果表明了各组成部分的有效协同操作:MSD-Bottleneck的多尺度特征提取能力、CAFM的上下文信息整合能力以及SPCL的特征增强辨别能力共同构建了一个全面精确的分割框架。每个组件针对冠状动脉分割中的特定挑战,其协同操作使得在处理复杂解剖变异时表现出优越性能。通过系统的消融分析,作者确认每个模块(MSD-Bottleneck、CAFM和SPCL)都对MSA-UNet3+的整体性能做出了实质性和独特的贡献。这些组件的完整集成产生了超越当前最先进方法的分割结果,将MSA-UNet3+定位为满足冠状动脉DSA图像分析高要求的有效解决方案。该框架的成功源于其多尺度处理、上下文感知和辨别特征学习之间的平衡结合,这些共同应对了血管分割任务中的主要挑战。

  1. 结论

针对冠状动脉DSA图像分割中存在的上下文信息不足和微血管特征丢失的挑战,作者提出了一种新型的多尺度注意力改进UNet3+(MSA-UNet3+)框架。该框架集成了多尺度扩张 Bottleneck (MSD-Bottleneck)和上下文注意力融合模块(CAFM),以增强多尺度特征提取和上下文理解能力。此外,作者引入了一种新型的监督原型对比损失(SPCL),通过聚焦于难以分类的背景样本来缓解类别不平衡和高类内方差问题。

MSA-UNet3+框架能够有效捕捉细粒度细节和更广泛的结构信息,从而实现对DSA图像中冠状动脉的精确分割。yinqing-MSA-UNet3+_2504在冠状动脉DSA数据集上通过定性和定量分析进行了评估,显示出在分割性能方面的显著提升,特别是在低对比度和小血管分割方面。所提出的模型达到了当前最佳性能,与现有方法相比,在Dice系数、F1分数、召回率和边界误差减少方面均表现更优。

尽管所提出的框架展示了有前景的分割性能,但有几个局限性值得考虑。当处理含有严重噪声污染、显著运动伪影或血管结构因对比度极低而变得根本无法区分的DSA图像时,模型的有效性仍然受限。这些具有挑战性的场景目前由于血管造影成像的固有局限性导致分割结果不理想。未来的研究方向将聚焦于三个关键改进:首先,作者将研究融合多模态方法,结合血管内超声(IVUS)和光学相干断层扫描(OCT)等互补成像模态,以增强在疑难病例中的分割可靠性。其次,作者计划开发优化的轻量级架构变体,适用于在医疗成像设备上部署,从而促进介入手术过程中的实时临床决策。第三,尽管当前实现专门针对冠状动脉DSA分析,但底层方法显示出相当大的潜力,可适应其他具有相似挑战的医疗分割任务,包括类别不平衡和复杂的解剖背景。

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论