VesselSAM:融合AtrousLoRA模块改进SAM用于主动脉血管分割,多数据集验证高精度且降计算开销!

大模型数据中台机器学习

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

医学图像分割对于临床诊断和治疗规划至关重要,特别是在处理复杂的解剖结构如血管时更为重要。在本文中,作者提出了VesselSAM,这是对Segmentation Anything Model (SAM) 的一种改进版本,专门用于主动脉血管分割。

VesselSAM 结合了AtrousLoRA,这是一个新颖的模块,将Atrous Attention与Low-Rank Adaptation (LoRA) 相结合,以提高分割性能。Atrous Attention 允许模型捕获多尺度上下文信息,既保留了精细的地方细节,又保持了广泛的全局语境。与此同时,LoRA 促进了冻结的SAM图像编码器的有效微调,减少了可训练参数的数量,确保了计算效率。

作者在两个具有挑战性的数据集上评估了VesselSAM:主动脉血管树(AVT) 数据集和Type-B 主动脉夹层(TBAD) 数据集。

在多个医疗中心,VesselSAM 达到了最先进的DSC 分数:93.50%,93.25%,93.02% 和 93.26%。

作者的实验结果表明,VesselSAM 不仅提供了高精度的分割,而且还显著减少了与现有大规模模型相比的计算开销。这一发展为临床环境中基于AI的主动脉血管分割奠定了基础。

该代码和模型将在 https://github.com/Adnan-CAS/AtrousLora 上发布。

unsetunset1. INTRODUCTIONunsetunset

治疗各种疾病。在这个领域中,医学图像分割是关键组成部分,旨在勾勒出诸如器官、肿瘤和血管等结构[1]。主动脉血管分割尤其重要,对于诊断心血管疾病至关重要,能够实现对血管健康的精确评估,并支持支架置入和动脉瘤监测等干预措施。它在这些方面起着重要作用。

在计算机辅助诊断、治疗规划和手术干预中的作用[2]。随着计算资源的迅速发展以及医疗数据的日益丰富,视觉 Transformer (ViTs)已成为医学图像分析的一个变革性方法[3]。与传统的卷积模型不同,ViTs 利用自注意力机制来捕获长程依赖关系和全局上下文[4],显著提高了对医学图像中复杂结构建模的能力[5]。

这一范式的转变铺平了通往更高级分割技术的道路,如分割一切模型(SAM)、Swin-Unet、UNETR、SAMMedAI 和 MedSAM,这些技术利用 ViT 的强大功能实现了准确而高效的分割任务。SAM 允许用户通过点击、边界框和文本等交互 Prompt 生成分割 Mask 。其卓越的零样本和少样本能力在自然图像分割中表现尤为突出,引起了广泛关注。然而,尽管 SAM 在自然图像分割方面表现出色,但近期的研究指出它在医学领域存在局限性 [11][12]。

医学图像通常具有低对比度、模糊的组织边界和小感兴趣的区域等特点,这对SAM [13]提出了独特的挑战。近年来,一些方法 [14]-[16]试图通过引入领域特定增强技术来微调SAM以适应医学图像分割。然而,这些模型的微调需要大量的计算资源,因为基础模型如SAM包含了大量的参数。此外,使用有限的任务特定数据训练大型模型往往会导致过拟合和性能不佳。为了克服这些挑战,已经开发出了参数效率更高的微调(PEFT)方法,例如低秩适应(LoRA)[17],作为一种可行的解决方案。各种方法将LoRA与SAM结合,旨在保持性能提升的同时提高计算效率,尤其是针对医学图像分割 。

尽管如此,SAM 存在一些基本的固有限制。基于普通 ViT 的图像编码器无法捕捉医学影像中密集预测所需的局部模式和细微特征,这是由于缺乏关键的视觉特定归纳偏差 [20]。此外,SAM 的 ViT 架构依赖于全局注意力机制,而不整合区域注意力或稀疏注意力机制,这对于聚焦于相关区域并减少计算开销至关重要 [21]。虽然区域注意力有助于在不同尺度上捕获空间层次结构,但 SAM 对全局注意力的依赖限制了其对医学影像中小而复杂的区域的关注能力。相比之下,缺少稀疏注意力使得 SAM 在不显著增加计算成本的情况下难以有效捕捉全局上下文。这些限制使 SAM 容易出现错误,例如在分割中生成小且不连通的部分 [4] [9],特别是在建模血管、肿瘤或病变等结构时。为增强普通 ViTs 在密集预测任务中的性能,最近的研究将 Transformer 和卷积特征结合起来 [22][23]。一项研究 [24] 将空洞注意机制与 ViTs 结合,能够在保留分辨率的同时进行多尺度特征提取。空洞注意力机制结合了区域注意和稀疏注意,允许模型在关注局部细节的同时捕捉更广泛的上下文。

受工作[24]的启发,作者提出了一种名为VesselSAM的模型,该模型结合了空洞注意机制和SAM,利用全局Transformer注意机制和局部卷积归纳偏差。VesselSAM引入了几项关键创新以增强SAM的能力。首先,作者整合了空洞空间金字塔池化(ASPP),以捕捉多尺度上下文信息,从而使模型能够在不牺牲空间分辨率的情况下处理大小不一的解剖结构[22]。此外,还引入了空洞注意机制,通过在不同尺度上结合膨胀窗口,平衡局部特征提取与全局上下文理解,使模型能够关注细节的同时保持对整个图像的全面视图[23]。进一步地,VesselSAM集成了LoRA[18]层,以高效地微调模型,减少需要进行计算密集型的完全重新训练的需求,同时确保在各种医学分割任务中保持高性能。

本工作的主要贡献总结如下:

  1. 作者提出了一种新型模型VesselSAM,该模型将AtrousLoRA模块融合到SAM架构中,以增强其在血管图像分割中的性能,尤其是主动脉血管分割。AtrousLoRA使VesselSAM能够高效地捕捉局部和全局特征,从而提高分割准确性的同时保持预训练图像编码器的冻结状态。通过集成Atrous注意力机制,AtrousLoRA能够利用扩张卷积进行多尺度特征提取;而LoRA则减少了可训练参数的数量,而不牺牲模型性能。
  2. AtrousLoRA被整合到VesselSAM中,并包含两个关键模块:Atrous空间金字塔池化(ASPP)模块和注意力机制。ASPP模块使用不同膨胀率的扩张卷积来捕获多尺度上下文信息,从而使VesselSAM能够在不丧失空间分辨率的情况下关注细节(如细小血管边界)和更广阔的解剖结构。与此同时,注意力机制平衡了局部特征提取与全局上下文的关系,引导VesselSAM专注于相关解剖区域,从而提升分割性能。
  3. AtrousLoRA 利用了 LoRA 的关键概念,即对 Transformer 特征施加低秩约束,从而允许 VesselSAM 仅使用 7% 的可训练参数高效地进行模型微调。这显著降低了计算成本,使得 VesselSAM 更适合处理数据有限的任务,因为它可以消除全面重新训练的需求,同时保持高性能。

作者将在多个具有挑战性的基准数据集上评估VesselSAM,包括主动脉血管树(AVT)分割数据集和imageTBAD数据集。结果表明,结合空洞LoRA后的VesselSAM在分割精度、鲁棒性和计算效率方面均优于 Baseline 方法,特别是在主动脉血管分割方面。

unsetunsetII. RELATED WORKunsetunset

A.ViTandSAMBased MedicalFoundationModels

基于视觉 Transformer (ViTs)的医学基础模型显著影响了医学图像分割领域,如UNETR [8]等模型处于领先地位。UNETR 利用基于 ViT 的编码器有效捕捉全局上下文,并结合 U-Net 架构实现有效的医学图像分割。相比之下,基于 SAM 的医学基础模型利用 Transformer 架构在广泛的自然图像分割任务中表现出色。

然而,由于医学图像的独特挑战,如对比度低和复杂的解剖结构,它们在医学领域的应用受到了限制。认识到这些局限性,MedSAM [10] 旨在通过冻结大型预训练图像编码器和 Prompt 编码器,仅在特定医学数据集上微调轻量级 Mask 解码器来改进 SAM 在医学图像分割中的性能。这种做法利用了 SAM 强大的预训练架构,同时使其 Mask 预测能力适应医学领域。

B.Parameter-Effcient Model Fine-Tuning

参数高效微调(PEFT)的概念已经证明是一种有效的方法,能够在保持极少额外参数成本的前提下,将大型基础模型(如SAM)适应到特定的下游任务中。LoRA(低秩适应)这一显著的PEFT方法已被成功应用于基于SAM的模型中。

例如,SAMed [11]将LoRA应用于SAM的冻结图像编码器,并联合微调LoRA层、 Prompt 编码器和 Mask 解码器,这些操作在Synapse多器官等医学数据集上完成,显示出显著的性能提升。同样,SAMAdp [19]引入了一个轻量级 Adapter 模块,以增强SAM在具有挑战性的分割任务中的表现。通过整合任务特定的 Prompt 和 Adapter ,它提高了准确性并保持了计算效率,在多个领域展示了其可适应性。其他工作也采取了不同的方法来增强SAM以应用于医学领域。SAMMed [9]对SAM进行了跨53个公开医学影像数据集的评估,结果显示虽然SAM具有强大的零样本分割能力,但在没有微调的情况下常常表现不佳。

C. Atrous Convolution in ViTs

在ViT中使用空洞卷积(膨胀卷积)引起了关注,这是一种强大的方法,能够捕捉局部先验和全局上下文,这对于分割任务至关重要[21]。空洞卷积通过“跳过”一些像素来增加感受野,使模型能够在不进行下采样的情况下捕获更大的区域信息,从而保留细微结构的同时增强对更广泛空间关系的建模能力。该技术最初由DeepLab[6]在卷积网络中推广,已被证明在提取多尺度特征方面效果显著,这些特征对于涉及不同目标大小的复杂分割任务至关重要。

在典型的ViT中,图像特征通常被处理为非重叠的小块,整合空洞卷积能使模型学习层次化的空间依赖性。通过在多种膨胀率下应用空洞卷积,Atrous Spatial Pyramid Pooling (ASPP) 模块允许模型捕获多尺度上下文信息,填补了局部交互与全局依赖之间的差距。

这种方法特别适用于需要详细分割的任务,在这些任务中,同时捕捉局部细粒度细节和全局上下文对于准确预测至关重要。最近的研究表明,空洞卷积对提高ViT在分割任务中的性能至关重要,特别是在医学成像等领域。在作者的模型中,作者利用ASPP和注意力机制的优势来增强ViT编码器捕捉局部先验和全局上下文的能力,从而使模型能够更准确地处理复杂的高分辨率分割任务。

unsetunsetIHI. METHODOLOGYunsetunset

A. Overview

VesselSAM 是一种可 Prompt 分割模型,旨在增强医学图像中的血管结构分割。该模型基于标准的 SAM(Segment Anything Model)框架,并整合了关键的改进措施,如空洞注意模块和 LoRA(低秩适应)层,以提高医学图像分割性能。SAM 模型中的图像编码器和 Prompt 编码器被冻结,以保留其预训练特征,而空洞注意模块和 LoRA 层则增强了模型捕获多尺度特征并优化训练效率的能力。最终的分割图通过一个 Mask 解码器生成,该解码器使用交叉注意力机制细化融合嵌入。总体设计确保 VesselSAM 在医学图像分割任务中,特别是在主动脉成像中的血管分割方面,是一个稳健且高效的模型。

B.Preliminary: SAM architecture

SAM [6] 是一个基于 Prompt 的分割框架,主要由三个组件组成:图像编码器、 Prompt 编码器和 Mask 解码器。图像编码器基于 ViT,通过 transformer 块处理输入图像的 16×16 像素块来捕获图像特征,从而生成图像嵌入。 Prompt 编码器处理各种 Prompt ,包括点、边界框和 Mask ,将其转换为用于引导分割的特征向量。 Mask 解码器是一个两层的基于 transformer 的解码器,它使用交叉注意力融合图像嵌入和 Prompt 特征。该解码器包含一个多层感知机 (MLP) 以进行特征细化和维度对齐,并利用卷积层进行上采样以生成高分辨率的 Mask 。

VesselSAM 架构基于 SAM 的基础进行构建,并对几个关键模块进行了修改,旨在提高医学图像中血管结构的分割效果。如图1 所示,VesselSAM 引入了空洞注意模块和 LoRA 层,这些模块设计用于捕获多尺度特征并减少可训练参数数量,同时保持分割精度。

picture.image

在该设计中,原始 SAM 架构中的图像编码器和 Prompt 编码器被冻结,以保留其强大的预训练特征。图像编码器基于视觉 Transformer(ViT),从输入的医学图像中提取丰富的视觉特征。 Prompt 编码器处理稀疏 Prompt ,如点或边界框,这些 Prompt 通过聚焦图像中的特定区域来指导分割过程。

为了增强模型捕捉局部和全局特征的能力,在冻结的图像编码器中整合了Atrous Attention模块。该模块利用扩张卷积来扩展感受野,使模型能够捕获多尺度特征,这对于医学图像识别至关重要,比如小肿瘤或血管边界。

此外,在图像编码器中的Transformer块之间插入了LoRA(低秩适应)层。这些层将Transformer特征压缩到一个低秩空间,然后重新投影,从而在冻结Transformer参数的同时实现特征的有效适应。这一修改提高了训练效率,减少了可训练参数的数量,并在较少资源的情况下提升了模型性能。

最终的分割图是由 Mask 解码器生成的,该 Mask 解码器由一个轻量级的 Transformer 解码器和一个分割头组成。在训练过程中, Mask 解码器通过交叉注意力机制对来自图像编码器和 Prompt 编码器的融合嵌入进行细调以进行精化。

这确保了模型能够准确分割细粒度细节,例如血管结构,同时保留更广泛的解剖上下文。

D.LoRA and AtrousLoRA

LoRA [17] 已成为一种PEFT方法,能够使预训练模型针对特定任务进行适应,同时显著减少了计算和内存开销。LoRA 引入了低秩可训练矩阵来近似权重更新,有效地避免了对整个模型进行微调的需求(图2(a))。相反,它在训练过程中保持原始权重

固定,并添加了两个小型矩阵

。给定一个预先训练好的权重矩阵

,LoRA 修改了模型的前向传播过程为:

picture.image

其中,

是冻结的预训练权重矩阵,

分别是低秩编码矩阵和解码矩阵,

是分解的秩,且

。在这里,

表示输入,其中

是批量大小。

虽然LoRA在适应预训练模型方面效率极高,但它缺乏明确捕获多尺度上下文信息的能力,这对于图像分割和密集预测等视觉任务至关重要。为了解决这一局限性,作者在LoRA框架中引入了空洞LoRA(Atrous LoRA),并将空洞卷积(扩张卷积)纳入其中(图2(b))。空洞卷积能够在不增加参数数量的情况下扩展模型的感受野,使其能够同时捕获局部和全局依赖关系。

数学上,使用空洞LoRA后,方程1变为:

其中,

是固定的预训练权重矩阵,

分别是低秩编码矩阵和解码矩阵,而

是输入特征图。其中,

表示批量大小,

分别是输入通道数和输出通道数,

则代表特征图的高度和宽度。Atrous 模块对

应用具有预定义扩张率的空洞卷积,从而有效捕获多尺度上下文特征。Atrous LoRA 使用固定的扩张率,这虽然简化了实现过程,但仍能适应各种视觉相关任务。

AtrousLoRA 在保留LoRA效率的同时,将其应用扩展到需要空间和上下文理解的任务中,例如语义分割和医学图像分析。预定义的膨胀率确保了在计算效率和多尺度特征提取之间的平衡。

E.Atrous Attention Module

作者提出了一种新的视觉 Transformer 注意力机制,称为扩张注意力模块(Atrous Attention Module,图2(c)),该模块实现了区域级和稀疏注意力的融合。这种方法允许作者在保留计算复杂度的同时捕捉全局上下文和局部细节,并保留医学图像中存在的分层信息。受扩张卷积[24]的启发,扩张卷积通过在输入特征图中跳过行和列而不增加额外参数来扩大感受野,扩张注意力使得VesselSAM可以在多个尺度上专注于相关的解剖结构。该过程如算法1所示。

picture.image

AtrousAttentionModule中的数据流始于将输入特征图 (X \in \mathbb{R}^{B\times C\times H\times W}) 通过空洞空间金字塔池化(ASPP) [21],该过程在不同的膨胀率 (d_{i}) 下应用空洞卷积以捕获不同尺度的特征。每个空洞卷积产生一个输出特征图 (Y_{i} = f(X; W_{i}, d_{i})),其中 (W_{i}) 是卷积权重,(d_{i}) 是膨胀率。

F. Atrous Spatial Pyramid Pooling

Atrous Spatial Pyramid Pooling (ASPP) 是 VesselSAM 模型中的另一个重要组成部分。它通过捕捉医学图像中的多尺度上下文信息,在增强模型对血管结构分割的能力方面发挥着关键作用。VesselSAM 结合了先进的分割技术,并利用 ASPP 通过应用不同扩张率的空洞卷积来提高对血管的分割精度。这使得模型能够在不丢失分辨率的情况下同时捕捉到细微的细节和更广泛的上下文信息。ASPP 通过在多个扩张率下使用空洞卷积来增加感受野,使模型能够理解血管的局部特征及其在图像中的空间关系,这对于实现精确的血管分割至关重要。

数学上,在VesselSAM中,ASPP首先应用不同的扩张率

的扩张卷积,其中每个扩张率可以捕获不同尺度的特征。对于每个扩张率

,扩张卷积操作会作用于输入特征图

,如下所示:

其中,

表示空洞卷积,而

是具有扩张率

的滤波器。除了空洞卷积外,还应用了全局平均池化操作以捕获输入图像的全局上下文,其数学定义如下:

其中,

表示全局池化的结果,有效地将空间维度减少为

,同时保留通道信息。然后,这些输出被连接成一个单一的特征图。

Concatenated 特征图 ( Y_{\text{concat}} ) 包含多尺度信息,有助于 VesselSAM 捕捉局部血管特征和更广泛的上下文关系,这对于精确分割复杂的血管结构至关重要。为了减少此 Concatenated 特征图的维度,应用了一个 ( 1 \times 1 ) 卷积:

其中,

分别是

卷积的操作权重和偏置项。最后,应用一个非线性激活函数,例如 ReLU,以向模型中引入非线性特性:

在VesselSAM中,ASPP( atrous spatial pyramid pooling)对于捕获多尺度上下文特征至关重要,使模型能够有效处理不同尺度的物体,例如血管。通过使用具有各种扩张率的卷积核,ASPP允许VesselSAM精确分割血管结构,同时保持高效的计算能力。这种多尺度特征提取对于解决医学影像中常见的血管尺寸变化和复杂血管网络问题至关重要。

G.Prompt Encoder And Mask Decoder

在VesselSAM中,Prompt Encoder 保持冻结状态,确保预训练参数的稳定性,同时允许高效处理用户 Prompt 。在这种情况下, Prompt 以边界框的形式提供,并通过其左上角和右下角点表示。每个角点映射到一个256维的嵌入向量,该嵌入向量作为分割过程的输入。通过冻结Prompt Encoder,VesselSAM能够实现实时交互,因为图像嵌入可以预先计算好,用户可以在不重新训练的情况下动态提供边界框输入。

另一方面,VesselSAM中的 Mask 解码器完全可训练,并在生成分割输出中扮演着至关重要的角色。解码器架构包含两层Transformer,负责通过交叉注意力将图像嵌入与 Prompt 嵌入进行融合。这种融合使得边界框信息能够有效地指导分割任务。随后,解码器使用两层转置卷积层将组合嵌入上采样至

的分辨率,确保最终分割 Mask 保留了高细节度。最后,输出经过Sigmoid激活函数处理,再通过双线性插值调整至原始输入图像的分辨率,从而生成最终的高分辨率 Mask 。

unsetunsetIV. EXPERIMENTSunsetunset

A. Datasets

在作者的实验中,作者利用了两个关键数据集来评估所提出的VesselSAM模型在复杂医学分割任务中的效果。Aortic Vessel Tree (AVT) 分割数据集 [27] 包含来自三个来源的56例对比增强CT血管造影(CTA)扫描:KiTS 总裁挑战赛、Rider 肺部CT数据集以及东阳医院。在这之中,有38例用于训练,剩下的18例用于测试。所有切片均重采样至空间分辨率

,并使用Hounsfield单位(HU)值归一化为[0, 1]区间。此外,作者还使用了广东省人民医院提供的包含100幅CTA图像的TBAD数据集 [28],用于分割B型主动脉夹层(TBAD)病例中的真腔(TL)、假腔(FL)和假腔血栓(FLT)。为了符合Segment Anything Model (SAM) 的要求,作者均将AVT和TBAD数据集从3D CTA体积转换为2D切片。每个3D扫描都转化为NumPy数组,并统一重采样到

的 Voxel 分辨率。 Voxel 强度值按照标准CT窗设置 [400, 40] 进行归一化处理。对于3D体积,作者使用1000个 Voxel 作为阈值去除无关结构和小物体;对于单独的2D切片,则使用100个像素作为阈值。只有非零切片才被保留,并进行了强度归一化。最后,处理后的2D切片被调整为

像素,并通过将灰度切片在三个通道上重复以转换为三通道图像(

),确保与SAM输入格式的一致性。

B.Loss Function and Evaluation Metrics

作者使用了由交叉熵损失和Dice损失加权求和组成的联合损失函数。该联合损失函数通过平衡区域重叠和像素级分类精度,在有效训练方面表现出色,适用于广泛的医学图像分割任务。

为了评估分割模型的性能,作者采用了两种广泛使用的度量标准:Dice 相似性系数(DSC)和 Hausdorff 距离(HD)。DSC 用于衡量预测分割结果

与Ground Truth

在空间上的重叠程度,并定义如下:

其中,

表示预测区域和 ground truth 区域的交集,

分别表示预测区域和 ground truth 区域的大小。DSC 值越高表明分割精度越好,最大值为 1 表示完全重叠。

该方法在医学图像分割任务中被广泛采用,以其实用性而著称 [10]。令

表示预测的分割输出,

表示相应的 ground truth。对于每个 Voxel

分别表示预测值和 ground truth 值。图像中的 Voxel 总数记为

。二元交叉熵损失定义如下:

其中,

衡量了像素 Level 的分类准确性。Dice损失用于衡量预测区域与GT区域之间的重叠程度,其计算公式为:

最终损失

计算为交叉熵损失和Dice损失的和:

哈斯德沃夫距离(HD)量化了预测分割边界与Ground Truth之间的最大距离。它定义为:

其中,

分别表示预测区域和 Ground Truth 区域的边界,

是点

和点

之间的欧几里得距离。较低的 HD 值表明预测和 Ground Truth 的边界对齐程度更好。

这些评价指标从不同角度提供了关于模型性能的互补见解,DsC侧重于区域重叠度的评估,而HD则强调边界精度。两者共同为分割质量提供了全面的评估。

C. Quantitative results

在本节中,作者全面比较了所提出的方法VesselSAM与各种最先进的(SOTA)模型,包括UNet [25]、UNETR [8]、SAM [6]、MedSAM [10]、SAMMed [9]、SAMed [11]和SAM-Adopter [19]。每种方法均在相同的条件下进行评估,以确保公平对比,从而能够准确评估性能指标如DsC和HD。结果显示,作者的方法在该领域超过了SOTA模型,展示了其在处理复杂医学图像分割任务方面的有效性。

AVT数据集的定量评估结果:表1展示了不同类型分割方法在主动脉血管树(AVT)数据集上的性能指标。这一对比涵盖了大模型和小模型,展示了每种方法在多个医院中的有效性。VesselSAM在 Dongyang 医院、Rider 医院和Kits 医院分别实现了Dice相似系数(DSC)为93.50%、93.25%和93.02%,显著超越了包括MedSAM和SAMAdp在内的最先进的方法。

picture.image

Atrous Attention 和 LoRA 机制在 VesselSAM 中的应用极大地提升了其性能,使其能够有效捕捉医学影像中精确分割所必需的多尺度特征。相比之下,其他基于 SAM 的模型如 SAMAdp 和 SAMedAdp 在准确性方面表现不佳,它们的分割结果中包含了大量的假阳性区域。这种差异凸显了 VesselSAM 在复杂成像环境中准确勾勒血管结构的优势,最终支持了其在临床应用中的实用性。

  1. TBAD 数据集的定量评价结果:在 Type-B 主动脉夹层 (TBAD) 数据集上,VesselSAM 的性能总结见表 HI。该模型的 Dice 系数达到 93.26%,显著优于包括 UNETR 和 MedSAM 在内的多种竞争方法。这些发现表明,VesselSAM 在准确分割真腔 (TL) 和假腔 (FL) 方面具有较高的鲁棒性,并且在其处理临床环境中复杂分割任务时表现出色。

相比之下,SAM和MedSAM的表现较低,DS-CORE分数分别为

。此外,其他模型如SAMAdp和SAMedAdp在分割准确性方面也面临挑战,这从它们较低的DS-CORE值中可以得到证实。VesselSAM在AVT和TBAD数据集中表现出了一致的高水平性能,证明了其作为医学图像分割工具的潜在价值,尤其是在需要高度精确性的复杂病例中。

D. Qualitative results

为了提供更直观的对比,作者展示了多种模型的定性分割结果,包括VesselSAM、SAM、MedSAM、SAMAdp、SAMedAdp和SAM-MedIA,如图3所示。第一行展示了主动脉血管分割的结果,而第二行则突显了Type-B主动脉夹层(TBAD)中真腔(TL)和假腔(FL)的分割情况。在主动脉血管分割任务中,VesselSAM能够有效地勾勒出血管结构,捕捉到其他模型可能忽略的细微细节。该分割结果精确地跟随主动脉的边界,展示了其在识别血管时的强大鲁棒性,尤其是在与周围组织的区分上表现突出。相比之下,SAM在分割准确性上存在问题,导致与GT之间的显著错位,特别是在血管边缘的定义上。MedSAM相较于SAM有所改进,但在捕捉某些细腻的结构方面仍有不足,导致血管轮廓存在不准确的情况。模型SAMAdp、SAMedAdp和SAM-MedIA在准确捕获真正阳性血管区域方面存在问题,导致它们的分割结果中出现了大量的假阳性区域。尽管这些模型提供了合理的输出,但它们往往会错误地将周围区域识别为血管结构的一部分。

picture.image

在TBAD数据集中TL、FL和FLT的分割任务中,VesselSAM继续表现出色,能够精确捕获管腔结构。分割结果与GT高度一致,有效地区分了TL、FL和FLT。为了更好地可视化,这里只展示了TL和FL。相比之下,SAM在TL的分割上遇到了重大挑战,导致结构上的误表示。MedSAM相较于SAM有所改进,但仍存在一些不准确性,影响其在临床应用中的可靠性。其他方法如SAMAdp、SAMedAdp和SAM-MedIA同样难以准确勾画出管腔轮廓,偶尔会出现缺失的段落和不精确的边界。

E. Ablation Study

在本次消融研究中,作者旨在评估不同配置的VesselSAM(Segment Anything Model)在医学图像分割任务中的有效性,特别是针对血管分割任务。作者进行了系列全面的消融实验,评估了模型中关键组件的影响,包括空洞注意力模块和LoRA秩。这些实验有助于理解各个组成部分如何单独贡献于模型的整体性能,特别是在分割精度方面,以Dice分数作为主要评价指标。

在本次消融研究中,作者旨在评估不同配置的血管SAM(Segment Anything Model)在医学图像分割任务中的有效性,特别关注血管分割。作者进行了一系列全面的消融实验以评估模型关键组件的影响。首先,作者将性能进行了对比:一个是使用MedSAM(针对医疗领域)和SAM(通用领域)初始化的血管SAM Baseline 模型。其次,作者也测试了结合低秩适应(LoRA)和卷积扩张(Atrous Convolution)的增强模型。作者的目标是通过Dice分数为主要评估指标,分析这些变化对分割性能的影响。

Backbone和空洞注意模块的影响:在这项消融研究中,作者评估了Backbone架构和空洞注意模块集成对VesselSAM性能的影响。作者比较了两种配置:一种是使用MedSAM Backbone初始化的VesselSAM

,另一种是使用SAM Backbone初始化的VesselSAM

,这两种配置作为本分析的 Baseline 模型。此外,作者在两种配置中引入空洞注意模块,以评估其对分割性能的影响。

Atrous Attention模块被集成到图像编码器中,以提高模型捕捉多尺度特征的能力。通过利用膨胀卷积,该模块扩展了的感受野,使模型能够关注输入图像中的小结构和大结构。这对于准确分割血管结构至关重要,因为细小细节和广泛上下文信息都是必不可少的。

从图4所示的结果可以看出,空洞注意力模块提高了MedSAM和SAM主干网络的分割准确性。这些分割输出突出显示了真正的管腔(粉色)、GT边界线(黄色)以及边界框 Prompt (蓝色),表明在应用空洞注意力模块时,血管结构的区分更加精确。

picture.image

表1000中的定量结果提供了强有力的证据,证明将空洞注意力模块与MedSAM主干网络集成的有效性。结合MedSAM主干网络和空洞注意力模块(即VesselSAM*带AAM)的配置在AVT-Dongyang数据集上的Dice得分为93.50%,优于所有其他配置。这一结果凸显了使用专门针对医学成像设计的MedSAM主干网络,并结合空洞注意力模块带来的显著优势,该模块增强了模型捕捉多尺度特征的能力。这种组合在分割精度方面提供了显著的改进,使其成为血管分割中最有效的配置。

相比之下,VesselSAM 模型使用了 SAM 主干网络(VesselSAM** 结合 AAM),也得益于空洞注意力模块,但 Dice 分数一直较低。尽管这些结果仍然表明,在空洞注意力模块下,VesselSAM 主干网络——专门针对医疗应用——与空洞注意力模块结合时提供了明显的优越性。

这些发现表明,空洞注意力模块始终能够提升分割性能,但只有在与领域特定的 Backbone 网络(如MedSAM)搭配使用时,才能充分发挥其潜力。这种组合使VesselSAM在多个数据集上实现了最佳性能,进一步强调了 Backbone 架构和注意力机制对于提高分割准确性的重要性。

图6进一步展示了训练动态,其中两种配置下的训练损失曲线进行了对比。带有Atrous Attention模块(红线)的模型比没有Atrous Attention模块(绿线)的模型显示出更快的收敛速度和更低的验证损失。大约在第20个epoch时,带有Atrous Attention模块的模型训练损失趋于稳定且较低,这表明该模块能够加速收敛并提升模型更准确地分割血管结构的能力。

picture.image

LoRA秩的影响:在这项实验中,作者研究了LoRA秩对VesselSAM性能的影响。低秩适应(LoRA)旨在减少可训练参数的数量,从而在不牺牲模型性能的前提下使训练过程更加高效。作者测试了不同的LoRA秩(2、4、16、32和64),并使用Dice分数作为评估指标,测量它们对分割准确性的影响。

如图6所示,VesselSAM的表现随着不同LoRA秩的变化存在显著差异。LoRA秩4表现最佳,模型在AVT-Dongyang数据集上的Dice得分为93.5,而在其他数据集上也有类似的良好表现:AVT-KiTs为93.02,AVT-Rider为93.25,TBAD为93.26。这表明LoRA秩4在分割准确性与计算效率之间提供了最佳的权衡。

然而,随着LoRA秩增加到4以上,性能开始下降。例如,在LoRA秩为16时,AVT-东阳Dice分数降至82.88,而在LoRA秩为32时进一步下降至85.57。有趣的是,LoRA秩为64的结果略微优于秩为32的情况,但仍不及秩为4的表现。这一趋势表明,当LoRA秩超过某个最优点后,回报递减,而秩为4提供了最佳的整体分割性能。

F.Limitations and Future Work

总之,本研究展示了领域特定模型(MedSAM)与LoRA和空洞卷积等适应技术相结合时,能够超越通用领域的 Baseline 模型,实现更优的分割精度。这些发现对于优化医学图像分割模型具有重要意义,尤其是当面临计算限制时。尽管VesselSAM在血管分割方面表现强大,但仍存在一些需要解决的局限性。一个关键的局限性在于对边框 Prompt 的依赖,这可能无法总是为复杂的或模糊的结构提供足够的细节。为了提高灵活性和准确性,未来工作将整合其他 Prompt 机制,例如基于文本的 Prompt ,以提供更丰富、更具直观性的指导来完成分割任务。另一个局限性是模型对高质量输入图像的依赖。

尽管VesselSAM在干净且标注良好的数据集上表现良好,但在处理噪声大或分辨率低的图像时,其性能可能会下降。未来的研究将侧重于通过引入数据增强技术和提高模型对各种现实世界成像条件的一般化能力来增强模型的稳健性。此外,将视觉语言模型与VesselSAM结合起来提供了令人兴奋的前景。通过结合语言理解能力和视觉信息,这些模型有望进一步增强 Prompt 生成和分割准确性,使模型能够在最小用户干预的情况下更好地处理模棱两可或新颖的血管结构。此外,虽然VesselSAM目前专注于主动脉血管的分割,但其在其他血管结构及其他医疗领域的应用潜力尚未完全开发。扩展模型的应用范围,使其可用于其他区域,如脑部或冠状动脉分割,将是未来工作的一个重要方向。

unsetunsetV. CONCLUSIONunsetunset

在本文中,作者介绍了VesselSAM,这是对Segment Anything Model (SAM)的一种增强版本,专门用于主动脉血管分割。通过集成空洞注意力模块和低秩适应(LoRA),VesselSAM解决了原始SAM的关键局限性,增强了其捕捉医学图像中复杂的层次特征的能力。空洞注意力模块能够实现多尺度特征提取,有效地捕获细微结构细节和广泛的解剖上下文,而LoRA则通过减少可训练参数数量来优化微调效率,而不牺牲性能。

在Aortic Vessel Tree (AVT) 和Type-B Aortic Dissection (TBAD) 数据集上的 extensive 实验表明,VesselSAM 在Dice相似性系数(DsC)和HD评分方面显著优于基于ViT的方法和其他基于SAM的方法。该模型通过使用显著较少的可训练参数实现了这些结果,进一步证明了其作为医疗应用中的参数高效微调(PEFT)模型的角色。这些发现强调了VesselSAM 在保持计算效率的同时展现出更优异的表现,使其特别适用于真实的临床任务。

VesselSAM 提供了一种稳健的医疗图像分割解决方案,兼具高精度和计算效率。它能够在多样化的数据集上实现泛化,并且在少量额外计算资源的情况下也能表现良好,因此非常适合临床应用。

未来的工作将探索进一步优化方案,包括集成基于文本的 Prompt 和视觉语言模型,并将其应用扩展到其他医疗影像任务中,确保其在医疗领域的更广泛适用性。

unsetunset参考unsetunset

[0]. VesselSAM: Leveraging SAM for Aortic Vessel Segmentation with LoRA and Atrous Attention .

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论