A4-Unet:用于肿瘤分割的可变多尺度注意网络 !

大模型数据中台数据库

picture.image

近年来,脑肿瘤分割模型在诊断中发挥了重要作用。然而,它们面临着MRI复杂性和多变性的挑战,包括不规则形状和边界模糊,导致噪声、误分类和不完整的分割,从而限制了其准确性。

为了解决这些问题,作者采用了优秀的卷积神经网络(CNNs)设计范式,并提出了一种新的网络A4-Unet。在A4-Unet中,变形大核注意力(DLKA)被引入到编码器中,以提高对多尺度肿瘤的捕捉能力。

瓶 Neck 分使用具有跨通道注意力的Swin空间金字塔池化(SSPP),进一步研究图像内的长距离依赖关系和通道之间的关系。

为了提高准确性,作者在解码器中引入了一个结合注意力模块(CAM),该模块利用离散余弦变换(DCT)正交性进行通道加权,并通过卷积元素乘法进行空间加权。

在 Short-Cut 路径中添加注意力门控(AG),以突出前景信息并抑制无关的背景信息。所提出的网络在三个权威的MRI脑肿瘤基准数据集和一个自有的数据集上进行了评估,并在 BraTS 2020 数据集上实现了94.4%的Dice分数,从而建立了多个新的性能基准。

  1. INTRODUCTION

脑肿瘤是由脑细胞异常增生引起的,对人类健康构成重大威胁,因此早期诊断和治疗至关重要。磁共振成像(MRI)作为一种无创成像技术,能够清晰地显示软组织病变,广泛应用于脑肿瘤的诊断和治疗,如图1所示。当前的医疗图像分割方法主要依赖于U型卷积神经网络(U-shaped CNN)。

picture.image

尽管进行了大量的研究,但由于MRI图像的高度变异性、不清晰的边界以及不规则的肿瘤形状和纹理,脑肿瘤分割仍然极具挑战性。传统卷积神经网络模型难以适应这些不规则性,无法聚合语义信息并补偿空间信息丢失,这导致了噪声、误分类、分割不完整、图像特征提取有限以及准确度改进受限的问题。

借鉴以往成功的语义分割研究,Guo 等人 [1] 确定了一个良好的 CNN 分割模型应具备的三个关键特征,详见表1。作者将这些要点融入到脑肿瘤图像分割的特点中,并总结如下:

picture.image

(i) 强大的编码器的应用。脑部图像通常包含复杂的结构,如脑组织、血管和室管膜,而肿瘤则常表现出多样化的形状和大小。为了捕获并表示这些复杂且高级的语义特征,需要一个稳健的编码器,最初在视觉任务上取得了显著成果,特别是Vision Transformer (ViT) [4] 的成功。类似于SegFormer [5] 和Swin Transformer [6] 的变种采用了分层的 Transformer 编码器来提取多尺度特征,并通过简单的解码器进行分割。然而,它们在检测高分辨率细节(如纹理和边缘)方面表现不佳,这限制了其在密集视觉任务中的效果。

(ii) 融合多尺度信息。大脑中不同组织结构内的肿瘤可能在大小、形状和分布上存在显著差异。通过融合多尺度信息,模型能够更好地捕捉图像中的细节和全局上下文,从而增强分割模型对各种结构的感知能力。

(iii) 注意机制的整合。MRI图像具有多个通道,每个通道提供了不同的信息。通道注意机制帮助模型识别特定任务中重要的通道。空间注意机制帮助模型聚焦于特定位置以捕捉局部结构细节,从而提高分割准确性。

受Guo [1] 的启发,作者重新审视了CNN设计原则,开发出A4-Unet这一脑肿瘤分割架构,该架构集成了四种先进的组件——可变形大核注意力(DLKA)、Swin增强空洞空间金字塔池化(SSPP)、联合注意力模块(CAM)以及注意力门控(AG),每个组件均提高了性能。作者的主要创新在于:

通过引入大 Kernel 可变卷积,编码器可以以较低的复杂度更好地捕获多尺度信息。在 Bottleneck 层中采用Swin空域分层池化(SSPP)和卷积通道注意力机制,可以提取图像内的长距离依赖关系及通道间的跨层关系。在解码器中,作者利用离散余弦变换(DCT)的正交性计算通道注意力权重,并通过跳接连接补充细边缘细节。此外,作者利用简单的卷积元素级乘法来诱导空间注意力,从而提高模型的一般化性能。

HI.RELATED WORK
A.BackboneNetwork

基于CNN的架构。基于CNN的方法通过分类像素块来捕获局部和全局特征。DenseNet [2]通过堆叠深层网络来保留多尺度特征,而Unet及其扩展方法 [3]受到全卷积网络(FCN)的启发,解决了各种分割难题。SegNeXt [1]通过引入多尺度卷积注意力模块(MSCA模块)增强了卷积结构。然而,尽管能够有效地保留低层次信息,CNN模型在捕捉高层次信息方面仍存在困难,限制了其性能。

基于Transformer的网络。基于Transformer的网络利用注意力机制赋予图像部分重要的权重,这类网络展示了CNN和Transformer融合的强大能力。结合使用CNN和Transformer的混合架构能够发挥各自优势以克服局限性。TransAttUnet [7] 将Transformer与U-Net相结合,通过注意力模块和多尺度 Shortcut 捕获全局上下文信息,实现了特征图的语义一致性。BoTNet [8] 使用CNN对输入图像进行处理,生成分词化的特征图,然后利用Transformer捕捉长距离依赖关系。在作者的研究中,A4-Unet 结合了稳健的卷积编码器和由Transformer引导的模块,以实现令人信服的分割性能。

B.AttentionMechanisms

注意力机制动态地根据输入特征调整权重。通道注意力,例如Squeeze-and-Excitation网络(SE-Net)[9],为每个通道分配不同的权重,而Frequency Channel Attention网络(FcaNet)[10]则利用离散余弦变换来关注低频通道信息。

空间注意力机制通过创建权重 Mask 来增强重要区域,这在卷积块注意力模块(CBAM)[11] 中有所体现,该模块结合了池化和拼接以获得统一的特征描述符。作者的模型采用 CBAM 轻量级的设计方案,结合通道和空间注意力机制,强调重要区域并抑制无关信息,从而捕捉跨通道关系和空间细节以实现精确检测。

C.Adjustment ofReceptive Field

空洞卷积。空洞卷积最早出现在二进制小波变换技术中[12],该技术被认为是一种信号处理技术。深层网络会降低最终特征图的分辨率,导致池化层、步进操作等的累积影响。Yu和Koltun[13]提出了一种创新方法来克服这一缺陷,并寻求更广泛的信息频谱。

可变形卷积。CNNs 固定的感受野限制了它们处理大规模几何变换的能力,使得高级语义提取变得困难。受到多层次可变形部件模型[14]和空间变换模块[15]的启发,可变形卷积[16]通过引入2D 偏移量到采样位置来解决这个问题,从而允许灵活的网格变形。作者采用可变形卷积来提高感受野的灵活性,以更好地实现目标分割。

D.Multi-scaleContextualInformation

空洞空间金字塔池化。在语义分割中,准确的像素级分类需要聚合多尺度上下文信息。空洞卷积[17]扩大了感受野而不改变输出尺寸。基于SPP层[18],ASPP[19]能够在多个尺度上捕捉图像上下文。这启发作者模块从病变图像中提取丰富的全面信息。

多尺度Transformer。虽然CNN已经有效利用了多尺度特征表示,但在视觉Transformer中这一潜力尚未被充分探索。CrossViT [20] 引入了一种带有交叉注意力的双分支Transformer,并且MViT [21] 将多尺度特征金字塔嵌入到Transformer中。受这些工作的启发,作者提出了一种基于分层Swin Transformer架构的双分支编码器。

III.METHODOLOGY
A.OverallArchitecture

作者的A4-Unet包含一个编码器-解码器架构,具有三个主要组件,如图2所示:DLKA以增强特征提取,SSPP处理多尺度交互,CAM实现注意力机制。编码器使用DLKA, Bottleneck 中的SSPP处理多尺度特征,解码器在四次上采样阶段中通过门控和混合注意力聚合特征,优化脑肿瘤分割。

picture.image

B.Strong Encoder

为了构建一个稳健的编码器,作者将图3中的变形大 Kernel 注意力(DLKA)模块整合到下采样过程中。DLKA包括一个变形卷积模块(DConv)和一个大卷积核(LK)。

picture.image

DConv特别适合增强低层级特征细节,如边缘、纹理和形状,特别是在处理具有不规则大小和多种纹理的医疗目标时。DConv由2D卷积、可调采样网格的可变形卷积(使用偏移量)、非线性激活函数以及偏移字段计算组成。Azad等人[22]提出的标准卷积层生成偏移量,指导变形卷积层的采样位置。DConv模块的方程如下所示:

其中,

分别是可变形卷积和深度可分离卷积,而

是输入特征。

另一方面,虽然卷积神经网络(CNN)在捕捉局部特征和低级信息方面表现良好,但它们会忽略全局上下文。郭等人的LK [23]可以通过扩大感受野来克服这一局限性,提供与自注意力机制相似的感受野,但参数更少。LK的结构包含深度可分离卷积、膨胀卷积和一个

卷积。深度可分离卷积和膨胀卷积的核大小

可以计算如下:

跨上下文注意力。ASPP 通过深度可分离卷积连接特征图,但无法捕捉通道间的依赖关系。为解决这一问题,Azad 在 SSPP 特征融合之后引入了跨上下文注意力机制。假设每个 SSPP 层包含具有不同尺度的目标

和嵌入维度

的 tokens

。作者通过拼接这些特征创建了一个多尺度表示

。随后,一个尺度注意力模块强调了每个特征图的贡献,使用全局表示和 MLP 层生成尺度系数

,从而增强上下文依赖性。

其中,

是可学习的MLP参数,

是ReLU函数,

是Sigmoid函数,GAP 表示全局平均池化。

在第二级注意力机制中,跨上下文注意力通过计算权重图来学习缩放参数,以增强信息性Token,采用的是相同的策略:

其中,

是扩张率,

是核大小。

总之,DLKA 在下采样过程中集成到编码器中,以提供长距离依赖关系,并通过 Short-Cut 在上采样过程中与特征图进行连接,从而弥补低级特征细节。

C.Multi-scaleInteraction

处理医学图像中不规则大小和形状带来的挑战需要引入多尺度交互并增强空间表示。以往的工作[24], [25]使用了多尺度patches和更深的网络结构,但多尺度信息依然存在碎片化的问题。

作者通过修改 Bottleneck 层,加入Swin空域分层池化(SSPP)和图4所示的跨上下文注意力模块来解决这一问题。这种方法将具有不同窗口大小的Swin Transformer块相结合,提供了丰富的上下文信息。

picture.image

Swin 空间金字塔池化。在 DeepLab V3+ 中,Chen 等人 [26] 引入了空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块,该模块动态选择不同大小的卷积块来处理不同的目标尺度。这种方法可以防止大目标被分割,并保持长期依赖关系而不改变网络结构。

受Azad等人[27]提出的SSPP的启发,作者用Swin Transformer取代了四个扩张卷积,以更好地捕捉长程依赖关系。提取出的特征被合并并输入到一个跨上下文注意力模块中。这增强了

D.ConvolutionalAttentionModule

作者通过集成一种新颖的卷积注意力模块和频率特征来构建解码器,该频率特征有效地抑制了不必要的信息。此外,作者引入了带有注意力门控融合的 Short-Cut 连接,有助于抑制无关区域并强调显着特征。

如图5所示,作者的解码器包括一个用于特征上采样的基本块、一个注意力门(AG)进行级联特征融合,以及一个组合注意力模块(CAM)增强特征图。作者为编码器的四个金字塔层使用了四个CAM块,并在 Shortcut 中使用了四个AG。多尺度特征通过将上一层上采样特征与 Shortcut 特征相结合来汇总,并利用AG完成。随后,CAM模块通过频率通道和空间注意力(SA)增强像素聚类并抑制背景信息。最后,Dconv将融合后的特征传递到上层。

picture.image

1)CombinedAttentionModule:

Channel Attention

为了提升CAM中的通道注意力精度,作者将基于卷积的通道注意力机制替换为Salman等人[28]提出的正交通道注意力(OCA)。OrthoNet的通道注意力机制通过使用离散余弦变换(DCT)来保留低频信息,从而克服了全局平均池化(GAP)的局限性。如图6所示,OCA的结构包括在适当维度中选择合适的滤波器,并利用格拉姆-施密特过程确保滤波器的正交性,从而增强神经网络中的特征表示。

picture.image

Spatial Attention

空间注意力机制有助于模型适应空间变化性,通过调整对局部结构的关注度来提升泛化能力。如图7所示,对于输入特征

(大小为

)中的每一个特征点,沿通道轴的最大值和平均值分别表示为

,并连接成一个

的张量。该张量经过卷积操作生成一个空间注意力图,用于突出或抑制特定的位置。

picture.image

注意力门控:作者将注意力门控融入到 Short-Cut 过程中。图8展示了注意力门控单元的架构。令

表示第

层的特征图。对于每个像素

,使用一个门控信号向量

来识别更大的尺度上的关键区域。注意力系数

的范围从0到1,用于选择相关特征响应并抑制无关特征细节。最终的

通过将

按元素相乘获得,计算公式如下:

picture.image

根据公式,门控系数

是通过加性注意力得出的。鉴于涉及多个语义类别的医学图像的复杂性,作者引入了多维注意力系数 [29] 来聚焦目标区域。多维注意力系数的计算包括以下几个步骤:

其中,

是偏置项,

是 Sigmoid 函数,而

是 ReLU 函数。对于门控信号向量

,作者采用

通道卷积(在公式中表示为

)对特征图

进行线性变换。

IV. RESULTS

在本节中,作者首先进行全面的消融实验以验证作者设计的有效性。然后,作者将作者的结果与几种最新的网络进行比较,并分析结果背后的原因。

A.Dataset

BraTS 数据集是脑肿瘤分割挑战的一部分。作者选择了 BraTS 2019、2020 和 2021 数据集作为本研究的实验数据。这些数据集可以通过以下链接获取。所有的 BraTS 多模态扫描均以 NIfTI 文件(.nii.gz)形式提供,并包含以下内容:I)原始T1加权扫描(TiN),II)对比增强T1加权扫描(T1C/T1CE,也称为T1Gd),III)T2加权扫描(T2W/T2),IV)T2液体衰减翻转恢复扫描(T2F/FLAIR)。训练集和验证集中的胶质瘤分类未作指定,所有数据均已由挑战组织者进行了标准化预处理。

除了公共基准数据集外,作者还在一家匿名机构提供的专属数据集上评估了作者的模型。该数据集包括来自194名胶质瘤患者的T1c和T2 MRI图像,并由高级放射学家对整个肿瘤进行了标注。由于作者的模型是2D的,因此作者将每个3D MRI图像切成多张2D切片。详细情况参见表2。

picture.image

B.Metrics

1)Dice Similarity Coefficient:

Dice相似系数(DsC)是2019年BraTS、2020年BraTS、2021年BraTS比赛中的一个关键指标。

评估分割模型时,相似度用从0到1的值来表示,计算公式如下:

在这里,

表示真正例像素,

表示假正例像素,

表示假负例像素。

2)MeanIntersection overUnion:

IoU 计算预测分割与真实分割的交集与并集之比。作为扩展,mIoU 为每个类别计算 IoU,然后计算这些 IoU 分数的均值。mIoU 提供了对

个不同类别的整体分割性能更为全面的评估。

  1. Hausdorff Distance:

哈乌德夫距离(HD)衡量的是预测边界集合中的每个点到真实边界集合中最近点的最大距离,通过比较边界的对应关系评估分割准确性。给定集合

(预测值)和集合

(真实值),哈乌德夫距离的公式为:

在哪里

C. ImplementationDetails

所有实验均基于PyTorch 2.0.1实现,并在单块GeForce GTX 4090 GPU上训练,该GPU具有24 GB内存。作者使用标准的反向传播方法,采用AdamW优化器和Softmax激活函数。训练过程使用批量大小为16,初始学习率为1e-5,并运行30个周期。总训练时间因数据集规模而异:BraTS 2019大约需要20小时,BraTS 2020需要30小时,BraTS 2021则需要50小时。

D.Ablation Study

作者在BraTS 2020数据集上进行了消融研究,分析了三个关键因素的有效性。结果如表3所示。作者发现,与另外两个数据集相比,BraTS 2019数据集的收敛速度较慢,需要12个epoch才能收敛,而不是其他两个数据集的10个epoch,这很可能归因于其较小的训练样本数量。

picture.image

强编码器的效果:

  1. 为了验证DLKA在编码器中的效果,作者构建了基准网络以及包含DLKA的另一个版本。采用DLKA模块使得Dice分数提高了1.3%,与基准网络相比。当与其他模块(例如SSPP、CAM)结合使用时,还显示出轻微的改进效果。

  2. 多尺度交互效果:作者评估了 SSPP 块进行多尺度信息融合,并发现其相对于 Baseline 模型的准确率提高了 2.0%。与 DLKA 相比,SSPP 模块对准确率的影响更为显著,这表明 Transformer 能够更好地捕获全局特征。这一结果强调了在脑肿瘤分割中引入全局上下文的重要性。

  3. CAM模块的效果:关于解码器中的CAM模块,作者可以得出结论,注意力机制使得模型性能提高了1.9%,如表1HI所示。当结合DLKA进行融合时,模型能够获得更好的结果,这充分展示了在CAM模块之前使用DLKA实现 Short-Cut 的有效性。

E.QuantitativeAnalysisandVisualization

作者通过在 BraTS 2019、BraTS 2020 和 BraTS 2021 数据集上分别评估第四节B部分提到的三项指标,来测试所提出的 A4-Unet。每个训练数据集上的实验结果代表了五次独立运行的平均值,并且经过了交叉验证。结果见表4,可视化结果参见图9。作者在 BraTS 2020 数据集上的 HD95 分数为 8.57,低于其他两个数据集。作者认为这种改进主要归因于两个原因:

(i)BraTS 2020 数据集包含更大的分割目标,而作者的模型在处理不规则和小型目标方面具有更高的分割性能。(ii)95% 可能在复杂度较高的 BraTS 2019 和 BraTS 2021 数据集上不是最优超参数,导致它们的结果有所不同。

picture.image

picture.image

在私有数据集上,作者的模型的Dice系数为84.18%,mIoU为81.60%,且HD95比BraTS数据集低10.77毫米。这归因于私有数据集包含的模态数和肿瘤特征较少,限制了模型学习最优特征的能力。

Comparisons

提出的A4-Unet模型遵循了标准的CNN分割网络设计范式。为了评估其性能,作者在网络中增强了SegResNet的密集 Short-Cut 连接,通过使用注意力门控机制更好地利用边缘细节信息以获得更精细的分割 Mask 。

为了评估改进和各组件的效果,作者将该网络与最新的网络在三个BraTS数据集上进行了比较。比较结果引自相关文献。由于官方排名标准考虑了多个指标,挑战赛冠军的DSC分数可能并非最高。结果见表5。BraTS 2019。作者在BraTS 2019数据集上将A4-Unet与四个模型进行了比较,与TransUnet和Swin-Unet相比,分别提高了

的Dice分数。不同于基于Transformer的模型需要更多参数和数据,A4-Unet使用DLKA实现高效的编码器。此外,它通过集成注意力机制和多尺度融合超越了级联Unet,利用Attention Gates增强细边缘细节,从而提高分割性能。

picture.image

BraTS 2020数据集。在BraTS 2020数据集的表e V中,A4-Unet获得了Dice分数为94.47%,mIoU为99.68%,以及第95百分位Hausdorff距离为8.57毫米,优于SwinUNet、TransUNet、nnUNet [3]和ResUNet+。由于数据集规模问题,TransUNet和SwinUNet遇到了类似的问题。nnUNet凭借目标训练和后续处理赢得了BraTS 2020挑战赛。与nnUNet的方法相比,作者更关注网络结构的改进,并取得了显著提升。

BraTS 2021数据集。在BraTS 2021数据集中,作者将A4-Unet与UNETR [34]、Swin UNETR [35]、SegResNet [36]、优化的Unet [37]以及耦合的nnUnet [38]进行了对比。

尽管UNETR和Swin UNETR基于Transformer的编码器增加了参数量和训练难度,但A4-Unet中的DLKA保持了较低的复杂度并具有稳定且优越的性能。

G. Discussion

尽管该模型在公共数据集上表现出色,但在临床应用中仍面临挑战。真实世界临床数据的多样性和复杂性(例如,作者的专有数据集)使得特征提取和模型学习变得更加复杂,而标注数据的限制则制约了模型的泛化能力。

因此,在该模型能够有效应用于临床场景之前,还需要进行进一步的改进。

V.CONCLUSIONS

在本文中,作者提出了A4-Unet,这是一种引入了可变形核大卷积(DLKA)、Swin空间金字塔池化(SSPP)和注意力机制的大脑肿瘤分割网络,同时保持相对较低的网络复杂度。这种方法能够实现高效的多尺度特征提取,捕捉长程依赖性,并综合高层次和低层次语义信息。

作者在三个数据集中进行的比较实验表明,A4-Unet显著优于几种最先进的模型,为分割性能设定了新的标准。值得注意的是,作者的模型在Dice分数和mIoU方面取得了显著提升。

参考

[0]. A4-Unet: Deformable Multi-Scale Attention Network for Brain Tumor Segmentation .

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论