MSLAU-Net：融合多尺度线性注意力与特征聚合的新型CNN-Transformer医学图像分割架构！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

精确的医学图像分割能够实现解剖结构和病理区域的精确界定，这对于治疗计划、手术导航和疾病监测至关重要。基于CNN和基于Transformer的方法在医学图像分割任务中均取得了显著成功。

然而，基于CNN的方法由于卷积操作的固有局限性，难以有效捕获全局上下文信息。

同时，基于Transformer的方法存在局部特征建模不足的问题，并且面临自注意力机制带来的高计算复杂度挑战。为解决这些局限性，作者提出了一种新型混合CNN-Transformer架构，命名为MSLAU-Net，该架构融合了两种范式的优势。MSLAU-Net包含两个关键思想。

首先，它引入了多尺度线性注意力机制，旨在高效地从医学图像中提取多尺度特征，同时以低计算复杂度建模长距离依赖关系。其次，它采用自上而下的特征聚合机制，通过轻量级结构执行多级特征聚合并恢复空间分辨率。

在涵盖三种成像模式的基准数据集上进行的广泛实验表明，MSLAU-Net在几乎所有评估指标上均优于其他最先进方法，验证了yinqing-MSLAU-Net_2505的优势、有效性和鲁棒性。

作者的代码可在https://github.com/Monsoon49/MSLAU-Net获取。

unsetunset1 引言unsetunset

医学图像分析在计算机辅助诊断和现代医疗实践中发挥着关键作用[7, 6]。这一过程的核心是稳健高效的医学图像分割，它为准确诊断、治疗计划和疾病监测提供了基础[13, 39]。卷积神经网络（CNN）和Transformer等先进计算方法通过确保从复杂数据中持续提取临床相关见解，提升了分割的可靠性。这些技术不仅提高了诊断准确性，还在疾病进展追踪和预防保健策略指导方面提供了重要应用。

近年来，卷积神经网络（CNN）在医学图像分割领域取得了显著成功。全卷积网络（FCN）[29]开创了这一进步，但细节保留和上下文理解的局限性限制了其更广泛的应用。为应对这些挑战，U-Net [36]引入了编码器-解码器架构并带有 Shortcut ，从而有效保留更精细的细节并提高准确率。该设计特别适用于医学图像分割任务，能够精确识别和定位目标区域内的精细结构。基于U-Net的成就，已开发出多种U形架构，如3D U-Net [10]、V-Net [31]、U

[46]和DenseUNet [27]。尽管这些基于CNN的方法在医学图像分割中已被证明有效，但卷积核的固定感受野使其本质上受到限制，阻碍了其捕捉空间长程依赖和全局语义信息的能力。为解决这一局限，一些研究提出了采用扩张卷积[9, 22, 8, 15]、自注意力机制[37, 42]和图像金字塔框架[44, 33]。尽管付出了这些努力，有效捕捉长程空间依赖仍然是对这类方法持续存在的挑战。

受自然语言处理（NLP）[41]和计算机视觉[12]中Transformer成功的启发，自注意力机制因其捕获全局依赖关系和强调医学图像关键特征的能力而受到广泛关注。一些代表性研究，如nnFormer [45]、UTNet [14]、TransUNet [7]、HiFormer [19]和MISSFormer [21]，专注于将Transformer集成到医学图像分割任务中。然而，原始自注意力机制存在计算复杂度高和内存需求大等问题，限制了其在医学图像分割任务中的广泛应用和效率。

为应对这些挑战，已提出多种改进方案。其中，Sparse注意力机制被频繁提出作为缓解这些约束的有效解决方案，显著方法包括Swin-Unet [6]、门控轴向UNet（MedT）[40]、BRAU-Net [5]以及BRAU-Net+

[24]。尽管这些方法有效，但Sparse注意力通常通过仅关注输入序列或预定义窗口内的一小部分元素来限制感受野。这种局限性可能导致忽略关键的长距离位置，从而无法完整地表示整体上下文。相比之下，线性注意力提供了更大的灵活性，并能够捕捉更广泛的全局依赖关系。具体而言，线性注意力通过特征映射或数学变换来近似原始Softmax函数，并利用矩阵乘法的结合律将计算顺序从

重新排列为

[3, 16, 17]。通过这种方式，计算复杂度被有效降低至

。然而，据作者所知，线性注意力在医学图像分割中的应用仍处于探索阶段，这促使作者研究其在该领域的潜力。

多尺度学习[8, 44, 35]和全局感受野[43]被广泛认为是提升模型分割性能[4]的关键因素。尽管线性注意力机制本质上满足全局上下文理解的需求，但大多数现有的线性注意力方法仅在单一尺度上运行，未能充分利用多尺度信息。然而众所周知，多尺度信息对于医学图像分割任务尤为重要，因为它既包含了细粒度细节，也包含了High-Level语义模式。这种能力对于处理不同组织和病灶区域之间显著的差异至关重要，这些差异范围从微观细胞结构到宏观器官 Level 。为此，作者提出了一种新型的多尺度线性注意力（MSLA）模块，该模块在多个尺度上集成深度卷积以从输入数据中提取层次化特征，并采用线性注意力机制来聚合跨尺度的全局上下文。这种设计同时实现了特定尺度的特征精炼和高效的全局上下文建模，确保了全面的表征学习。

以MSLA为基础构建模块，作者设计了基于Transformer的全局特征提取（GFE）模块。将GFE模块与基于CNN的局部特征提取（LFE）模块相结合——LFE模块改编自Local UniFormer模块[26]——作者构建了一个四阶段编码器。在前两个阶段，作者使用LFE模块进行局部特征建模，而在后两个阶段，作者采用GFE模块（见图3）捕获全局特征。GFE模块的核心在于集成了MSLA模块，以实现多尺度特征提取和计算高效的线性注意力机制，从而确保鲁棒的层次化表示学习。对于解码器，作者没有采用传统的对称U形架构，而是引入了自上而下的多级特征聚合机制。该机制通过轻量级卷积层和双线性上采样操作融合编码器各阶段提取的特征，在解码过程中逐步丰富空间细节和语义一致性。基于此编码器-解码器设计，作者提出了MSLAU-Net，这是一种混合架构，结合了CNN和Transformer的优势，用于高效的医学图像分割。

作者的主要贡献有三方面：

作者提出了一种并行架构设计的全新MSLA模块，旨在充分利用CNN的优势来捕获多尺度低层细粒度细节，并利用线性注意力机制来建模长距离依赖关系。该设计使模型能够同时从局部特征提取和全局上下文理解中获益，同时保持低计算复杂度，这对于提高模型的计算效率和分割性能至关重要。
作者在解码器侧设计了一种自上而下的聚合机制，用于从编码器相应阶段的多个层次特征中聚合特征。随后，所有聚合后的特征被上采样以恢复原始的空间分辨率。基于这种聚合机制和所提出的MSLA模块，作者引入了MSLAU-Net，这是一种混合CNN-Transformer编码器-解码器架构，它采用非对称设计而不是传统的对称U形网络，从而能够高效地分割目标区域。
作者对MSLAU-Net在三个基准医学图像数据集上进行了广泛评估：Synapse多器官分割[25]、自动心脏诊断挑战赛[2]和CVC-ClinicDB[1]。实验结果表明，MSLAU-Net在不同医学图像任务中均取得了最先进的性能，并展现出优异的泛化能力和鲁棒性。

unsetunset2 相关工作unsetunset

作者的工作与基于CNN和基于transformer的医学图像分割方法相关。此外，作者工作的一个关键贡献是通过提出一种新的线性注意力模块来改进transformer的核心构建模块，即注意力机制，旨在提高计算效率。因此，在本节中，作者将回顾相关文献，重点关注应用CNN和transformer到医学图像分割任务的方法，以及线性注意力的进展。

2.1 - 医学图像分割

基于CNN的方法。最初，为医学图像分割开发的U型网络利用CNN操作以实现精确结果。U-Net [36]是首个引入这种独特U型架构的方法，该架构设计用于有效获取多尺度信息并融合特征（通过 Shortcut ），使其特别适合保留局部细粒度细节和捕获全局语义信息。自那以后，已提出多种变体以进一步提高性能[46, 20, 10]。例如，U

[46]引入嵌套和密集 Shortcut 以减少编码器和解码器之间的语义差距。UNet

[20]优化全尺度 Shortcut 并引入深度监督以提升分割精度。此外，3D-Unet [10]通过将其架构中引入3D卷积扩展了原始U-Net设计，能够有效处理 Voxel 医学数据，如CT和MRI扫描。由于CNN强大的局部特征表示能力，基于CNN的U型架构在医学图像分割中表现出色。然而，卷积操作在捕获长距离依赖关系方面具有固有限制。为解决此限制，作者提出将transformers纳入模型架构以弥补CNN的不足。具体而言，作者在模型的深层编码阶段用transformers替换CNN。

基于Transformer的方法。受Transformer在自然语言处理（NLP）领域取得的成功[41]的启发，近年来人们日益关注将Transformer应用于计算机视觉任务[12, 47, 26]，由于其在建模长距离依赖关系方面的能力，这种方法已被证明是有效的。因此，更多方法涌现出来，旨在利用Transformer进行医学图像分析，特别是在医学图像分割领域，该领域需要对结构细节和全局上下文进行全面理解[45, 14, 19, 21, 5, 18]。在医学图像分割领域，基于Transformer的代表性工作包括TransUNet[7]，该工作在一个U形架构中分别利用卷积神经网络（CNN）和Transformer进行局部特征提取和全局上下文建模；Swin-Unet[6]，该工作采用基于Swin Transformer[28]的纯Transformer架构，实现高效计算；以及BRAU-

[24]，该工作创新性地将动态Sparse注意力引入混合CNN-Transformer架构，并通过通道空间注意力机制重新设计 Shortcut 。尽管取得了这些进展，现有的基于Transformer的方法通常依赖于Softmax注意力机制或Sparse注意力机制，这些方法仍然存在计算成本高和感受野尺寸有限等挑战。与这些方法不同，作者提出使用线性注意力机制，以实现更低的计算复杂度，并提供全局感受野，从而克服Softmax和Sparse注意力机制的一些局限性。

2.2 - 线性注意力

与感受野受限的Sparse注意力机制不同，线性注意力通过采用核函数代替Softmax函数重新定义自注意力机制，具有两大主要优势。首先，它利用矩阵乘法的结合律改变计算顺序，将计算复杂度降低至

。其次，它提供全局感受野，使模型能够捕获整个输入之间的依赖关系。开创性工作[23]将Softmax函数替换为应用于

和

的映射函数

。然而，仅依赖简单的特征映射会导致显著的性能下降。因此，提出了多种方法来设计有效的近似技术以解决这一问题。Efficient Attention [38]分别对

和

应用Softmax函数。Hydra Attention [3]引入hydra技巧并使用余弦相似度代替Softmax函数。Flatten Transformer [16]提出了一种称为聚焦函数的简单映射函数，并采用秩恢复模块来保留特征多样性。Agent Attention [17]集成了Softmax和线性注意力。尽管这些方法已被证明是有效的，但与Softmax注意力相比，它们在建模复杂模式方面的能力仍然有限。此外，它们仅在单一尺度上运行，忽视了多尺度特征探索的潜在优势。为解决这些局限性，EfficientVit [4]采用深度卷积来增强线性注意力的多尺度学习能力。然而，EfficientVit主要依赖小核卷积，这限制了其全面提取多尺度特征的能力。在这项工作中，作者提出了一种新型线性注意力模块，称为多尺度线性注意力（MSLA），旨在学习全面的多尺度特征，从而显著增强线性注意力的表达能力。

unsetunset3 方法unsetunset

在本节中，作者详细阐述了所yinqing-MSLAU-Net_2505。首先，作者简要总结了Efficient Attention。接下来，作者详细介绍了Multi-Scale Linear Attention（MSLA）模块。然后，作者引入了两个关键组件：基于MSLA模块构建的编码器，以及设计用于更好地保留Low-Level空间细节并增强High-Level语义信息的解码器。最后，作者明确了所提出MSLU-Net的整体架构及其相关的损失函数。

3.1 - 前提

给定输入

，其中

为token数量，每个头的自注意力的一般形式可以表示如下：

其中

是可学习的线性投影矩阵，

和

分别是模块和每个头的通道维度，

表示相似度函数。

在现代视觉Transformer架构中，最广泛采用的注意力机制是Softmax注意力，其相似度函数定义为

。Softmax注意力需要计算所有 Query -键对之间的相似度，导致其计算复杂度为

。为解决这一问题，线性注意力被提出作为替代方案，显著降低了复杂度。具体而言，线性注意力通过利用映射函数

重新定义了注意力机制，其相似度函数表述为

。

高效注意力是一种线性注意力机制，在保持与Softmax注意力相似的表征能力的同时，实现了线性计算复杂度[38]。数学上，高效注意力可以表示如下：

高效注意力机制的映射函数定义如下：

其中

分别表示对 Query 矩阵的每一行和键矩阵的每一列应用softmax函数。基于矩阵乘法的结合律，计算顺序可以从

改变为

。通过这种方式，Efficient Attention的计算复杂度降低到

。

3.2 - 多尺度线性注意力

作者的多尺度线性注意力（MSLA）包含两个主要操作过程：多尺度特征提取和线性注意力计算。前者捕获多尺度局部结构细节以提升分割性能，后者利用近似全局感受野的线性注意力，类似于Softmax注意力，以建模长距离依赖关系同时提高计算效率。具体解释如下。

3.2.1 - 多尺度特征提取

如图1所示，作者首先将输入 Token Reshape 为特征图

，然后沿着通道维度

将其分割为四个部分。

picture.image

₁

₂

₃

₄

经过 Reshape 和分割后，这些特征被输入到四个并行深度卷积分支中，分别使用

、

和

的卷积核来探索多尺度表示。较小的卷积核（例如

）在检测医学图像中的细粒度细节方面表现优异，如细微病变区域，而较大的核（例如

）在捕捉更广泛的结构方面更有效，包括器官的整体轮廓。

图1 多尺度线性注意力细节。MSLA模块并行设计，充分利用卷积神经网络（CNN）捕获多尺度特征和线性注意力建模长距离依赖。输入特征图首先沿通道维度分为四部分。每部分通过不同核大小（

，

和

）的深度卷积处理，提取多尺度特征。随后，对多尺度特征应用线性注意力，即高效注意力，以建模长距离依赖。最终，通过

卷积融合所得输出。

随后，不同尺度的特征通过残差连接与原始输入特征进行整合，然后应用ReLU激活函数。该过程有助于实现更丰富的多尺度特征表示，其公式表述如下：

其中

，操作

表示使用

作为核大小的深度卷积。

3.2.2 - 线性注意力计算

为进一步提升模型定位感兴趣区域并抑制无关信息的能力，作者采用Efficient Attention [38] 分别在各分支的多尺度特征中捕获上下文信息。

首先，作者将

重形为

。为了提取全局表示，作者将高效注意力机制应用于多尺度 Token

。具体而言，对于第

个分支和第

个头，作者通过特定的线性投影推导出 Query 、键、值张量

。

分别是 Query 、键、值的投影权重。

接下来，作者使用高效注意力机制为每个注意力头分别进行注意力计算。形式上，

其中

是第

个分支中第

个注意力头的输出。此外，使用权重矩阵

进行额外的线性变换，以组合所有头的输出。

最后，

在空间维度上被 Reshape 为图像表示

。这种转换有助于后续的卷积操作，从而增强了多尺度特征的融合。融合过程可以描述为：

其中

是可学习的权重参数，

表示通道级联，

表示

卷积。随后，作者将融合特征图 Of E RVNNxC 重构为

，以获得最终的输出 Token 。

3.3 - 编码器

yinqing-MSLAU-Net_2505的编码器由四个阶段组成，如图4所示。前两个阶段包含Patch Embedding层和局部特征提取（LFE）模块，而后两个阶段则包含Patch Embedding层和全局特征提取（GFE）模块。下面，作者将详细描述LFE模块、GFE模块和Patch Embedding层。这些组件以分层方式逐步堆叠，形成一个配置为[4,8,11,5]的四阶段金字塔结构。这种分层堆叠方法确保了局部细节和全局上下文都能被有效捕获，从而得到更鲁棒和全面的特征表示。

picture.image

遵循Local UniFormer模块[26]，作者引入LFE模块以更好地利用CNN的局部特征提取能力。LFE模块由三个组件构成：一个

的深度卷积、三个连续的卷积层以及一个 FFN （FFN），如图2所示。

的深度卷积编码相对位置信息，而三个连续的卷积层学习局部表示。关于FFN，其输入的通道维度首先通过一个

的卷积以4倍的比例进行扩展，然后使用另一个

的卷积恢复到原始维度。LFE模块可以表示为：

其中

和

分别表示第

个LFE模块的深度卷积、三个连续的卷积层和FFN模块的输出。

图2 LFE模块的细节。LFE模块由三个关键模块组成：一个

的深度卷积、三个连续的卷积层和一个FFN。

基于MSLA模块，作者设计了GFE模块以学习深层中的长距离依赖关系。具体而言，作者在开头采用

深度卷积作为相对位置编码。随后，作者依次应用一个扩展率为

的MSLA模块和一个FFN模块，如图3所示。GFE模块可以表示为：

图3 GFE模块的细节。GFE模块包含三个主要组件：一个

的深度卷积、一个MSLA模块和一个FFN。

其中

和

分别表示第

个GFE模块的深度卷积、MSLA模块和FFN模块的输出。

关于Patch Embedding层，作者在第一阶段应用一个

卷积，步长为4，在后续阶段应用一个

卷积，步长为2。在每个下采样卷积之后，作者额外添加一个Layer Normalization（LN）。

3.4 1 解码器

解码器由卷积和双线性上采样操作组成，设计用于执行多级特征聚合，并利用自上而下的特征聚合机制恢复分辨率，如图4所示。为了有效聚合多级特征，作者将编码器第二至第四阶段的输出与第一阶段输出在通道维度和空间分辨率上对齐。具体而言，作者分别对来自编码器第二、第三和第四阶段的输出应用一个、两个和三个卷积块。每个块由一个

卷积层后接一个双线性上采样层组成。

卷积层将通道维度减半，而双线性上采样层执行

上采样。这种对齐对于保持所有阶段的统一特征表示至关重要，有助于更有效的多尺度特征融合，并提升整体模型性能。在对齐通道维度和空间分辨率后，作者使用逐元素相加的方式，依次对编码器第二至第四阶段的输出（即特征图）执行自上而下聚合操作，从而增强不同阶段之间的交互。

接下来，所有具有相同通道维度和空间分辨率的聚合特征图被输入到另一个卷积块中，该块由两个连续的

卷积层和一个双线性上采样层组成。这种配置在保持通道维度不变的情况下将空间分辨率提高

。然后，每个分支的输出沿着通道维度进行拼接，使通道维度增加

。随后，拼接后的特征图被输入到第三个卷积块中，该块由一个

卷积层和一个双线性上采样层组成，以恢复全分辨率

，用于预测最终的分割结果。

3.5 架构概述

作者的架构命名为MSLAU-Net，是一种混合CNNTransformer模型，由上述的编码器和解码器组成。MSLAU-Net在编码器-解码器框架内无缝集成了多尺度特征提取和多级特征聚合。编码器采用分层金字塔结构，其中前两个阶段分别包含4个和8个LFE模块，后两个阶段包含11个和5个GFE模块。这种设计确保作者的网络能够有效捕捉Low-Level局部特征和High-Level语义信息。解码器采用自上而下的特征聚合机制，整合编码器中的多级特征，增强不同阶段的交互，并有助于更丰富的特征表示。此外，还利用双线性上采样和通道级联来增加空间分辨率和通道维度。整个网络经过精心设计，以利用CNN和Transformer的优势，确保高效的多尺度特征提取和稳健的多级特征聚合，同时保持低计算复杂度。

3.6 - 损失函数

在作者的实验中，作者针对每个数据集使用不同的损失函数。对于CVC-ClinicDB数据集，作者仅使用Dice损失

来优化MSLAU-Net。其定义如下：

其中

是像素数量，

表示真实标签，

表示类别预测概率。

是类别数量，

是所有类别的权重之和。

对于Synapse和ACDC数据集，作者采用了一种混合损失函数，该函数集成了Dice损失

和交叉熵

损失，以有效解决类别不平衡问题。交叉熵损失的表达式为：

用于在Synapse数据集上训练的整体混合损失函数被表述为：

其中

是一个加权因子，用于平衡

和

的影响。在作者的所有实验中，

和

分别经验设置为

和 0.6。

unsetunset4 实验unsetunset

4.1 - 数据集

Synapse多器官分割数据集：该数据集源自MICCAI 2015多图谱腹部标注挑战赛，包含30次腹部CT扫描，总计3,779个轴向切片。每次扫描的 Voxel 尺寸为

，包含85至198个切片，每个切片分辨率为

像素。遵循[6, 7]，该数据集分为18个病例（2,212个切片）用于训练，12个病例用于测试。作者通过报告八个腹部器官（主动脉、胆囊、脾脏、左肾、右肾、肝脏、胰腺和胃）的平均Dice相似度系数（DsC）和平均Hausdorff距离（HD）来评估yinqing-MSLAU-Net_2505。

自动化心脏诊断挑战数据集：ACDC数据集包含从100名患有不同病理的病人获取的MRI扫描。每项扫描都手动标注了三个关键区域：左心室（LV）、右心室（RV）和心肌（MYO）。该数据集分为70个训练样本、10个验证样本和20个测试样本。遵循[6, 7]，作者使用平均Dice相似性系数（DSC）作为评估指标，评估yinqing-MSLAU-Net_2505在这三种心脏结构上的性能。

CVC-ClinicDB数据集：该数据集是MICCAI 2015自动息肉检测子挑战的官方训练数据集。它包含从结肠镜视频中提取的612张图像，这些图像被随机划分为三个子集：490张用于训练，61张用于验证，61张用于测试。数据集中的每张图像都附带一个标注的真实值 Mask ，用于标示息肉区域。在这个数据集上，作者采用以下指标：平均IoU（mIoU）、Dice相似系数（DSC）、准确率、精确率和召回率。

4.2 1 实现细节

MSLAU-Net采用Python 3.10和PyTorch 2.0实现。作者在配备24 GB内存的NVIDIA GeForce RTX 3090 GPU上训练MSLAU-Net及其各种消融变体。训练过程中，模型权重使用来自ImageNet [11]的预训练权重初始化。对于所提出的注意力机制，其多尺度卷积核根据消融研究的结果配置为[3, 5, 7, 9]。在Synapse多器官分割数据集上，输入图像被调整为

。使用随机梯度下降（SGD）优化器，批大小为24，初始学习率为0.05，动量为0.9，权重衰减为

，模型训练400个epoch。类似地，在ACDC数据集上，输入图像同样调整为

，但采用AdamW优化器 [30]，批大小为24，初始学习率设置为

，权重衰减为

，模型训练400个epoch。此外，在CVC-ClinicDB数据集上，输入图像调整为

。为增强数据多样性，作者应用多种数据增强技术，概率为0.25，包括水平翻转、垂直翻转、旋转和Cutout。模型随后使用AdamW优化器，批大小为8，权重衰减为

，初始学习率为

，训练200个epoch。

图4 提出的MSLAU-Net采用编码器-解码器结构。编码器集成了CNN和Transformer组件，分别利用LFE和GFE模块进行局部和全局特征提取。解码器采用自上而下的聚合机制，从编码器相应阶段的多个层次特征进行聚合。这些特征随后被上采样至原始图像分辨率，生成最终的 Mask 预测。

4.3 在Synapse多器官分割数据集上的比较

MSLAU-Net的分割性能在Synapse多器官分割数据集上进行定量评估，并与多种当前最优方法进行比较。这些方法包括基于CNN的方法，如U-Net [36]和Att-UNet [32]，基于Transformer的方法，如Swin-Unet [6]和MISSFormer [21]，以及混合CNN-Transformer方法，包括TransUNet [7]、HiFormer [19]、PVT-CASCADE [34]和BRAU-Net+

[24]。实验结果如表1所示。如表1所示，yinqing-MSLAU-Net_2505实现了最高的DSC分数83.18%，显著优于所有其他广泛采用的技术。这证明了MSLAU-Net在建模局部特征和全局依赖方面的有效性。在HD方面，MSLAU-Net也表现出色，达到了17.00 mm的值。虽然这略高于表现最佳的HiFormer (14.70 mm)，但仍反映了其强大的边界定位能力。此外，MSLAU-Net在多个器官上表现出良好的性能。值得注意的是，它在肝脏 (94.82%) 和右肾 (84.67%) 上实现了最高的DSC分数，突出了其在处理复杂解剖结构方面的有效性。此外，MSLAUNet参数效率极高，仅有21.90 M参数，使其成为实际应用中具有吸引力的选择。这些结果表明，MSLAU-Net不仅实现了当前最优性能，还保持了计算效率，使其成为多器官分割任务的有前景的解决方案。

图5展示了不同方法在Synapse数据集上的定性结果。可以看出，yinqing-MSLAU-Net_2505为胆囊、右肾、肝脏和胰腺等器官生成了更精确的分割图。这些结果表明MSLA在捕捉小目标和大型目标特征方面表现良好。此外，MSLU-Net有效学习局部细节和全局语义信息，从而获得更好的分割结果。具体而言，所yinqing-MSLAU-Net_2505不仅更准确地勾勒出器官的边界，而且在整个分割图上保持一致性。这些特性突出了MSLA机制在增强模型处理复杂解剖结构能力方面的有效性。

picture.image

4.4 1 自动化心脏诊断挑战数据集上的比较

作者在ACDC数据集上提出的与先前最先进方法进行的比较结果如表2所示。结果表明MSLAU-Net实现了总体DSC为92.13%，超越了所有其他竞争方法。值得注意的是，MSLAU-Net在心肌（Myo）和左心室（LV）分割方面表现出最佳性能，分别达到了DSC分数90.06%和95.95%，突显了其在处理特定区域的独特优势。这些发现表明MSLAU-Net是心脏图像分割任务中一种高效且鲁棒的模型。

4.5 - CVC-ClinicDB数据集上的比较

根据表3中的对比实验结果，MSLAU-Net在CVC-ClinicDB数据集上展现出卓越的分割性能。该方法实现了88.68的mIoU和93.03%的DSC，同时在准确率、精确率和召回率等其他关键指标上表现优异。此外，如图6所示，MSLAU-Net生成的分割结果与真实标签高度吻合。这些结果证实了MSLAU-Net在处理复杂医学图像分割任务方面的强大能力和高可靠性。

4.6.1 - 预训练权重的有效性

为评估预训练权重对提升模型性能的具体效果，作者在Synapse数据集上进行了消融研究。如表4所示，当不使用预训练权重（即随机初始化）时，该方法需从头学习所有参数，导致性能劣于使用预训练权重的情形。相比之下，使用在ImageNet上预训练的权重显著提升了模型性能。具体而言，DSC提升了约3.77%，HD降低了5.88 mm。由于资源限制，以下消融研究均未使用预训练权重。

picture.image

4.6.2 不同尺度组合在MSLA中的有效性

作者进行了一项详细的消融研究，以评估MSLA中不同尺度组合对分割性能的影响。具体而言，作者首先评估了不采用任何多尺度策略的性能，即仅使用Efficient Attention，其DSC为77.76%，HD为27.27 mm。随后，作者探索了双分支和四分支多尺度策略，其中卷积核尺寸1、3、5、7和9以不同组合方式使用。结果如表5所示。可以看出，在双分支策略中，使用尺寸5和7的核获得最佳性能，DSC为78.32%，HD为24.92 mm；而在四分支策略中，将核尺寸设置为[3, 5, 7, 9]可获得相对最优性能，DSC为79.41%，HD为22.88 mm。这些结果表明，引入多尺度设计，特别是四分支策略，显著提升了Efficient Attention的性能。性能提升归因于多尺度策略能够捕捉不同细节层次的特征。

picture.image

4.6.3 编码器中结构设计的有效性

4.6 消融研究

在本节中，作者对Synapse数据集进行了广泛的消融研究，以探究MSLA-Net中每个组件的影响。具体而言，作者分析了预训练权重、MSLA模块中不同尺度组合、编码器结构设计以及模型规模的有效性。与最后三个组件——即不同尺度组合、编码器结构设计以及模型规模——相关的所有实验均从头开始训练。

作者进行消融研究以评估编码器中不同配置的LFE和GFE模块在各阶段的有效性。结果如表6所示。可以看出，仅使用LFE模块（即配置LLLL）或仅使用GFE模块（即配置GGGG）对所有阶段进行处理均会得到相对较低的性能。最佳分割性能由配置LLGG实现。现象表明，虽然Transformer在全局特征建模方面表现出色，但在提取局部表示方面相对CNN效果较差，可能导致冗余注意力。正如预期，通过在第一阶段和第二阶段使用CNN，在最后两阶段使用Transformer，可以获得最佳性能。该配置通过利用两种架构的优势，有效平衡了局部细节提取和全局上下文理解。

表1 在Synapse多器官分割数据集上，yinqing-MSLAU-Net_2505与其他最先进方法相比的定量结果。符号

表示越大越好。符号

表示越小越好。最佳结果以黑色显示，第二好的结果以下划线表示。

图5 不同方法在Synapse多器官分割数据集上的定性结果。作者的MSLAU-Net更准确地捕捉了器官边界，并展示了更优越的细节处理能力。建议使用彩色放大查看。

表2 不同方法在ACDC数据集上的定性结果

4.6.4 - 模型规模的有效性

作者使用两个模型尺度，名为"Base"和"Small"的模型，来评估模型尺度对分割性能的影响。它们的配置和结果如表7所示。作者可以看到，尽管"Small"模型参数显著更少（1.439M vs. 21.90M）且计算复杂度较低（3.73 GFLOPs vs. 5.05 GFLOPs），但该变体仍然实现了极具竞争力的性能（在DSC上的79.41% vs. 76.96%，在HD上的22.88 mm vs. 25.32 mm）。然而，为了获得最佳性能，作者选择"Base"模型作为最终架构。此外，值得注意的是，由于计算资源限制，所报告的性能对应于未使用预训练权重训练的模型。

图6 不同方法在CVC-ClinicDB数据集上的定性结果。真实边界以绿色显示，预测边界以蓝色显示。与其它最先进方法相比，作者的MSLAU-Net在匹配真实边界方面表现出更好的性能。建议使用彩色放大视图查看。

表3 不同方法在CVCClinicDB数据集上的定性结果

类似地，对于位于第四切片背景中的 Query ，该模块专注于背景区域。这些可视化突出了模块有效识别和集中注意力于特定目标区域的能力，有助于理解作者的MSLA注意力模块的工作原理。

图7 顶行展示了Synapse数据集的不同切片，红色星号标示了 Query 的位置。底行显示了相应的注意力 Heatmap 。

picture.image

4.7 - 可视化

作者针对特定 Query ，从阶段3中可视化出最关注的区域，如图7所示。对于器官区域的 Query ，在第一张和第二张切片中用红色星号 Token ，该模块能够准确聚焦于器官的相应区域，热力图中的高亮区域显示了这一点。当 Query 置于第三张切片中的非器官区域时，热力图表明该模块精确地关注这些相应的非器官区域。

unsetunset5 1 结论unsetunset

本文提出了一种用于医学图像分割的混合CNNTransformer架构MSLAU-Net。具体而言，作者引入了多尺度线性注意力机制（MSLA）以捕获多尺度信息并执行全局注意力计算，同时保持低计算复杂度。

此外，作者在解码器中集成了自上而下的多级特征聚合机制，有效融合High-Level语义信息与Low-Level细节，以提升分割精度。实验结果表明，yinqing-MSLAU-Net_2505在Synapse多器官分割、ACDC和CVC-ClinicDB数据集上均取得了最先进的性能，验证了其有效性和鲁棒性。

未来工作中，作者计划通过设计更高效的线性注意力机制来进一步改进该方法，从而提高其计算效率及处理复杂病理结构的鲁棒性。

点击上方卡片，关注「AI视界引擎」公众号

MSLAU-Net：融合多尺度线性注意力与特征聚合的新型CNN-Transformer医学图像分割架构 ！

unsetunset1 引言unsetunset

unsetunset2 相关工作unsetunset

2.1 - 医学图像分割

2.2 - 线性注意力

unsetunset3 方法unsetunset

3.1 - 前提

3.2 - 多尺度线性注意力

3.2.1 - 多尺度特征提取

3.2.2 - 线性注意力计算

3.3 - 编码器

3.4 1 解码器

3.5 架构概述

3.6 - 损失函数

unsetunset4 实验unsetunset

4.1 - 数据集

4.2 1 实现细节

4.3 在Synapse多器官分割数据集上的比较

4.4 1 自动化心脏诊断挑战数据集上的比较

4.5 - CVC-ClinicDB数据集上的比较

4.6.1 - 预训练权重的有效性

4.6.2 不同尺度组合在MSLA中的有效性

4.6.3 编码器中结构设计的有效性

4.6 消融研究

4.6.4 - 模型规模的有效性

4.7 - 可视化

unsetunset5 1 结论unsetunset