HES-UNet：结合卷积与注意力模块分割方案！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

肝脏包虫病（HE）在经济欠发达的牧区较为普遍，这些地区通常缺乏足够的医疗资源。现有方法往往忽视了多尺度特征融合或仅关注相邻层次之间的特征融合，可能导致特征融合不足。

为解决这些问题，作者提出了一种用于HE病变分割的有效且准确的模型——HES-UNet。

该模型结合了卷积层和注意力模块，以捕捉局部和全局特征。在下采样过程中，采用了多方向下采样块（MDB），有效集成高频和低频特征，提取图像细节。

多尺度聚合块（MAB）聚集多尺度特征信息；而多尺度上采样块（MUB）学习高度抽象的特征，并将其信息传递给 Shortcut 模块，用于多尺度特征融合。

由于HE特有的区域特征，目前尚无公开的高质量数据集可供训练作者的模型。为此，作者从某医院收集了268位患者的CT切片数据进行模型的训练和评估。

实验结果显示，HES-UNet在作者的数据集上的Dice相似系数（DSC）达到了89.21%，比TransUNet高出1.09个百分点。

项目页面可访问 https://chenjiayan-qhu.github.io/HES-UNet-page/。

INTRODUCTION

肝包虫病（HE）是由寄生虫感染引起的一种严重的人畜共患病，通常发生在气候条件恶劣、医疗资源有限的偏远牧区或高海拔地区[1]。计算机断层扫描（CT）通常是诊断HE的主要手段[2]；然而，手动分割病变区域耗时且依赖于医生的经验判断，难以复现。早期的医学影像分割方法通常依赖传统的边缘检测算法[3]和区域增长算法[4]。但是，这些传统方法通常需要手工设计特征，并且对病变形状和大小的变化不够鲁棒，难以处理HE病变的不规则形状和模糊边界。

近年来，随着深度学习的快速发展，卷积神经网络（CNNs）[5] 在医学图像分割领域显示出巨大的潜力。U-Net [6] 是一种广泛使用的网络架构。然而，由于卷积操作固有的局部感受野，该模型难以有效捕捉全局图像特征。此外，最大池化操作仍会导致细节损失，这对于边界不清晰的腹部CT图像来说至关重要，这限制了模型捕捉细微特征的能力。Trans-UNet [7] 结合了Transformer [8] 和CNN，利用自注意力机制捕捉全局特征，但这也导致参数数量显著增加，使得模型更难训练。另外，训练如此复杂的模型需要大量的标注数据，而在医疗应用中这通常是很难获得的。Swin-UNet [9] 提出了一种使用纯Transformer的U形架构，不依赖卷积进行特征提取。虽然这种设计在建模全局特征方面表现出色，但它削弱了模型学习局部特征的能力，尤其是在处理医学图像中的细边界和纹理细节时。此外，简单的 Shortcut 无法有效地在不同层次之间聚合特征。

因此，为了应对上述问题，作者提出了HES-UNet，这是一种高效且精确的HE图像分割模型，能够精确划分病变区域，协助医生进行疾病诊断，同时实现高 Level 的准确性。该模型主要由四个部分组成：多尺度特征整合编码器（MFSI编码器）、多尺度全局特征过滤模块（MGF模块）、渐进融合解码器（PF解码器）和深监督模块（DS模块）。在编码器部分，作者用MDB替代了传统U-Net中的最大池化操作，有效保留了图像中的多频谱特征。随后，使用MAB模块聚合全局特征表示。接着，应用MUB提取多尺度全局特征，选择性地增强不同尺度的特征。与传统的相邻层之间的 Shortcut 不同，MUB能够在所有特征 Level 上实现全局调整。最后，PF解码器生成预测。

此外，作者在DS模块中引入了深度监督，使得每个解码器块(DB)可以直接输出预测概率，这些概率随后被整合到MGF中。这种方法显著增强了模型的泛化能力，并优化了梯度传播。

作者的贡献可以总结如下：

作者提出了一种专门用于肝包虫病分割的模型。
作者提出了三个模块以增强分割特征。MDB 实现了无损特征下采样，MAB 促进了全局特征表示的形成，而MUB 通过选择性地在不同尺度上增强特征来优化 Short-Cut ，从而提供多尺度全局特征。
作者进行了广泛的实验，以展示作者模型的先进性能。作者的模型在DsC上取得了89.21% 的成绩，表明其在病灶分割方面的有效性。

HI.RELATEDWORK

A.CNN-based SegmentationModels

在计算机视觉领域，设计高性能的网络架构一直是最重要的研究方向之一。自卷积神经网络(CNN)被引入以来，它们在医学图像分割中得到了广泛的应用。其中，U-Net [6]及其变体（例如3D U-Net [10]、V-Net [11]和 [12]）由于其对称的编码器-解码器结构，通过多尺度特征提取和 Shortcut 下的特征融合，已成为最具影响力的模型。

然而，传统的CNN受限于卷积核的本质，只能从图像中提取局部特征信息，对于捕捉长程依赖关系和全局信息能力不足 [13]。此外，在下采样过程中简单地使用最大池化操作可能会导致细节信息的丢失，从而降低病变边界分割的准确性 [14]。

B.Transformer-basedSegmentationModels

Transformers 最初由Vaswani等人[8]提出，用于序列到序列的任务，核心思想是自注意力机制能够权衡输入序列中的每个位置的重要性，从而捕捉长距离依赖关系。

ViT [15] 是首个将Transformer架构应用于图像处理任务的研究，有效地在学习图像全局特征的同时避免了卷积的缺点。Cao等人提出了Swin-UNet [9]，该模型使用Swin Transformer作为基础架构，并包含一对编码器解码器结构。该架构采用分层次的自注意力机制来学习图像特征。

C.Hybrid Segmentation Models

由于Transformer模型在捕捉全局特征方面的优势，以及CNN在捕捉局部特征方面的出色表现，研究行人开始探索结合Transformer和CNN的混合架构，以实现更精确的医学图像分割。

Ou等人提出了Trans-UNet [7]，该模型通过CNN提取局部特征，并通过Transformer模块增强全球特征建模，从而提高分割精度。Attention U-Net在传统的U-Net中加入了注意力机制，通过学习特征的重要性动态调整特征图融合过程。

III.METHODS

HE染色病变分割通常面临以下挑战：

(1) CT图像常常包含噪声且对比度较低；

(2) HE可以分为囊型包虫病(CE)和肺型包虫病(AE)，这两种类型的病变差异显著，这使得模型难以同时学习共性和特异性特征；

(3) 寄生虫死亡可能导致病变区域出现钙化，这些钙化在图像中表现为高密度、清晰的白色斑点，容易与骨骼混淆[16]。基于这些挑战，作者旨在保留更多的抽象和丰富的特征，并引入全局特征捕捉。

A.OverallArchitecture

给定一个CT图像，其中表示通道数量，由于输入为灰度图像，因此，和分别代表图像的高度和宽度。作者的目标是从CT图像中分割出包虫病病变区域。具体地，作者提出了一种名为HES-UNet的新颖编码器-解码器模型，用于分割包虫病病变区域。该模型由四个主要组成部分构成：多尺度特征整合编码器（MFSI编码器）、多尺度全局特征过滤模块（MGF模块）、渐进融合解码器（PF解码器），以及深度监督模块（Ds模块），如图1所示。

picture.image

HES-UNet的整体Pipeline可以概括如下：首先，采用MFSI编码器从CT图像中提取特征，生成一系列多尺度特征，其中每个尺度由一个编码块(EB)处理，如图2A所示。接着，将集输入到多尺度聚合模块(MAB)中以捕获全局特征表示。

picture.image

B.Multi-scaleFeatureIntegrationEncoder

为了更有效地从输入CT图像中聚合多尺度特征信息，作者设计了一个名为多尺度特征集成编码器（MFSI编码器）的编码结构，该结构由5个编码块（EB）和一个多尺度聚合块（MAB）组成。

编码块（EB）能够捕获局部和上下文信息，并逐步下采样特征图。每个EB由卷积层、注意力层和下采样层组成。在卷积层中，作者使用GHPA [17]模块来提取深层特征，实现了类似于多轴注意力的效果，且具有线性计算复杂度。然而，由于GHPA依赖于深度可分离卷积，因此在浅层不如标准2D卷积有效。因此，在中，作者使用3x3的2D卷积来捕捉基本的空间特征，并在到中用GHPA模块替换卷积。对于注意力层，作者引入CBAM [18]来提取通道和空间注意力信息。

在下采样层中，由于空间信息对于HE病灶分割任务至关重要，受到HWD [14]、[19]的启发，作者设计了一个多方向下采样块（MDB），能够在下采样过程中保留丰富的多方向特征，如图2E所示。令表示输入到MDB的特征图。首先应用哈尔小波变换，作者得到四个特征图：，其中保留了近似图像信息，而、和分别捕捉垂直、水平和斜向细节信息。作者将这四个组件连接起来以获得，压缩空间维度到通道维度。

然后，作者使用1x1卷积层对通道维度中的空间信息进行筛选，并使通道维度与M匹配。最后，作者应用批量归一化和ReLU激活函数来生成MDB的输出特征图，记作。

多尺度聚合块（MAB）汇聚多尺度特征信息，如图2C所示。具体来说，对每个编码块（EB）的输出应用自适应平均池化，调整特征图尺寸，使得不同尺度的特征图在维度上匹配。然后，使用1x1卷积层进一步筛选特征，记作。此外，为了捕捉更多抽象的信息，作者先将通过GHPA和CBAM模块处理，得到。最后，执行矩阵加法直接将与组合，从而产生一个全局特征，该特征综合了所有五个编码层次的特征，并形成了深融合的全局特征表示。

C.Multi-scaleGlobalFeatureFilteringModule

为了过滤冗余特征，作者提出了一种多尺度全局特征过滤模块（MGF模块），该模块包括一个多尺度上采样块（MUB），用于学习图像的深层次抽象特征，以及5个全局注意力模块（GAMs），用于聚合多尺度图像特征。

为了增强模型表示复杂图像特征的能力，作者提出了一种多尺度上采样块（MUB），这是一个结合像素混排技术的卷积模块（图2G）。其具体的架构如图2D所示。具体而言，MUB以全局特征表示作为输入。首先，作者应用两个连续的GHPA模块来扩展通道维度至4096。接着使用像素混排恢复通道数至1024，同时增加宽度和高度，实现上采样的效果。随后，通过一系列卷积和双线性插值层来调整特征图尺寸以供输入至GAM。MUB的输出记作，可选择性地增强不同尺度上的特征。此外，为了改善梯度流，作者添加了两条额外路径：一条不使用像素混排的GHPA路径，以及一条直接连接路径，以保留特征图中的初始信息并防止信息丢失。

为了实现高效的多尺度信息交互，如图2F所示，作者引入了一系列全局注意力模块（GAMs）。为了聚合不同层次的特征，作者使用了5个GAMs。对于每个，需要三个输入：低层特征、全局特征和中间预测结果。首先，应用标准的2D卷积和双线性插值来调整的大小以匹配。随后，和在通道维度上被分成四组，表示为。接着，、和沿着通道维度进行拼接，形成四组混合特征。每组随后通过 LayerNorm 和空洞卷积来提取多尺度特征，得到。最后，特征信息通过通道拼接并经过一个卷积融合，生成输出。

D.1 ProgressiveFusion decoder

渐进融合解码器由6个连续的解码器块(DB)组成，每个解码器块的设计如图2B所示。首先，DB6接收MUB中的。接着，作者对应用GHPA和双线性插值，所得结果作为DB6的输出，并表示为。同时，通过一个卷积直接生成最抽象的预测。

随后，传递给GAM5以获得经过冗余特征过滤后的细化特征。然后，和进行逐元素相加，并输入下一个解码器块DB5。这一过程重复进行，最终产生最终的病灶区域预测。值得注意的是，在与编码器块(EB)类似的情况下，DB1中作者用一个卷积取代了GHPA。

E.LossFunction

为了应对神经网络训练过程中梯度消失的问题，作者采用了深度监督，在不同的阶段计算损失函数。通常使用二元交叉熵（BCE）损失函数进行图像二分类。

其中 ( N ) 表示总像素数，(\mathbf{y}) 是 GT 值，(\hat{\mathbf{y}}) 是预测图像。然而，由于病变区域通常较小，Dice损失函数在处理类别不平衡方面更为有效。

总之，作者的损失函数可以表示为公式(2)和(1)。

设置为，以平衡网络不同阶段的损失。

IV.EXPERIMENTSANDRESULTS

A.DatasetandImplementationDetails

数据集。作者从某医院收集了268例HE患者的CT图像数据（包括137例CE和131例AE），并对数据集进行了预处理。首先，为了保护患者隐私，作者去除了所有包含患者识别信息的元数据。接着，原始CT图像的灰度值（HU值）范围非常广，远远超过了人眼和显示器能够同时感知的灰度范围。因此，作者进行了窗宽调整以更好地突出不同组织和病灶的细节。在三位专业医师的指导下，作者选择了窗宽为和窗位35 HU，将HU值标准化到[-150, 35]的范围内。这一选择基于肝脏轮廓、病灶区域和骨信息的考虑。随后，作者将CT切片数据保存下来，并使用其中的80%作为训练集，10%分别作为测试集和验证集。

实施细节。由于输入由灰度图像构成，模型的输入通道数设置为1，而输出通道数则根据类别的数量也设置为1。每个EB输出特征图的通道数分别设置为[32, 64, 128, 256, 512]。

作者将训练的总轮数设为200，并采用早期停止机制监控验证集上的最小损失。如果连续50个epoch没有在验证损失上观察到改进，则停止训练以防止过拟合。作者选择了AdamW [21] 作为优化器，并设定了初始学习率为0.001。此外，作者使用了ReduceLROnPlateau调度器，在连续5个epoch没有在验证损失上观察到改进时将学习率减半。批量大小设为4。由于获取足够数量的肝包虫病患者数据较为困难，作者使用了一个相对较小的数据集。为了防止过拟合，作者应用了数据增强技术，包括随机图像旋转、随机尺度变换、随机高斯平滑和随机高斯噪声。

B.ComparisonwithState-of-the-artMethods

作者在数据集上进行了广泛的实验，定量比较了作者提出的HES-UNet与一些现有的医学图像分割模型的分割性能。结果见表1。作者选择了已表现出良好分割性能的典型模型，包括U-Net [6]、 [12]、TransUNet [7]、Swin-UNet [9]、Res-UNet [22] 和 EGE-UNet [17]。

HES-UNet 在DSC指标上分别比基于CNN的分割方法（U-Net和U-Net++）、Transformer架构的Swin-UNet以及混合架构TransUNet提升了2.63%、1.56%和1.09%。此外，作者的模型在精确率和召回率指标上也显示出优势。这些实验结果表明，所提出的HES-UNet在肝脏病灶分割任务中表现优异，其分割精度超过了其他模型。图3展示了部分分割结果。

picture.image

C.AblationAnalysis

为了评估MUB、MDB和MAB模块对模型性能的各自贡献，作者使用了基础版U-Net进行了消融研究，并在表2中详细呈现了研究结果。研究结果表明，集成MUB、MDB和MAB模块显著提升了模型性能，验证了作者提出架构的有效性。具体而言，与基础模型相比，Dice系数、精确度和召回率分别提高了1.55%、1.79%和1.25%。

picture.image

V.CONCLUSION

在本文中，作者提出了一种高效且准确的分割模型HES-UNet，用于解决肝包虫病(HE)病灶分割过程中多尺度特征融合不足的问题。该模型通过引入MFSI编码器、MGF模块、PF解码器和DS模块，有效地结合了卷积层和注意力机制，能够同时捕捉图像的局部和全局特征。

在作者收集的268名患者的CT数据集上，HES-UNet展示了出色的表现，整体Dice相似系数(DsC)达到了89.21%，比TransUNet高出1.09%。

通过与各种先进分割模型的对比实验和消融分析，作者验证了所提出模块及整个模型在提高分割准确性方面的有效性。HES-UNet在HE病灶分割中取得了显著成果，为资源匮乏地区诊断HE提供了强有力的支持工具。

参考

[0]. HES-UNet: A U-Net for Hepatic Echinococcosis Lesion Segmentation .

点击上方卡片，关注「AI视界引擎」公众号

HES-UNet：结合卷积与注意力模块分割方案 ！

参考