LSTM + UNet | 图像分割性能多项指标超越现有技术！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

乳腺癌是全球女性的主要致死原因之一，及时检测在降低死亡率方面发挥着关键作用。在BUSI数据集中使用超声成像进行乳腺癌医疗图像分析时，通过应用UNet和网络获得了令人满意的分割效果。

然而，这些模型的一个显著缺点是它们未能关注图片中嵌入的时间维度特征。本研究旨在通过整合LSTM层和自注意力机制来丰富架构，以便利用时间特性进行分割。

此外，引入多尺度特征提取模块旨在抓取中的不同尺度特征。

通过将作者提出的方法与对带有GT标签的BUSI数据集的数据增强相结合，

作者达到了以下性能指标：准确率为98.88%，特异性为99.53%，精确率为95.34%，灵敏度为91.20%，F1分数为93.74，Dice系数为92.74%。

这些结果显示出与现有文献中概述的先进技术相当的竞争性。

Introduction

乳腺癌是一种干扰乳腺细胞分裂过程的状况，导致细胞无控制地过度增殖。根据其扩散程度，乳腺癌被分为多种类型，并且在全球女性中被公认为一种常见且重要的恶性肿瘤[1]。及时检测和治疗该疾病至关重要。通常，乳腺癌起源于乳腺腺体区，早期干预可以显著降低与癌性生长相关的死亡率[2]。全球范围内，乳腺癌的影响不仅限于恶性形式，还包括良性肿瘤。良性肿瘤由于局限于特定区域而风险较低，而恶性肿瘤，即癌症，有可能转移到身体其他部位，构成重大威胁。早期识别和分类乳腺癌对于预防死亡至关重要。筛查方法如乳腺X线摄影和临床乳腺检查有助于早期发现乳腺异常[3]。世界卫生组织倡导在资源充足且健康 Aware 高的发达国家定期进行乳腺X线摄影筛查，但在资源有限的发展中国家这可能不可行。普及乳腺癌知识对于早期发现肿瘤至关重要[4]。浸润性导管癌（IDC）是最主要和关键的乳腺癌形式之一，特征在于侵犯乳腺组织[5]。超声成像作为一种有价值的诊断工具，在癌症诊断[6]、[7]及可视化方面表现出色，提供了安全、实时且非侵入性的方法来评估体内结构[8]。尽管超声成像具有临床应用价值，但它也面临着伪影和噪声等挑战，这些挑战会复杂化手动和自动分析任务[9]。

这些图像中的缺陷，比如污渍和杂乱，可能会给基本的阈值处理和滤波算法带来挑战，因此需要应用更高级的技术以实现准确的分割[10]。历史上，分割过程通常在图像获取之后进行，这增加了计算复杂度。手动分析MRI数据不仅耗时且成本高昂，还容易出现人为错误[11]。尽管已经开发了一些专门用于乳腺病变检测的系统，声称可以提高诊断效率，但这些系统往往只针对特定问题，自动检测乳腺病变依然是一个持续的障碍。近年来，基于深度学习的医疗影像癌症检测系统受到了广泛关注[9-16]。由于其高死亡率，乳腺癌要求早期且精确的检测方法，这促使人们提出了多种技术以增强诊断精度。在各种医学影像模态中，乳腺超声因其低成本及能够准确识别不同区域乳腺肿瘤的能力而脱颖而出。本研究提出了一种新的乳腺分割策略，融合了UNet++和LSTM模型。这种混合模型通过结合空间和时间特征提取超越了传统的UNet和其他标准方法。具体而言，UNet++用于捕捉空间特征，而LSTM则用于学习时间特征。作者研究开发了一套集成UNet++和LSTM模型的乳腺区域分割 Pipeline ，并将其准确性与传统UNet及其他 Baseline 模型进行了对比评估，展示了显著的优势性能。作者在模型中结合空间和时间特征显著提升了分割准确性，这对于通过超声成像提高乳腺癌检测具有重要意义，从而提供了一种改进早期诊断和治疗的强大方法。

Related Works

近年来，深度学习技术尤其是卷积神经网络（CNNs）在医学图像分析领域得到了广泛的应用[9]。SegNet和Unet等多种版本的CNN具备提取高层特征和执行器官分割的能力[10][11][12]。研究行人引入了DGANet[13]，这是一种用于检测超声图像中乳腺病变的双全局注意力神经网络，其性能超越了YOLOv3和Faster R-CNN等模型。AMS-PAN[14]是一种替代的分割方法，它结合了注意力机制和多尺度特征，实现了对BUSI和OASBUD数据集的显著准确性提升。此外，BTEC-Net[15]通过将DenseNet121和ResNet101组合在一个集成模型中进行多阶段分割，实现了对BUSI和UDIAT数据集上传统分割模型UNet的超越。CSwin-PNet[16]是一种有效的策略，它采用结合了CNN-Swin Transformer和金字塔网络的方法来分割超声图像中的乳腺病灶。该方法基于帕尔蒂公司巴塞隆纳分部（西班牙）乌迪亚特诊断中心[17]以及埃及开罗贝赫亚医院[18]的数据集。

与UNet、AU-UNet、U-Net++、FPN、ViT、TransUNet和Swin-UNet等方法相比，在数据集1上的IoU指标提高了10.36，在数据集2上提高9.75。U-net++是一种用于乳腺区域分割的方法[19]，它包括编码器和解码器组件，并通过密集卷积块相连。在融合前，它会在编码器和解码器特征图之间弥合语义差距，左侧为编码器跟着解码器。不同于U-net的是，U-net++还具有连接编码器和解码器的跳跃路径，实现深层监控。该方法使用包含165张乳腺癌图像的DCE-MRI数据集进行了评估，结果显示AAU-net的IoU值为83.14，而U-net的IoU值为78.32。此外，自适应注意力UNet（AAU-net）[20]相较于UNet和UNet++显示出有希望的结果。

AAU-net由四个下采样、四个上采样和四个 Shortcut 构成。值得注意的是，该模型采用了一个混合自适应注意力模块（HAAM）代替原来的卷积层，以增强乳腺病变分割效果。每个编码或解码步骤中都包含两个HAAM，HAAM内的不同核大小的卷积层提供了多样化的尺度接收场，以适应不同的输入图像。此外，通过稳健的通道维度和空间维度约束，AAU-net可以从BUS图像生成表示，而HAAM模块则包含了不同核大小的卷积层、通道自注意力块和空间自注意力块。

该方法在商业领域（BUSI）的三个不同数据集中进行了评估，共计包括780张图像。其中，Dataset B包含163张图像，而STU数据集则包含42张图像。此外，还对AGNet、SANet、SENet、ECA-Net和scSENet等多种替代方法进行了比较分析。AAU-net方法在BUSI数据集上达到了77.51的Dice系数，而最有效的对比模型ECA-Net同样取得了相似的77.51 Dice系数。

ECA-Net在Dataset B上的Dice系数为78.14，而性能更优的竞争方法AGNet则取得了73.30的Dice系数。此外，还有多种其他神经网络被用于医学影像的分类与分割，值得注意的是：UNet Transformer [21] 用于医学图像分割， [22] 和 UNETR [23] 用于三维医学图像分割，UNet [24] 利用全尺度连接的UNet进行医学图像分割，Swin-Unet [25] 采用类似于Unet的纯Transformer进行医学图像分割，以及ResUNet++ [26] 和 R2U-Net [27]。

Method

本文的目标是提出一种方法，旨在通过网络框架提高良性与恶性肿瘤提取的准确性。通过对传统UNet++架构进行改进，结合多任务注意力和学习机制，开发了一种专门用于自动管状结构提取的端到端编码解码网络（如图1所示）。所提出模型包含三个主要组成部分：多尺度特征提取模块、注意力块以及多任务学习模块。

首先，图像在多尺度特征图提取模块中经过处理，生成多尺度特征图，然后进一步细化以促进多尺度特征的融合。接着，利用注意力块强化并捕捉跨多个层级特征图的融合信息。最后，提取出的特征图进行特征重要性学习和时间序列特征提取。后续部分将详细解释所提出的方法。

picture.image

展示了所研究的方法及其相应的参考模型、所用数据集、进化指标以及识别到的弱点。例如，基于分割增强（SBE）的方法未能提供对模型模块及其参数的全面描述，而乳腺肿瘤联合分类网络（BTEC-Net）在某些输入图像中表现出边界清晰度不佳的问题，导致生成的 Mask 不规则。相比之下，融合注意力机制和多尺度特征的金字塔注意网络（AMS-PAN）模型与其他基于UNet的方法相比，在IoU值上表现较差。最后，在DCEMRI中应用的UNet模型仅基于IoU评估性能，而不考虑其他评价指标。这些架构可以有效地结合解码子网络中的深层特征图以增强学习效果。UNet [26] 是一种改进的U-网版本，旨在在合并前弥合编码器和解码器特征图之间的信息差距。本研究引入了UNet多尺度特征提取模块，并基于UNet提出了LSTM结构。在UNet中，编码子网和解码子网通过一系列嵌套和密集路径连接起来。

此外，各编码器和解码器部分之间建立了长距离连接。因此，解码子网可以从编码器中集成各种层次的特征图，从而提高网络的准确性和可扩展性。如图1所示，代表节点X的输出，其中i表示沿解码路径的下采样层。

并且 j 表示 hopping 路径上的第 j 个卷积层。特征图 xij 可以表示为：

符号YConv表示一个应用了激活函数的卷积操作。Ycat所代表的操作是一个拼接操作，而表示一个上采样层。当时，Xi,j对应编码子网中的节点。而在的情况下，Xi,j表示同一层次中所有其他节点的综合结果，并且最终生成的样本包含更深层、更粗略和更具语义信息的内容。

卷积涉及将固定大小的核应用于输入矩阵。在每一步中，通过乘以核矩阵和核与输入矩阵重叠区域中的元素来进行这些核内部元素的聚集。还可以使用额外的参数。为了保持输入矩阵的大小，会在输入矩阵周围填充零，并且Stride参数决定了跳过的元素数量。圆环层的一个重要方面是滤波器的数量，这决定了层的深度。每个滤波器都经过训练以检测输入中的各种图像特征。收集层接收尺寸为的输入，并需要四个参数：滤波器数量（K）、核尺寸（F）、步长（S）和零填充（P）。它会产生一个尺寸为的输出层，其中存在指定的关系 [37]。

卷积运算涉及将两个函数组合生成第三个函数，通常应用于连续函数。卷积可以用以下关系表达式表示[38]：

在深度学习的结构中，I 代表输入，代表核。CNNs 通常被描绘为实数的矩形网格，在这种情况下，卷积是二维和离散的。通常，卷积是可交换的，这意味着核会在输入上移动。根据这些定义，卷积也可以描述如下[39]：

交叉相关与卷积的关键区别在于，交叉相关不需要翻转卷积核。翻转是指将卷积核旋转180度。因此，基于这些假设，卷积核的定义可以表示为 [39]：

Attention Block

在图1中，由预测的四个特征图分别用xo,0、X0,1、X0,2和X0,4表示。在中，这些特征图通过平均操作直接连接起来，导致忽略了表现更好的特征图，并在最终输出中赋予了表现较差的特征图更多的权重。这种忽略主要是由于两个原因：

低层级特征图提取层次化的语义特征，但包含较少的语义信息和丰富的空间信息（小的感受野）。

高分辨率的特征图含有丰富的语义信息但空间信息较弱，因为它们具有较大的感受野。

因此，必须明确地结合不同层次的特征图，使得网络能够合理地分配对高层面和低层面特征的关注。此外，由于类似模式和背景噪声的空间影响会导致提取出的特征受到重要部分和不重要部分的影响，因此突出重要的部分并忽略不重要的部分至关重要。因此，作者的方法是在整合来自不同层次的特征图时赋予权重以优先考虑最重要的特征。这些权重根据通道维度上的相对重要性分配给不同层的特征图。于是，作者将在提出的方法中整合卷积块注意模块（CBAM）。该模块的作用是区分应加强或抑制哪些信息。如图2所示，多尺度特征提取模块生成了的预测图。

picture.image

信道注意力模块的主要目标是通过利用特征间的跨通道连接来分析输入图像中的重要特征。最初，开发了两种操作，即FC AVG和FC MAX，用于从每个通道聚合一般信息，并分别识别出不同的物体特征。接着，这两种描述符被输入到一个LSTM（如图3所示），生成两个向量，然后通过元素相加的方式合并，最终得到信道注意力图Mc (F)。

基础的LSTM单元由三个门组成：遗忘门（ft）决定忘记前一时刻数据的比例。输入门（it）评估要存储在细胞记忆中的信息。另外，输出门（ot）定义了基于当前信息计算输出的方法。

输入的尺寸用表示，而细胞状态和输出的尺寸用表示。时间 't' 的输入向量表示为 'xt'（大小），忘记门向量表示为 'ft'（大小），输入门向量表示为 'it'（大小），输出门向量表示为 'Ot'（大小），输出向量表示为 'ht'（大小），细胞状态向量表示为 'ct'（大小）。输入门权重矩阵表示为 [Weif, Weii, Weio, Weic]（大小），而输出门权重矩阵表示为 [Ueif, Uei, Ueio, Ueic]（大小）。偏置向量表示为 [beif, beii, beio, beic]（大小）。逻辑 sigmod 激活函数表示为，双曲正切激活函数表示为。提出的用于空间注意力的方法检查需要更多关注的信息区域（参见图4）。通过池化操作收集来自各个通道的信息，然后将其结合。接着应用一个标准的卷积层，对连接并卷积后的通道生成空间注意力图。

图3 所提出的一通道注意力机制。整个注意力过程可以表示如下：

实数集中的 Mc 值表示通道注意图，而实数集中的 Ms 表示空间注意。符号 “” 表示元素级乘法，表示最终特征图。

Loss Function of proposed

提出的方案旨在减少肿瘤位置之间的像素距离。在作者的计划中，作者将重点最小化这一距离：

在一幅图像中，用i表示一个像素点，用X表示构成肿瘤边界的像素点集合，min minj表示像素点i与最近边界像素点j之间的欧几里得距离。设阈值d，并用&d表示一个符号函数，以指示该像素点是否位于肿瘤内部或外部。若δd=1，则像素点i位于肿瘤 Mask 内；若δd=-1，则表示像素点i位于肿瘤 Mask 外。基于这些多任务损失的定义，所提出的方法可以描述如下：

分割任务的损失函数表示为 (L_{\text{seg}})，距离类别图的预测表示为 (L_{\text{DC}})。可学习的权重用 (\lambda_1) 和 (\lambda_2) 表示。简单来说，上述公式可以总结为以下形式：

分类任务的概率基于网络在末尾输出的确定。这个函数通常被称为Softmax。

在该方程中，表示预测概率，是输出值，是实际输入，而 ot 是缩放因子。一般来说，分类误差和不确定性可以进一步展开如下：

Result

研究的结果涉及将所提出的方法与文献中现有的15种其他已建立的方法进行比较分析。这些方法包括SD-CNN [28]、CNN-GTD [29]、GA-ANNs [30]、SeResNet18 [31]、Faster R-CNN+CNNs [32]、CNN+LR [33]、ODET [34]、Chowdary等人 [35]、Inan等人 [36]、Byra等人 [37]、Shi等人 [38] 以及SaTransformer [39]。此外，评估还涉及七项关键指标，即准确性、特异性、精确度、敏感性、F1分数、Jaccard和dice系数。与文献中记载的其他方法类似，所提出的模型将80%的数据用于训练，并保留20%的数据用于模型测试。所提出模型的详细配置设置见表2。

表3展示了各种方法论得出的结果。SDCNN[28]方法展示了其实现Accuracy 、Specificity 和Sensitivity 的能力。遗憾的是，该方法论的其他评估指标尚未披露。相比之下，CNN-GTD[29]方法的表现不如SDCNN，其记录的值为Accuracy 、Specificity 和Sensitivity 。同样地，该方法论的剩余指标未被披露。GA-ANNs [30] 方法则表现更优，达到了Accuracy 、Specificity 和Sensitivity 。SeResNet1 [31]方法在准确率上与SDCNN相当，达到Accuracy 。此外，该方法还实现了Precision 、Sensitivity 、F1-score 和IoU 。Faster RCNN + CNNs[32]方法仅报告了Precision指标，值为97.60，其他指标未被披露。CNN+LR[33]方法在评估中表现出优于其他方法的准确率，达到了Accuracy 、Precision 、F1-Score 以及Dice 。ODET[34]方法表现出了较高的指标值，并且排名高于所有审查中的方法论。该特定方法实现了Accuracy 、Specificity 、Precision 、Sensitivity 、F1-score 以及Dice 。相比之下，Chowdary等人[35]提出的方法论表现较差，结果为Accuracy 、Specificity 、Precision 、Jaccard 以及Dice 。同样地，Inan等人[36]引入的方法仅披露了Dice值为63.40，这是所有比较方法中最差的结果。Byra等人[37]实施的方法在指定数据集上的准确率为92.33，同时还实现了Precision 。

picture.image

在石等人的研究[38]中，获得了76.00的Jaccard相似度得分和84.00的Dice分数。另一种方法SaTransformer方法[39]实现了93.34的准确率，低于大多数比较方法。此外，该方法还得到了以下指标：特异度，精确度，灵敏度，Jaccard，以及Dice。使用tabularx和booktabs，所提出的Unet 方法结合数据增强后，以92.70的准确率超越了现有方法。另外，相比最佳比较方法，其精确度提高了1.25，并在特异度方面优于ODET。所提出的方法达到了准确率，特异度，精确度，灵敏度，F1分数，以及Dice。与Unet++相比，该方法在Dice和F1分数上分别提升了0.0204和0.0304。

图4和图5展示了Unet模型和提出方法的性能图。通过分析损失图可以发现，Unet和提出的方案均未出现欠拟合现象，其对数学习形式防止了过拟合。然而，提出的方案在较高轮次的图中出现了波动现象，需要进行调整。BUSI数据集包含从超声扫描获取的乳腺癌医学图像，这些图像被分类为正常、良性肿瘤和恶性肿瘤，数据来自25至75岁女性乳腺超声图像，共包含600名女性患者的资料。该数据集是在2018年整理的。

picture.image

数据集中包含780张图像，平均图像大小为500×500像素。这些图像格式为PNG，每张原始图像都对应有GT图像。

本研究提出的方法在常用的分割评估指标中表现出色，特别是在Dice准则方面。提出的模型在两种模式下分别取得了90.70和92.74的Dice分数，这两种模式分别是带数据增强的Unet++和提出的带数据增强的模型，在BUSI数据集上的图像更为清晰。提升提出的方案的关键在于提高准确率、召回率、特异度和F1分数等分割相关的评价指标。以下是一些建议以促进未来工作的改进。

本文介绍了用于分割乳腺超声图像的模型。该模型结合了多尺度特征提取模块、注意力块和多任务学习模块，有效地捕捉了空间和时间特征。与15个已建立的模型相比，作者的 UNet++LSTM 模型表现出更优秀的性能，准确率达到，并超越了所有其他模型。

该模型的特异性达到了99.53%，精确率为95.34%，敏感性为91.20%，F1分数为93.74%，Dice分数为92.74%，显示出与现有技术相比的重大进步。所提出的方法在精确率方面比顶级对比模型提高了1.25%，并且在特异性方面超越了ODET模型。UNet++和所提出的UNet++ LSTM模型的学习过程表现出稳定性，这一点通过损失和准确率图得到证实，表明避免了过拟合和欠拟合。为了进一步提高模型的性能和鲁棒性，建议采用迁移学习，探索高级参数初始化技术，并整合机械记忆策略。

BUSI 数据集在训练和测试作者的模型中发挥了关键作用，作为全面评估平台，确保了作者提出的方法的可靠性和适用性。总之，UNet++LSTM 模型在分割乳腺超声图像方面取得了显著进展，提供了早期和精确检测乳腺癌的令人鼓舞的解决方案。

参考

[0]. UNet++ and LSTM combined approach for Breast Ultrasound Image Segmentation .

点击上方卡片，关注「AI视界引擎」公众号

LSTM + UNet | 图像分割性能多项指标超越现有技术 ！

参考

LSTM + UNet | 图像分割性能多项指标超越现有技术！