Triple-UNet来秀操作了 | 三个臭皮匠顶个诸葛亮，那三个UNet模块呢？ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

皮肤病变分割对于皮肤病变分析和后续治疗具有重要意义。由于病变边界的 irregular 和模糊，以及皮肤病变的多样性，这是一个具有挑战性的任务。

在本文中，作者提出了一种名为Triple-UNet的自动分割皮肤病变的方法。它是一种有机地将三个UNet架构适当地模块相结合的方法。为了更有效地将第一个和第二个子网络串联起来，作者设计了一个感兴趣区域增强模块（ROIE）。ROIE通过使用第一个UNet的预测得分图来增强图像的目标区域。

通过第一个UNet学习的特征和增强后的图像有助于第二个UNet获得更好的得分图。最后，第三个UNet对结果进行了微调。作者在一个公开的皮肤病变分割数据集上评估了作者的算法。实验表明，Triple-UNet在皮肤病变分割方面超过了最先进的方法。

1 Introduction

美国癌症协会预测，美国将会有108,480个新的癌症病例和11,990个癌症死亡病例发生，因此如何快速诊断和治疗皮肤癌变得非常关键。皮肤病变分割对于提高皮肤癌的定量分析具有重要意义，因此它是皮肤癌诊断和治疗计划的关键步骤。然而，手动勾勒通常具有繁琐、耗时和易出错的特点。

在临床应用中，为了提高皮肤病变分割的效率和准确性，采用了自动分割技术的高要求。然而，这无疑引起了广泛关注，并带来了巨大的挑战。主要原因有以下几点：

皮肤病变在大小、形状和颜色上存在很大差异，甚至有些病变被毛发所遮挡。
一些病变与正常皮肤之间的边界模糊不清。
有限的优质标记图像使得训练变得更加困难。

这些因素都给皮肤病变区域自动化分割带来了麻烦。尽管基于各种手工设计的特征的传统算法具有可解释性，但由于每个手工设计的特征都无法完全描述皮肤病变的独特表示，因此它们的稳定性和鲁棒性相对较差。然后，这导致了对变异较大的病变的分割性能相对较差。

为了解决这个问题，基于卷积神经网络（CNNs）的数据驱动算法已经被提出，如全卷积神经网络（FCN）和UNet，与传统的算法相比，它们的性能有了很大的提高。然而，由于皮肤病变存在大的变化、模糊的边界和高质量图像和标签的限制，这些基于数据驱动的模型在解决皮肤病变分割问题方面仍然不够充分。针对这个问题，主要有两种解决方案：增强图像数据和设计更强大、更高效的全卷积神经网络（CNNs）模型。

简单的图像增强技术对图像分割任务帮助有限，因为它们主要关注的是局部像素级的信息，如颜色和纹理，而没有涉及全局的图像级信息。将局部和全局线索相结合，使皮肤病变分割更加可靠。CNN模型不仅提取了图像的局部像素级信息，还提取了图像的全局图像级信息，从而可以获得更丰富的特征。此外，在分割任务方面，作者只需要加强皮肤病变区域即可。

因此，作者使用CNN模型的预测得分图来突出皮肤病变区域，使其更容易进行分割。然后，作者提高了网络的分割性能。

本工作的主要贡献如下：

提出了一种新的皮肤病变分割架构，该架构包含三个U形结构。网络中的所有子网络都是从头开始构建的，并未预先训练。
提出了一个感兴趣区域增强模块（ROIE），用于增强输入图像中的感兴趣区域（ROI）。通过提高网络输入的质量，分割性能得到了显著的改善。
所提出的Triple-UNet在ISIC 2018皮肤病变边界数据集上进行了评估，并实现了最先进的性能。

2 Related Work

CNN Models

自从FCN被提出以来，CNN一直是图像分割应用中最先进的算法。然而，与普通图像分割不同，医学图像通常包含噪声和模糊的边界。因此，仅通过图像的局部像素级信息很难检测和识别医学图像中的目标。同时，准确的分界线不能仅通过全局图像级信息获得。Ronneberger等人[21]提出了UNet，它是一个具有编码器-解码器结构的卷积神经网络。在UNet中，编码器中的下采样操作被用来减少特征图的分辨率。

通过使用下采样操作，网络可以获得不同的感受野，并捕获局部像素级和全局图像级信息。跳连接有效地将编码器和解码器中的不同尺度和级别的特征图进行集成。目前，UNet已成为医学图像分割中广泛使用的神经网络架构之一。因此，许多分割变体已经被提出。

Application of Attention Mechanism

注意力机制被视为一种先进的技巧，可以捕捉长程特征交互并提高卷积神经网络的表达能力。非局部均值通过计算一个位置上的响应作为所有位置特征的加权和来有效地捕获远程依赖性。

因此，Wang等人[27]提出了一种非局部块，通过计算一个注意力图来捕捉远程依赖性，这个注意力图是通过测量像素对之间的关系来计算的。后来，Fu等人[7]提出了一种基于非局部操作的二维通道和空间的新注意力模块，这显著提高了分割结果。

然而，由于非局部操作的复杂性，它消耗了大量的资源。为了解决这个问题，Huang等人[10]提出了一种交叉注意力模块。对于每个位置，交叉注意力模块首先在其水平和垂直方向上聚合上下文信息，然后应用另一个交叉注意力模块，最后启用所有位置的全图像依赖。然而，仍然存在计算量大的问题。

Hu等人[8]提出了一种另一种形式的注意力，即通道注意力模块，它通过明确建模通道之间的相互依赖关系来自适应地重计算通道特征响应，从而大大降低了资源的消耗。

随后，Woo等人[28]将[8]中的设计扩展到空间维度，模块在此维度上生成通道和空间两个方向上的注意力图。然而，生成的空间注意力图很难确保其关注的区域是任务的目标区域。因此，有必要使用用于医学图像分割的网络来学习任务的目标区域。

Skin Lesion Segmentation

为了将深度学习技术应用于皮肤病变分割，一种简单的解决方案是适当调整和优化强大的卷积神经网络。Jha等人[14]提出了一种新的结构：DoubleUNet，它依次将两个U形网络架构组合在一起。

第一个U形网络的结果被用来过滤图像中的无用背景。第二个U形网络被用来细化由第一个U形网络获得的分割结果。然而，由于皮肤病变的多样性和平滑的边界，过滤后的像素可能并不全都是无用的背景。

因此，作者将残差学习的思想融入作者的设计中。由于原始输入的信息得到了保留，作者提出的模型实现了更高的准确性和为具有挑战性的图像生成更好的分割掩码。作者在ISIC-2018病变边界分割上评估了所提出的Triple-UNet，这是最大的公开可用的皮肤病理学图像。实验结果表明，作者的架构在性能上有显著的改进。

3 Method

设是一个定义在域上的图像，其中是图像中的像素总数。分割任务是将域分为两部分：感兴趣区域（ROI）部分和背景部分。是预测得分图，其中表示像素属于的概率。

picture.image

图1显示了所提出算法的结构概述。该结构由三个子网络组成，每个子网络都具有编码器和解码器结构，并通过不同的模块相互连接。

在第一个子网络（NETWORK 1）中，输入图像被输入到一个基于UNet结构的变体中，以生成预测得分图Output1 。然后，和被输入到ROIE模块。ROIE模块通过增强中的ROI部分，作为第二个子网络（NETWORK 2）的输入，即。最后，通过NETWORK 2生成的预测得分图Output2 与相乘，得到输入3 。作者使用作为第三个子网络（NETWORK 3）的输入，生成一个更细的得分图Output3 。

为了更高效地连接三个子网络，将前一个子网络中编码器生成的特征图也输入到后一个子网络的解码器中，如图所示。使用真实的标签和预测的得分图来计算每个子网络在每个阶段的损失，以提供深度的监督。最终的图像分割预测图是第三个得分图的二值化。

Encoder

首先，两个逐点卷积分离卷积块，通过一个逐点卷积、批标准化和Rectified Linear Unit (ReLU)激活函数组合在一起，然后在每个子网络的编码器层中逐层拼接。

它们有效地提高了计算效率并减少了模型参数，从而允许模型在较小的设备上运行并加快图像分割。其次，在两个卷积块后面放置了一个通道注意力模块。它重新分配特征图的权重以提高由深度可分卷积块生成的特征图的质量。最后，使用池化大小为和步长为2进行最大池化，以减少特征图的空间维度。

考虑到模型规格和效率，编码器使用了32、64、128、256和512个滤波器/层，分别对应UNet及其变体中的滤波器数量。请注意，这些数字小于UNet及其变体的滤波器数量，导致参数和计算量较少。

Decoder

从图1可以看出，作者的整个网络有三个解码器，每个解码器都经过轻微修改。解码器中的每一层都对前一层特征图进行双线性上采样，并通过跳跃连接接收对应编码器层的特征图。如图1所示，第一个解码器只与第一个编码器有跳跃连接，而第二个和第三个解码器则与相应的和之前的编码器有跳跃连接，以提高输出特征图的准确性。

连接后，使用的逐点卷积将编码器中低级详细的特征图和解码器中高级语义特征图进行组合。卷积层之后，作者使用批量归一化层和ReLU激活函数。之后，作者使用通道注意力模块来提高特征图的质量。在解码器末端，得分图通过一个使用Sigmoid激活函数的卷积层生成。

Connectivity structure among sub-networks

picture.image

如图2所示，ROIE模块首先对Output1 和Input1 进行点乘，然后将结果添加到中，得到输入2 ，即

其中表示和之间的点乘，和是超参数，实验中设置为1。保留了属于目标对象的像素，并抑制了属于背景的像素。

由于NETWORK 1无法完全准确地进行分割，并且与中某些像素属于目标对象相比，这些像素在乘以后相对于被减弱了。因此，作者将的结果添加到中，得到用于进一步分割。新的输入是增强版的，其中包含增强的目标对象区域、未增强的目标对象区域和背景区域。

然后，NETWORK 2在上进行第二次分割，并提高NETWORK 1生成的输出特征图。如果NETWORK 1将问题像素错误地分类为错误的类别，NETWORK 2会重新分类它们以获得更好的预测得分图。

DoubleUNet只将和相乘，得到输入2 ，即

图3显示了DoubleUNet生成的第二个输入与所提出的网络的视觉比较。从视觉角度来看，的ROI部分明显增强，而的ROI部分则没有明显增强。

picture.image

特别是，图像包含原始图像的所有信息，NETWORK 2有机会纠正NETWORK 1的错误。在作者提出的架构中，NETWORK 2通过使用NETWORK 1和增强输入获得比更好的得分图。然而，NETWORK 2也可能将一些属于背景的像素错误地分类为目标对象。

因此，作者希望NETWORK 3能正确地分类这些像素，使NETWORK 2的预测得分图更加精细和准确。因此，作者使用Multiply结构来得到输入3 作为NETWORK 3的输入。包含目标对象区域和减弱的背景区域。NETWORK 3在上进行再次分割，进一步微调以提高分割精度，然后获得最终得分图。

4 Experiment

为了评估Triple-UNet架构的有效性，作者训练了多种神经网络架构，包括DoubleUNet和UNet++。在本节中，作者介绍数据集、评估指标、实验设置和配置以及所有实验中使用的数据增强技术。

Datasets

作者在ISIC-2018病变边界分割数据集上对每个模型进行实验。该数据集包含2694张皮肤病变和其真实标签的皮肤病理学图像。作者将数据集的80%、10%和10%分别用于训练、验证和测试， respectively。为了提高GPU利用率并减少训练时间，作者将每个图像的大小调整为。在训练中，作者对训练集和验证集应用不同的数据增强方法，包括水平翻转、垂直翻转、高斯噪声、模糊和随机亮度对比，以增加样本数量。

ISIC-2018病变边界分割数据集上的皮肤疾病主要关注黑色素瘤、黑色素性痣和良性角化。为了验证模型在其它类型皮肤疾病上的泛化能力，作者在ISIC-2019数据集上对其进行测试。该数据集的训练集包含25331张皮肤病理学图像及其诊断标签作为真实标签，包括基底细胞癌（BCC）、原位癌（AK）、皮肤纤维瘤（DF）、血管病变（VASC）和鳞状细胞癌（SCC）。这些疾病并不出现在ISIC-2018数据集中。

不幸的是，ISIC-2019数据集用于皮肤疾病分类任务，没有像素级标签用于分割，因此作者无法进行定量比较。因此，作者只对ISIC-2019数据集训练集上的图像分割结果进行定性分析。

Implementation details

所有模型都使用PyTorch 1.7.1框架在单个NVIDIA Tesla V100S GPU（8核CPU和32GB RAM）上实现和训练。作者使用二进制交叉熵作为所有网络的损失函数，其定义如下：

其中是预测的得分图，其元素表示像素属于估计的ROI部分的概率，是对应的 GT 值，其元素表示 GT ROI部分中像素的标签（1表示正点，0表示负点）。

作者使用Adam优化器，其默认参数和权重衰减为0.0005。将批量大小设置为16，学习率设置为。学习率衰减应用指数学习率计划，。所有模型训练100个周期。除了DoubleUNet中的VGG-19是预训练的，其余模型都从零开始训练。

Comparison with State-of-the-Arts

为了更详细地比较Triple-UNet在病变边界分割数据集上的性能与当前最先进水平，通常将预测结果分为四类：真正阳性（TP）、假阳性（FP）、真正阴性（TN）和假阴性（FN）。作者评估了医学图像分割的标准指标，如平均交点与并集（mIoU）、Dice相似系数（Dice）和准确率，这些评价指标的定义如下：

picture.image

表1显示了作者的提出的三重UNet和其他方法在病变边界分割数据集上的定量比较结果。这些方法包括UNet++，AttentionUNet，DCUNet，UNet 3+和DoubleUNet。显然，作者的模型在分割性能上取得了最佳效果。作者提出的三重UNet在Dice和mIoU指标上分别实现了0.925和0.865，比DoubleUNet提高了0.006和0.011。即使与其他最先进的分割模型相比，作者的三重UNet在两个指标上都取得了一致和显著的改进。

在规模和效率方面，尽管Triple-UNet在参数方面稍微多于DoubleUNet，但由于Triple-UNet编码器中每个层中的滤波器数量是DoubleUNet的一半，它在计算上优于DoubleUNet。图4说明了视觉质量。

picture.image

可以看出，对于困难和复杂的图像，作者提出的方法能够较为准确地分割病变，而其他算法无法识别目标对象。

以第一张图像为例，作者的分割掩膜几乎与 GT 值相同，但UNet++、UNet3+和DoubleUNet的分割结果只有病变区域的一半。然而，对于具有小目标的简单图像，作者的方法在指标方面的结果稍微低于其他算法，并且目标区域的视觉大小也稍微小于其他算法。总之，定性结果和定量结果证实了作者的网络比当前最先进水平更具有鲁棒性和更好的性能。

picture.image

如图5所示，模型在ISIC-2019数据集上的分割结果。尽管没有得到医生的精确标记，但通过视觉观察，可以发现作者方法的分割结果噪声较小，边缘更平滑，更符合直觉的分割。作者的方法在以前未见过的皮肤疾病类型的泛化能力更好。

Ablation Study

作者进行了消融研究来证明Triple-UNet中的两个主要组成部分：三个U形网络的集成和ROIE的有效性。表2总结了不同排列方式下的实验结果。

picture.image

DoubleUNet包含两个U形子网络，通过Multiply结构连接，而Triple-UNet包含三个U形子网络，通过ROIE和Multiply交替连接。DoubleUNet应用了ROIE模块，尽管作者没有使用ASPP模块。这个结果表明，作者提出的ROIE模块有助于网络实现比Multiply结构更好的分割性能。

Triple-UNet-a和Triple-UNet-b将集成U形子网络的数量增加到3，分别只使用Multiply结构和ROIE结构，它们在Dice和mIoU指标上都有显著的改进。将多个U形网络集成在一起可以提高模型的性能。然而，仅仅增加继承网络的数量并不能帮助提高性能，例如4-UNet和5-UNet。也许需要其他特殊设计。此外，考虑到资源消耗，作者没有继续增加子网络的数量。

与Triple-UNet的顺序不同，Triple-UNet-c首先使用Multiply结构，然后使用ROIE模块，其性能比Triple-UNet差得多。从结果中，作者发现先使用ROIE模块，后使用Multiply结构，先增强输入，然后进行精细分割的安排策略是最好的。

5 Conclusion

在本文中，作者提出了一种新的基于CNN的架构 called Triple-UNet，它用于准确地从皮肤病理学图像中分割皮肤病变。该模型使用三个UNet架构的组合，并利用多个分割和注意力模块的优势。Triple-UNet从输入图像中提取更有效的特征，并将输入图像调整成更适合网络进行分割的形状。作者在ISIC-2018数据集上评估了作者的模型。结果表明，Triple-UNet在Dice和mIoU指标上超过了其他最先进模型。

在未来，作者将专注于优化Triple-UNet的架构，设计一个具有较少参数的简化结构，以加速模型的分割，同时保持其能力和适应更多的医学图像分割任务。

参考

[1]. A Region of Interest Focused Triple UNet Architecture for Skin Lesion Segmentation.

picture.image

点击上方卡片，关注「AI视界引擎」公众号