M3BUNet | Mean-Max注意力机制&小波分解滤波器助力UNet参数变少时依旧成就SOTA - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

CT扫描图像的器官分割是多种下游医学图像分析任务中必不可少的过程。目前，放射科医生手动进行CT扫描分割非常普遍，尤其是对于像胰腺这样的器官，由于其尺寸较小、被遮挡以及形状变化，需要较高的领域专业知识进行可靠的分割。当采用自动化胰腺分割时，这些因素会导致可用的可靠标记数据有限，从而训练出有效的分割模型。因此，当前胰腺分割模型的性能仍然不能令人满意。

为了提高性能，作者提出了M3BUNet，它将MobileNet和U-Net神经网络融合在一起，配备了新颖的Mean-Max（MM）注意力机制，该机制在两个阶段中逐步从粗糙到精细地分割胰腺CT图像，同时使用Mask进行目标检测。这种方法使网络能够超越类似网络架构实现的分割性能，并达到与最先进的方法相当的结果，同时保持较低的参数数量。此外，作者引入外部轮廓分割作为粗分割阶段的前处理步骤，通过图像标准化辅助分割过程。对于细分割阶段，作者发现应用小波分解滤波器创建多输入图像可以提高胰腺分割性能。

作者在广泛的NIH胰腺数据集和MSD胰腺数据集上对我国方法进行了大量评估。作者的方法在平均Dice相似系数（DSC）值方面取得了高达89.53%±1.82的性能改进，在Intersection Over Union（IOU）方面取得了高达81.16%±0.03%的性能改进，对于NIH胰腺数据集，该方法在平均DSC值方面取得了88.60%±1.48的性能改进，在IOU方面取得了79.90%±2.19的性能改进，对于MSD胰腺数据集，该方法在平均DSC方面取得了88.60%±1.48的性能改进，在IOU方面取得了79.90%±2.19的性能改进。

1 Introduction

自动化CT（计算机断层扫描）分割对于加速诊断器官异常或监测有风险的器官的流程至关重要。通常，放射科医生使用像ITKSnap这样的工具手动进行CT图像分割，这既耗时又费力，而且容易出错，尤其是在身体变异率高的部位，如胰腺。尽管在CT图像上的胰腺分割自动化取得了进展，但仍有很多改进的空间。这主要是由于胰腺是一个相对较小的器官，通常与相邻器官在纹理和强度值上具有高度相似性，它被遮挡，而且形状变化很大。此外，患者检查期间扫描仪的运动往往导致胰腺周围的不均匀或锯齿状边缘，这进一步复杂化了器官的准确勾勒。

通常来说，基于数据驱动的特征学习已成为医学图像分割的主要技术。其中，用于此目的的流行神经网络架构之一是U-Net，它是一种卷积神经网络（CNN）。它由三个主要组成部分构成：一个编码器，作为低 Level 特征的特征提取器；一个解码器，负责通过第三部分（称为跳跃连接）合并来自不同表示 Level 的特征，同时恢复图像分辨率。跳跃连接的关键作用是抵消网络中下采样过程引起的信息损失。

尽管上述三个组成部分在协同工作方面表现良好，但研究行人也指出了标准跳跃连接在实现最佳模型性能方面的局限性。因此，刘等人[11]提出了跨域融合策略，同时将模糊逻辑引入了U-Net的标准跳跃连接。另一种解决网络中位置特定信息稀释或损失的方法是采用注意力机制。然而，值得注意的是，将注意力机制添加到网络中会伴随有沉重的计算开销。例如，将注意力机制集成到一个具有25.88M参数的模型中，需要大约增加190K参数。其他模型在集成注意力时也报告了类似的计算开销。最近，在CNN-Transformer架构中使用自注意力机制，在胰腺分割方面实现了最先进的Dice相似系数（DSC）分数，尽管模型参数数量较大，即86M。

依赖较大模型大小以提高性能的模型存在的一个问题是，它们的训练需要相应地大量数据和高计算资源。在实际资源受限的环境中，它们的训练时间通常成为瓶颈，并且容易在实际临床场景中出现数据过拟合。在本工作中，作者不是采用更大的模型大小，而是提出一种轻量级的模型，该模型以粗糙到精细的方式应用，并在蒙版指导下进行有效分割。作者设计了一个MobileNet-UNet 框架作为基础架构。这种架构利用了瓶颈层中提出的均值-最大（MM）块，并在两个阶段中应用分割任务。第一阶段产生一个粗糙的预测蒙版，由第二阶段利用。由于作者技术的底层机制，作者将作者的网络称为预测蒙版均值-最大块UNet（M3BUNet）。

作者的MM-block采用跨通道的均值-最大池化操作，然后使用点对点卷积将这两个操作的结果与特征图进行融合。均值池化保留了器官的更通用特征以及特征的空间维度。与此同时，跨通道的最大池化突出了更显著的器官特征。均值和最大池化的特征都能够编码互补的信息。该块通过最终将各自的特征图进行融合并使用通道减少来利用两种操作的优势。

作者的模型只包含2.86M个参数，这比标准U-Net模型（约31M个参数）及其MobileNet变体（约7M个参数）显著降低。此外，作者的参数数量仍然明显低于其他依赖注意力机制来保留模型中空间信息的方法。本工作的另一个独特贡献是引入了一个外部分割子过程作为预处理的一部分，用于处理输入中感兴趣区域的较大尺寸变化。

通过制定一个相对简单的策略，作者证明了提出的轮廓分割有效地裁剪了相关的图像区域，从而在后续过程中提高了性能。在作者的技术第二阶段中，作者引入了小波分解作为网络的额外输入。这个额外输入增强了模型学习到的边缘特征，并有助于提高DSC分数。

作者的关键贡献可以概括为以下几点:

提出了一个名为M3BUNet的新神经网络，该网络在减少参数数量的同时，在流行的基准测试上实现了与SOTA方法相当的胰腺分割性能。
引入了外部轮廓分割技术来减小输入噪声，并建议使用基于二维小波分解的多输入方法来解决胰腺分割中模糊边界的問題。
设计了一种均值-最大（MM）块注意力，以增强网络在分割任务中的性能。

2 Related Work

以下，作者将现有的胰腺分割相关文献按照所采用的关键底层技术进行组织。作者主要关注与作者的方法密切相关的文献，以隐式地提供背景知识。

Encoder-Decoder Techniques

近年来，胰腺分割研究主要采用并改进了CNN网络架构，如U-Net。U-Net包括收缩和扩展路径，通过跳跃连接实现多 Level 特征图的利用。黄等人将U-Net与MobileNet-V2集成，显著减少了模型参数从31M到6.3M，在NIH胰腺数据集上取得了82.87%的DICE分数。另一项旨在实现轻量级设计的研究由张等人提出。他们使用25.13M参数的模型在NIH胰腺数据集上取得了84.90%的平均DICE分数。最近，在NIH胰腺数据集上测试了他们的轻量级架构设计，将训练时间减少到154分钟。然而，这个时间仍然显著长于作者提出的方法，每个阶段只需要约20分钟。这种时间差异源于两种方法之间基本技术差异。

Attention Mechanism

现有研究表明，将注意力机制添加到U-Net架构中可以提高模型性能。注意力机制使神经网络能够关注关键输入特征，同时忽略不相关组件，通过根据输入重要性的自适应权重分配将特征视为动态选择过程。这种机制最初在自然语言处理（NLP）中得到应用，其中开发了编码器-解码器注意力模块，以增强神经翻译引擎。

在他们的调查论文中，郭等人将注意力分为两种主要类型：基于 Transformer 架构和基于卷积神经网络（CNN）架构的注意力。虽然自注意力 Transformer 在某些情况下被应用于胰腺分割任务，如由邱等人[32]提出的采用Residual-transformer UNet的方法，实现了NIH胰腺数据集的86.25% DICE分数，但并未超过CNN架构提出的由陈等人的方法。后者使用全局平均池化模拟注意力，在同一数据集上获得了87.9的显著DICE分数。另一方面，戴等人将卷积注意力基于的方法与多头注意力相结合，实现了最先进的89.89% DICE分数，尽管参数数量较大。

这表明，尽管存在具有全局注意力能力的视觉 Transformer （Vision Transformers）作为解决局部操作注意力卷积限制的一种解决方案，但注意力 Transformer 的性能提升并非孤立存在，但仍需要合适的架构设置。因此，尽管自注意力 Transformer 越来越受欢迎，但由于其潜在的学习能力、易于实现、计算效率和一致结果，一些研究行人仍然继续使用基于CNN的注意力机制。

在本研究中，作者利用均值-最大运算符提出了一种基于注意的卷积。max和mean池化的有效性在其他环境中也得到了报道。它增强了关键的空间特征，同时抑制了不太有用的信息。这个过程使模型能够关注输入数据中的重要区域，从而在视觉相关任务中提高了性能。

Multi-Stage Segmentation

许多研究行人倡导采用“从粗糙到精细”的分割方法来解决医学图像分割任务，尤其是对于小型且具有显著变化的器官。粗糙和精细缩放的分割模型可以单独训练或结合训练。在单独训练的方法中，粗糙缩放的分割模型大致定位器官以抑制背景。然后，精细缩放的分割模型利用定位坐标裁剪粗糙缩放输入并执行更精细的分割。与单独训练方法不同，一些研究行人将粗糙缩放和精细缩放的分割模型一起训练。他们利用粗糙缩放蒙版作为权重以端到端地增强精细缩放输入的前景。

虽然单独训练方法通常认为更高效，可以消除无关背景，但存在一个缺点。那就是，在训练过程中，精细缩放分割可能会缺乏粗糙缩放分割提供的上下文信息。这个问题通过联合训练很好地得到了解决，但是联合训练并不能从图像中删除无关背景，这可能导致其他潜在挑战，如计算时间较长。联合粗细分割的另一个缺点是在测试阶段需要与训练阶段配置不同的实验设置，因为在测试阶段无法使用蒙版。这导致了在测试过程中需要进行不同迭代次数的DSC，这有时会引入额外的复杂性。由于作者的方法具有独特的两阶段过程，能够很好地处理这些问题。

3 Proposed Method

作者提出了一种新颖的CT图像中胰腺分割技术，如图1所示。作者的方法包括三个关键阶段：预处理阶段、分割阶段一和分割阶段二。每个阶段将在随后的部分详细讨论。作者方法的独特之处在于其特殊的两阶段过程。第一阶段用于进行粗糙分割，而第二阶段处理精细分割。顺便提一下，两个阶段都使用相同的架构，这是一个简单而优雅的解决方案。作者技术的一个显著特点是在初始阶段的前处理阶段中采用了外部分割步骤。

此外，在第二阶段中，作者引入了小波分解部署方法，这是以前胰腺分割研究中很少探索的方法。此外，作者在作者的网络架构中引入了一个均值-最大（MM）块作为注意力机制，称为M3BUNet。这种机制增强了模型在CT图像中关注相关信息的能力。总的来说，这些创新贡献使作者的技术既高效又有效。

picture.image

Pre-processing

作者借鉴了医学图像分析中已有的预处理技术，如强度剪裁、 Voxel 间距、切片和.PNG转换，这些步骤在实施后，作者对切片过程的图像进行了视觉分析，以确定潜在的改进领域。在作者分析中一个显著的观察是不同患者图像腹部尺寸的差异，以及腹部形状外部的黑色像素和腹部壁外的白色像素，类似于图2中可见的钢板扫描。作者认为这些伪影可能是噪声，可能导致作者的建模不准确。因此，为了应对这个问题，作者设计了一个外部轮廓分割策略。

picture.image

External Contour Segmentation

为了确定外部轮廓，作者首先将图像转换为二进制图像，设置阈值在[, 255]范围内，其中是经验上确定的为77。这个阈值的选择是为了消除无关背景和白钢板扫描。作者特别提取了腹部外部的外部轮廓，如图3所示，同时忽略了物体内部的任何轮廓。作者发现，阈值大于会检测到腹部壁区域内的其他物体的轮廓，而阈值远低于这个值时，背景外仍有很多黑色像素。

图3B显示，产生的类似于圆圈线条与外部轮廓边界相连。作者删除了这些检测到的无关区域。作者的处理结果如图3C所示。然后，作者将图像尺寸标准化为376 376。这导致腹部轮廓的分割变得粗糙。如实验中所示，这种简单策略使作者的技术整体性能得到了显著提高。

picture.image

Segmentation Phase One

选择一个合适的研究区域（ROI）对于胰腺分割至关重要。一个大的ROI可能包含不必要的背景，从而降低模型性能，而一个较小的ROI可以排除胰腺的必要分割。阶段一的主要目标是谨慎地裁剪预处理步骤中可用的粗糙裁剪图像，包括外部轮廓分割步骤。在这个阶段，作者使用M3BUnet训练模型。

为了保持讨论的连贯性，作者暂时将M3BUNet的讨论推迟到下一节。在这里，作者强调这个阶段的关键思想是，网络在这个阶段是针对胰腺分割目标训练的输入数据。在这种情况下，网络的输出用于创建一个预测掩码，作者旨在使用它进行胰腺的粗糙定位。

具体来说，作者从预测掩码中提取胰腺的潜在边界框，考虑预测掩码的极坐标。由于网络被训练用于胰腺分割，因此这个边界框预计包含胰腺。作者裁剪这个边界框区域进行进一步处理。在这个检测阶段，作者处理潜在的模型限制和ROI检测可能失败的场景。作者通过实现两个条件检查来实现这一点。

首先，作者通过在所有坐标方向上添加15个像素的填充来确保更好的覆盖。其次，在模型无法检测到ROI的情况下，作者设置一个默认的ROI，其高度（H）为168，宽度（W）为229。这些值是通过在CT扫描体积中预测的胰腺位置进行视觉评估确定的。由于图像尺寸已经标准化，因此这些值不需要在样本之间进行修改，如前文所述。

在获得所有图像的ROI后，作者对ROI进行小波分解，以创建准备输入到M3BUNet的额外输入图像。接下来作者将介绍作者小波分解的过程的详细信息。

3.2.1 Wavelet Decomposition for Multi Input

尽管作者在分割阶段一获得的裁剪区域内成功减少了大量背景，但胰腺和相邻器官之间的边界仍然模糊。为了处理这个问题，作者采用了离散小波变换分解（DWT），这是一种用于将信号或图像分解为低频和高频成分的技术。在图像的上下文中，这使得可以将图像分解为一系列具有不同空间分辨率的图像。

在DWT中，原图像被分成几个组成部分，包括低频分量（通常称为LL，它表示“低-低”）和高频分量（LH，HL，HH，分别称为“低-高”、“高-低”和“高-高”）。LL组件表示具有较低的空间分辨率（或较低的高频内容）的图像，而LH，HL和HH组件表示捕获图像细节的高频成分。一般来说，1D小波的缩放和翻译函数遵循方程1中的缩放函数和方程2中的小波函数。

在这个上下文中，是使用尺度函数在 Level 和位置进行变换的结果。是使用小波函数在 Level 和位置进行变换的结果。是归一化因子。是要进行变换的信号。和分别是 Level 和，在位置处的尺度函数和波let函数。

从一维设置来看，DWT可以通过如图4所示的过程转换为二维形式，其中是低通滤波器，是高通滤波器，是卷积操作，2是下采样操作。

picture.image

作者使用Daubechies滤波器进行两层小波分解，每层都有四个系数。在本实验中，作者只提取了Vertical Detailed系数的高频水平1和2作为额外的输入。然后，作者将这些分解后的图像结果，以及从阶段一分割中裁剪的原图像作为作者的网络的输入。

因此，作者的额外输入包括Level 1和Level 2分解的高频分量，这些分量主要强调图像的边缘纹理，如图5所示。图像显示，原始图像的高频分解提供了更清晰的边缘细节。分解 Level 越高，胰腺的纹理和边界就越明显。

Segmentation Phase Two

这一阶段包括直接应用提出的M3BUNet。因此，在本节中，作者将详细讨论作者的网络。如图6所示，作者的网络采用编码器-解码器 Backbone 网络与MM-Blocks相结合的形式。图中也提供了提出的MM-Block的架构。网络的组件将在以下部分详细讨论。

picture.image

3.3.1 M3BUNet Encoder-Decoder

编码器：由于医学图像训练数据的有限性，作者采用了迁移学习。作者将预先在另一个数据集（ImageNet）上训练的MobileV2Net模型作为任务的基础。利用大型非医学数据集预训练模型权重已被证明可以提高图像分割任务的性能。

随后，作者进行微调。在原始结构的17个模块中，作者选择了0到13模块。在编码器的初始层，通道数设置为32。尽管作者没有对原始结构进行显著更改，但由于原始MobileNetV2结构中继承的倒置残差模块的存在，作者在编码器中的参数减少。作者架构设计的一个独特方面是，在编码器部分采用深度卷积的简洁布局，同时使用稍微重一点的解码器部分，仍然使用标准2D卷积。一个过于小的模型可能会影响准确性，因此，在编码器中，作者考虑了参数数量和准确性的平衡。

解码器：作者的模型解码器部分遵循U-Net架构，其中所有卷积滤波器的尺寸为3x3。为了保持合理的模型大小，作者选择了一个适中的滤波器数量，即128，64，32和16。在解码器部分，作者引入了提出的新的MMBlock。作者的MMBlock结构将在以下子节中详细介绍。

3.3.2 MM Block

这是一个基于卷积的注意力机制，由两个注意力路径组成。第一个路径是基于所有通道的平均和最大池化。作者选择了一个3x3卷积而不是一个较大的核大小，以避免丢失相邻像素细节。最初，来自编码器和解码器的裁剪并集成的输入特征进入MM-Block。这被称为'F'。然后，'F'经过一些操作。其中一个是所有通道的平均池化，另一个是最大池化。这两个操作的结果结合在一起，以增强学习的描述符特征。下面的方程3和4用于计算通道轴上的平均和平均池化。这两个运算符尽管功能不同，但互补。通道轴上的平均池化旨在捕捉胰腺的全局特征。

相比之下，通道轴上的最大池化旨在捕捉器官的最突出特征，如图7所示。从图中可以看出，在进行平均-最大池化操作之前，激活特征图仍然包含大量背景信息。然后，平均池化操作提供了一个关于胰腺形状的一般概述，而最大池化操作更清楚地突出了胰腺的边缘。将这两个操作的特征图融合在一起，将注意力集中在胰腺的关键特征上。

picture.image

其中，和表示特征空间索引，表示通道。给定输入特征图和3x3卷积滤波器权重，使用的卷积操作可以描述为：

点乘卷积的计算可以表示为：

其中，是激活函数。

下一个注意力路径是新的点乘卷积路径。在此路径中，作者使用一个滤波器进行点乘卷积，然后使用Sigmoid激活函数。在此路径中，通道维度会减少，然后使用Sigmoid激活函数进行注意力计算。此外，第一个路径的特征图，如图6中表示为'D'，与第二个路径的点乘注意力'H'融合，并在合并回原始特征图之前进行通道转换。这种策略有助于网络理解胰腺中不同通道特征之间的交互。最终结果是已经关注到胰腺重要区域的最终特征图。

4 Experiments

在本节中，作者将讨论用于验证作者提出的网络的数据集，然后是评估指标和实现。

Datasets

作者使用了两个公开可用的数据集进行评估。数据集的详细信息和任何特定的预处理操作如下所示。

NIH健康胰腺数据集：该数据集包含82个腹部增强CT扫描图像，以DICOM格式存储。训练有素的放射科医生为该数据集提供了 GT 标注，以NIFTI格式存储。由于有两个CT扫描图像缺少蒙版图像，因此从数据集中排除了这两个图像。不同患者的连续CT扫描图像大小在181到466层切片之间变化，每层包含512 x 512像素。

最初，作者将DICOM和NIFTI体积文件切片并转换为512 x 512 PNG图像。由于胰腺和背景之间的不平衡，作者只保留了包含超过5%胰腺的切片轴向视图图像，这与[12]中的标准做法一致，结果总共保留了1700张图像。接下来，作者裁剪了图像强度在[-100, 240]范围内的值，并将 Voxel 间距设置为(1, 1, 1)。然后，作者应用了外部轮廓分割。

MSD肿瘤胰腺数据集：该数据集包含281个包括标注的胰腺和胰腺肿瘤的腹部增强CT扫描。该数据集来源于医学分割比赛（MSD）胰腺分割数据集。每个CT体积的分辨率均为512 x 512像素，CT扫描的层数从37到751不等。作者将数据集过滤为保留超过5%胰腺内容的轴向视图图像。与先前的研究一致，作者将胰腺和胰腺肿瘤蒙版合并为一个实体进行分割。其余的处理步骤与NIH胰腺数据集相同。

为了展示两个使用数据集的代表性图像和蒙版，这些图像和蒙版已经经过了预处理，请参见图8。

picture.image

Evaluation Metrics

为了评估模型的性能，作者采用了五个标准定量指标。这些指标包括Dice-Sorensen系数（DSC），它衡量了分割预测与 GT 值的相似性；以及Intersection Over Union（IOU），它衡量了预测前景像素和 GT 前景像素的交集与并集的比率。作者还评估了Specificity，以确定非胰腺和胰腺像素的准确识别率。此外，Precision用于衡量作者的预测中真正阳性像素的比例，而Recall用于量化与参考图像中实际存在的胰腺像素相比，正确识别的胰腺像素所占的比例。

Implementation

在作者的实验中，两个分割阶段的超参数设置保持一致。作者在一个配备12GB内存的NVIDIA Titan V GPU上的TensorFlow开源库上进行了实验。作者使用了Adam优化器和一个批量大小为8。

作者的训练过程分为两个阶段。在前10个epoch中，作者使用所有可训练层冻结，学习率为0.001进行迁移学习。在接下来的100个epoch中，作者以0.0001的学习率进行微调。为确保有效监控训练过程，作者采用了几个回调，包括根据训练损失减少保存最佳模型，动态调整学习率0.1倍，最小阈值降至1x10，并在连续15个epoch没有改进时实现早期停止。

接下来，为了防止过拟合，作者实现了数据增强技术，包括垂直翻转，水平翻转和随机90度旋转。这些增强技术应用到了原始训练图像的50%。

在初始分割阶段，作者使用了没有MMblock的plain-MBUNet，而在第二阶段分割阶段，作者使用了M3BUNet。第一阶段输入图像是经过外部轮廓分割并已调整为256 x 256像素的图像。同时，第二阶段输入图像是从第一阶段裁剪并调整为64 x 64像素，并添加了两个来自小波分解得到的图像。

对于每个阶段，作者在患者数据上进行了4倍交叉验证。将训练集和测试集的划分是根据患者案例进行的随机划分，结果产生了四个子集，每个子集包含约20个患者用于NIH胰腺数据集，以及四个子集包含约70，70，70和71个患者用于MSD胰腺数据集。

5 Results and Discussion

本节介绍了两个数据集和消融研究的实验结果和讨论。

Intermediate Result and Ablation

作者的提出的模型由两个阶段组成，因此作者首先展示并讨论中间结果及其消融研究。

5.1.1 Intermediate Result

在表1中，作者将第一阶段的作者的分割结果与其他状态的先进两阶段技术的第一阶段进行了比较。在表中，模型的训练策略被分类为'jointly'和'separately'。前者使用两阶段技术的两个模型的联合训练，而后者像作者的技术一样，将模型分别训练。为了便于理解，作者仅展示了NIH胰腺数据集第一阶段的分割精度结果。同样的程序也应用于MSD胰腺数据集。

表1中的结果表明，在初始阶段，通过使用外部轮廓分割模型，作者实现了78.97%的DICE百分比，这代表了该分割阶段的最好整体性能。与基准U-Net相比，作者的模型在粗糙裁剪方法[51]或局部定位方面仍然广泛使用，作者的模型比它分别提高了2.08%和0.88%。

5.1.2 Ablation

作者的方法采用外部轮廓分割。为了评估其对分割精度的影响，作者在两个数据集上进行了独立的病人无关的消融实验。表2显示，将外部轮廓分割作为通用预处理步骤的一部分，导致了NIH胰腺数据集分割精度的提高，从73.35%增加到78.97%，提高了5.62%。同样，当作者对MSD胰腺数据集不包含此组件进行消融实验时，DSC仅为49.04%。将外部轮廓分割应用后，观察到22%的显著改进。

picture.image

这些结果清楚地表明，当作者的外部轮廓分割被采用时，对于两个数据集的分割精度都有所提高。作者在第5.2.2节中讨论了MM-Block的消融实验。

Final Segmentation and Ablation

这里，作者展示并讨论了作者提出的模型的总体结果及其消融。

5.2.1 NIH Pancreas Dataset

作者在NIH胰腺数据集上评估了模型的性能，并在表3中详细地与现有方法进行了比较。在报告的结果中，作者仔细选择了针对胰腺分割任务2D（即图像）优化的现有最先进状态的方法进行公平比较。

picture.image

作者的模型在胰腺分割任务上证明非常有效。此外，作者的模型在像素 Level 的胰腺识别能力方面表现出色，从作者的召回率92.80%可以看出。值得一提的是，作者的模型在实现简单性和参数数量方面都优于最先进的模型。在表5中，作者将模型参数进行了比较，并详细讨论了模型大小。

picture.image

5.2.2 MSD Pancreas Dataset

表4展示了与当前最先进方法相比，作者提出的网络的比较。在DICE结果中，作者排名第二，而作者的DICE性能略低于最佳性能的方法。作者的参数数量显著较低，大约比提供最先进结果的模型低30倍。

5.2.3 Model Size Comparison

作者的模型旨在比其他最先进的方法更参数有效。虽然最近的研究中参数数量考虑可能较少，但作者提供了与表5中公开披露参数数量的方法进行比较。作者的建议模型参数数量为2.86M，在计算效率方面最为突出。值得注意的是，作者报告了作者的方法参数数量，包括两个阶段的参数。

作者的模型非常紧凑，特别是与最先进的模型相比，其参数数量庞大，达到86M。此外，作者的模型不仅超过了具有相似基本结构的模型，而且资源消耗更少。黄等人[21]在NIH胰腺数据集上应用了12种增强，而作者的模型仅使用3种增强就实现了6.6%更高的DICE。值得一提的是，作者的建议模型使用的数据集大约是他们的10倍小。

这一显著的改进可以归因于作者熟练地利用了迁移学习和微调技术，这些技术在胰腺分割领域一直被证明是有效的。

5.2.4 Comparison MM-Block with other Attention

作者还与其他研究行人通常使用的几种基于卷积的注意力机制进行了比较。作者比较的注意力块包括：Squeeze and Excitation Attention（SE），Convolutional Block Attention Module（CBAM），以及Global Local Attention Module（GLAM）。

比较结果呈现在表6中。作为基准，作者采用了没有MM-Block和波let分解的M3BUNet。为了确保公平比较，所有超参数设置和注意力块放置都保持相同，即瓶颈和解码器。从表中可以看出，MM-Block注意力超过了其他三个流行的注意力块。

picture.image

5.2.5 Ablation

在作者的细粒度分割方法中，作者利用基于小波分解的多输入和MM-Block。为了评估这些组件对分割精度的影响，作者在两个数据集上进行了实验。此外，作者还对提出的组件进行了消融实验，并将其与基准结果进行了比较。

表7展示了提出的M3BUNet架构设计成功地将DSC与基准MobileNet-UNet提高了6.18%，对于NIH胰腺数据集，从83.35%提高到89.53%；对于MSD胰腺数据集，从84.48%提高到88.60%。从M3BUNet中去掉MM-Block会导致MSD胰腺数据集DSC的降低3.28%，相对于基准MobileNet-UNet降低了5.21%。类似地，小波分解对两个数据集的DSC的提高也产生了显著贡献，使用多输入分解在MSD胰腺数据集上提供了1.28%的提高，在NIH胰腺数据集上提供了3.69%的提高。

picture.image

6 Conclusion

在本文中，作者介绍了M3BUNet，一种用于胰腺分割的高效神经模型。作者的网络包括一个独特的均值-最大（MM）块，该块可以有效地关注输入图像的分割关键区域。作者的方法包括两个阶段，并采用了两种预处理技术：外部轮廓分割和波let分解。这两种技术已被证明可以提高使用两个数据集（即NIH胰腺数据集和MSD胰腺数据集）的胰腺分割的准确性。总的来说，作者提出的M3BUNet在计算效率方面超过了现有模型，同时提供了可比或更好的结果。

参考

[1].M3BUNet: Mobile Mean Max UNet for Pancreas Segmentation on CT-Scans.

点击上方卡片，关注「AI视界引擎」公众号