基于 Global-Local Vision Transformer的高频信息增强分割！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

许多研究已经证明了基于视觉 Transformer （ViT）的方法在各种计算机视觉任务上具有强大的性能。然而，ViT模型通常很难有效地捕获图像中的高频成分，这对于检测小目标并保持边缘细节至关重要，尤其是在复杂场景中。

这种限制在结肠息肉分割任务中尤为具有挑战性，因为息肉在结构、纹理和形状上表现出显著的变异。高频信息，如边界细节，对于在这种背景下实现精确语义分割至关重要。

为了应对这些挑战，作者提出了一种名为HiFiSeg的新型结肠息肉分割网络，通过全局-局部视觉 Transformer 框架增强高频信息处理。

HiFiSeg使用金字塔视觉 Transformer （PVT）作为其编码器，并引入了两个关键模块：全局-局部交互模块（GLIM）和选择性聚合模块（SAM）。

GLIM采用并行结构在多个尺度上融合全局和局部信息，有效捕获细粒度特征。SAM选择性地将低级特征与高级特征的语义信息相结合，显著提高模型准确检测和分割息肉的能力。

在五个广泛认可的基准数据集上进行的实验表明，HiFiSeg对于息肉分割非常有效。

值得注意的是，在具有挑战性的CVC-ColonDB和ETIS数据集上，mDice分数分别达到0.826和0.822，强调了HiFiSeg在处理该任务的具体复杂性方面的优越性能。

I Introduction

结肠和直肠上的多发性息肉是异常生长，它们突出于周围肠黏膜之上。结直肠癌通常起源于结肠息肉，特别是腺瘤性息肉。因此，对这些息肉的早期发现和切除对于预防结直肠癌的进展至关重要。结肠镜检查是临床实践中检测结直肠病变的金标准 [1]。然而，手动标注息肉不仅耗时费力，而且容易出错。这突显了需要自动化和精确图像分割方法来协助医生进行诊断的需求。

深度学习算法通过卷积神经网络（CNNs）在医学影像领域取得了显著的成功，如心脏、皮肤病变和息肉分割等。尤其是全卷积网络（FCNs），如UNet [2]、SegNet [3]和DeepLab [4]，已经成为该领域的主导方法。然而，由于CNNs的接收域有限，基于CNN的方法在捕捉长程关系和全局上下文方面存在局限性，这限制了它们在捕捉对医学影像分割至关重要的形状和结构信息方面的表示能力。

Transformer 通过多头自注意力（MHSA）机制反映了复杂的空间变换和长期特征依赖性。在自然语言处理（NLP）领域取得了显著的成功。近年来，视觉 Transformer （ViT）[6] 提出了将 Transformer 结构应用于视觉任务，旨在克服CNN在图像识别任务中的限制。不幸的是，尽管 Transformer 能够捕捉全局依赖性，但它们在图像局部性和位移不变性方面存在困难，这影响了小目标和小边界的高效分割。因此，构建一个同时保留局部和全局特征，同时保持各自特性的模型仍然是一个具有挑战性的任务。

最近， Transformer 和卷积神经网络（CNN）的混合架构已被引入，例如TransUnet[7]，HiFormer[8]和LeVit-Unet[9]。这些架构结合了CNN的局部性和 Transformer 的远程相关性，在医学图像分割中编码全局和局部特征。然而，尽管这些方法在分割任务上表现出更好的性能，但它们仍然存在局限性，例如对细粒度特征的关注不足。

这一缺陷阻碍了模型准确识别小目标和定位边界的功能，从而限制了其在医学图像分割中的学习和泛化能力。如图1所示，PraNet模型被用作示例，突出显示了在病变检测中的挑战。

picture.image

受到多尺度、多层特征建模方法的启发，作者提出了一种高频信息增强的多边形分割方法，称为 HiFiSeg。HiFiSeg 的主要组成部分是金字塔视觉 Transformer （PVT）、全局-局部交互模块（GLIM）和选择性聚合模块（SAM）。PVT 是一种轻量级的具有层次结构的 Transformer，作为编码器来捕捉多尺度特征。GLIM 使用各种大小的并行卷积核和池化操作来聚合全局和局部信息，从而提取细粒度特征，这对于局部定位小目标特别有利。

为了进一步降低计算复杂性，GLIM 将通道分组并使用深度可分卷积进行并行卷积。SAM 通过使用高级语义信息选择性地指导低级细节精炼来增强边界特征。

总的来说，本文的贡献如下：

作者提出了一种名为HiFiSeg的新颖框架，用于结肠息肉分割。HiFiSeg将金字塔视觉 Transformer 作为编码器，以提取比基于CNN的方法更强的特征。
作者设计全局-局部交互模块（GLIM）和选择性聚合模块（SAM），以支持作者的框架。GLIM 通过提取高层局部多尺度信息，增强了针对小目标的分割性能。SAM 通过选择性地将低层边界细节与高层语义信息融合，解决了边界模糊问题。
作者在一组标准基准数据集（Kvasir [14], CVC-ClinicDB [15], CVC-300 [16], CVC-ColonDB [17], ETIS [18]）上开展了一组实验，并将结果与最先进的方法进行了比较。在具有挑战性的CVC-ColonDB和ETIS数据集上，作者分别取得了0.826和0.822的mDice分数，分别超过了现有的最先进方法。

II Related Work

Convolutional Neural Networks

卷积神经网络（CNNs）是一种专门用于处理图像数据的深度学习模型，擅长特征提取，并在计算机视觉任务中得到广泛应用。近年来，基于UNet架构的CNN模型在医学图像分割方面取得了显著进展。

UNet包括一个对称编码器和解码器，通过 Shortcut 将编码器中的特征传递到解码器，将低级特征和高级语义信息相结合，实现高精度的分割。许多基于UNet架构的工作进行了改进，如UNet++ [19]，ResUNet++ [20] 和DoubleUnet [21]。

与UNet方法不同，PolypNet [22]提出了一种双树小波池化卷积神经网络，结合局部梯度加权嵌入水平集，显著降低了假阳性率。Caranet [23]提出了一种上下文轴向保留注意力网络，以提高对小目标的分割性能。

PraNet [24]基于并行部分解码器聚合的高层次特征生成全局映射，并采用反注意力模块挖掘边界线索，有效校正任何错位预测，从而提高分割精度。

Vision Transformer

Transformer [5] 是Vaswani等人提出的深度学习模型，它使用多头自注意力机制来捕捉输入序列中的长期依赖关系。Transformer 模型最初应用于自然语言处理，如机器翻译和文本生成。由于其强大的并行处理能力和捕捉长期依赖关系的能力，现在它被广泛应用于图像处理、语音识别等领域。

Dosovitskiy等人提出的视觉 Transformer （ViT）[6]是第一个纯 Transformer 模型，用于图像分类任务。ViT将图像划分为固定大小的patch，然后将它们投影并输入到 Transformer 模型进行处理和特征学习。

随后，适用于下游任务的基于 Transformer 的金字塔结构已经被提出，如Swin Transformer [25]、PVT[10]和Segformer[26]。

在医学图像分割中，Transfuse [27] 采用并行方式将 Transformers 和 CNNs 相结合，以高效地捕捉全局依赖关系和低级空间细节，实现更浅层的表示。TransUNet [7] 采用 Transformer 作为医学图像分割任务的编码器，并结合 U-Net，通过恢复局部空间信息来增强局部细节。

Polyp-PVT [28] 采用 PVT 作为编码器，并设计了一个基于图卷积的相似度聚合模块。ColonFormer [29] 基于 Transformer 和多个尺度下的全局语义关系建模，并引入了一种新的 Shortcut 技术，用于在全局映射中细化多囊肿目标的边界。

DuAT [30] 提出了一种双聚合 Transformer 网络，其中全局到局部空间聚合模块用于定位大型和小型目标，而选择性边界聚合模块用于保留边界细节并定位重新校准的目标。

III Proposed Method

Overview

如图2所示，作者提出的HiFiSeg网络包括一个金字塔视觉 Transformer （PVT）编码器、全局-局部交互模块（GLIM）和选择性聚合模块（SAM）。

PVT编码器用于从输入图像X（X∈RH×W×3）中提取多尺度层次特征，捕捉细粒度局部细节和宽泛语义信息。具体而言，PVT Backbone 网络产生四个金字塔特征Xi∈RHi2i+1×W2i+1×Ci，其中i∈{1,2,3,4}且Ci∈{64,128,320,512}。

picture.image

Transformer Encoder

近年来的一些研究表明，金字塔结构通过整合多尺度上下文信息，可以显著提高图像分割的准确性和效率。

作者的模型使用[46]中提出的金字塔视觉 Transformer （PVT）作为编码器 Backbone ，以提取更强的特征进行多囊肿分割。PVT是首个专门针对各种像素级密集预测任务的纯Transformer Backbone 。

在多囊肿分割中，PVT生成了四幅多尺度特征图

，其中

i ∈ { 1 , 2 , 3 , 4 }

。在这些特征图中，

提供了关于多囊肿的详细信息，而

、

和

提供了高级特征。

Global-Local Interaction Module

在医学图像分割中，背景和上下文通常占据比目标本身更大的区域。因此，在准确分割小目标时，捕捉不同尺度下的信息至关重要。与逐层呈现多尺度特征的方式不同，GLIM在特定高层次上聚合全局和局部特征，实现细粒度上的多尺度特征表示，从而减少高层次特征的错误。

如图3所示，作者提出的GLIM详细架构包括三个卷积分支和一个池化分支。为了平衡准确性和计算资源，作者将通道均匀分为四组，并对每组应用深度可分卷积。

将输入特征

（

i ∈ { 2 , 3 , 4 }

）分为四个组成部分

i 1

、

i 2

、

i 3

、

i 4

后，它们被输入到不同尺度的特征生成单元中。

对于输入特征

，这个过程可以表示为：

picture.image

其中表示连接操作，而表示1x1卷积。为了增强特征选择，作者将GELU激活函数应用于特征以生成注意力特征图，然后通过逐元素乘法对输入特征进行调制。这可以表示为：

picture.image

GELU 是指 GELU（全局激活函数），并且是逐元素乘积。

picture.image

其中，表示通道分离操作，代表1x1 卷积，表示 3x3 深度卷积，表示 5x5 深度卷积，GAP 表示全局平均池化，Sigmoid 代表 Sigmoid 激活函数，而是逐元素乘法。卷积分支使用不同大小的核来提取图像不同尺度的特征，而池化分支使用全局平均池化来聚合全局信息。

这些特征图然后按通道维度串接，并应用一个 1x1 卷积来聚合全局和局部信息，从而得到丰富的特征表示。这个过程可以表示为：

picture.image

Selective Aggregation Module

浅层特征包含丰富的空间信息，而深层特征包含更多的语义信息。将这两种信息有效结合对于提高模型准确性至关重要。为了增强浅层细节特征的指导作用，作者提出了选择性聚合模块（SAM），如图1（c）所示。与之前的融合方法不同，SAM选择性地聚合特征。首先，将浅层特征和深层特征分别通过1x1卷积和 sigmoid激活分别处理，生成注意力权重。Sigmoid函数的输出可以表示为：

picture.image

如果σ较大，模型会更倾向于信任浅层特征，反之亦然。SAM的输出可以表示为：

picture.image

Loss Function

作者使用加权二进制交叉熵（BCE）损失和加权交并集（IoU）损失进行监督。作者的损失函数可以表示为公式6：

picture.image

其中，和分别是输出结果，G是真实值，和是加权系数，和是加权BCE和加权IoU。

IV Experiment and Analysis

为了验证所提出的HiFiSeg方法的优势，它在五个流行的多形性分割数据集（Kvasir [14]，CVC-ClinicDB [15]，CVC-300 [16]，CVC-ColonDB [17]，ETIS [18]）上与多种最先进的算法进行了比较。

Datasets

作者使用了五个具有挑战性的公共数据集进行多瘤段分割任务，包括Kvasir [14]，CVC-ClinicDB [15]，CVC-300 [16]，CVC-ColonDB [17]，和ETIS [18]，以验证作者的模型的学习和泛化能力。每个数据集的详细信息如下：

瓦西尔数据集：该数据集包含1000张具有不同分辨率的图像，从720 x 576像素到1920 x 1072像素不等。

CVC-ClinicDB 数据集：该数据集包含 612 个息肉图像，这些图像是从 29 个不同的内窥镜视频片段中提取的。图像的分辨率是 384 x 288。

CVC-300数据集：该数据集包含60个多边形图像，图像的分辨率是574 x 500。

CVC-ColonDB 数据集：该数据集包含 380 个结肠息肉图像，图像的分辨率是 570 x 500。

ETIS数据集：该数据集包含196个肿块图像，图像的分辨率是1225 x 966。

Evaluation Metrics

作者在医学图像分割领域使用了三种广泛使用的度量方法，即平均Dice（mDice）、平均IoU（mIoU）和平均绝对误差（MAE），来评估模型的性能。平均Dice和IoU是主要关注评估分割结果内部一致性的广泛使用的度量方法。另一方面，MAE通过计算预测值和实际值之间的平均绝对误差来测量像素 Level 的准确性。

Implementation Details

作者随机将Kvasir和CVC-ClinicDB中的图像分为训练组的80%，测试组的20%。并在CVC-300，CVC-ColonDB和ETIS数据集上进行测试。由于图像分辨率不均匀，作者将它们重新缩放到352x352的分辨率。

作者使用PyTorch框架实现HiFiSeg，并利用NVIDIA RTX 3090 GPU。为了提高模型在图像尺寸变化方面的鲁棒性，训练图像分别缩放到0.75、1和1.25倍[29]，然后输入到模型进行学习。PVT编码器使用与pvt_v2_b2相同的参数[33]。使用AdamW[34]优化器进行端到端训练，学习率设置为1e-4，权重衰减设置为1e-4。批量大小设置为16。

Comparison with State-of-the-art Methods

Iv-D1 Learning Ability

首先，作者在Kvasir和ClinicDB两个训练数据集上评估所提出的HiFiSeg模型的学习能力。如表1所示，作者将所提出的HiFiSeg模型与最近发表的以及经典的息肉分割模型进行了比较，包括基于CNN的模型如UNet [2]、UNet++ [19]、PraNet [24]和SANet [31]，以及基于Transformer的模型如TransUnet [7]、SS-Former [32]、Polyp-PVT [28]和ColonFormer [29]。这些结果表明，作者的模型在准确分割息肉方面具有有效性。具体而言，在Kvasir数据集上，HiFiSeg模型的mDice值为0.933，mIoU值为0.876，分别比最佳表现模型ColonFormer提高了0.6%和0.9%。在CVC-ClinicDB数据集上，HiFiSeg模型在mDice值为0.942，mIoU值为0.897，分别比最佳表现模型Polyp-PVT提高了0.6%和0.8%。

Iv-D2 Generalization Capabilities

为了进一步评估作者模型的泛化性能，作者在三个未见过的数据集上测试HiFiSeg：CVC-300、CVC-ColonDB和ETIS。这些数据集来自不同的医学中心，每个数据集都具有独特的挑战和特征。如表2所示，在三个未见数据集上，作者的模型在所有指标上都超过了同行模型，证明了强大的泛化性能。在CVC-300数据集上，HiFiSeg实现了mDice 0.905和mIoU 0.839，分别比第二好的模型Polyp-PVT提高了0.5%和0.6%。在CVC-ColonDB数据集上，作者的模型在mDice和mIoU得分上分别比ColonFormer提高了1.5%和1.9%。此外，HiFiSeg在ETIS数据集上实现了mDice 0.822和mIoU 0.743，分别比第二好的模型ColonFormer提高了3.3%和3.2%。

picture.image

Iv-D3 Visual Results

图4展示了作者的模型与其他比较模型的可视化结果，对其性能进行了定性评估。如图4所示，与其他模型相比，作者的模型在分割结果中产生了显著较少的错误预测像素。它能准确识别结肠组织和息肉，高效捕捉小息肉的边界和目标物体的边界，并保持在不同成像条件下稳定的识别和分割能力。如图4的前三行所示，HiFiSeg准确捕获了目标物体的边界和细细节，而其他方法无法清晰检测到边界。在第四和第五行中，作者的方法展示了在识别小目标方面的优越能力，并产生了更准确的分割预测。

picture.image

Ablation Studies and Analysis

作者使用PVTv2作为基准（Bas.），并通过从完整的GLIM中移除组件来评估模块的有效性。训练、测试和超参数设置与III-C节中提到的相同。结果如表3所示。

picture.image

GLIM的有效性评估为评估GLIM的有效性，作者对模型进行了训练："HiFiSeg (w/o GLIM)"。如表3所示，与标准HiFiSeg网络相比，HiFiSeg (w/o GLIM)在所有五个数据集上的性能都有所降低。这在ETIS数据集上尤为明显，其中mDice从0.822降至0.798，mIoU从0.743降至0.725。如图5所示的视觉结果表明，HiFiSeg (w/o GLIM)模型在区分息肉和结肠组织以及准确定位目标方面存在困难，特别是对于较小的目标。相比之下，包含GLIM模块的HiFiSeg模型，由于局部和全局特征的聚合，显著提高了目标定位的准确性以及小目标检测的准确性。

picture.image

V Conclusion

在本文中，作者提出了HiFiSeg网络，旨在解决结肠息肉图像分割的挑战，如细粒度目标定位和边界特征增强。具体来说，全局和局部特征融合模块（GLIM）通过并行提取多尺度特征，促进了不同大小目标的定位。

语义和细节特征聚合模块（SAM）选择性地将语义特征与细节特征相结合，以减轻边界不清晰的问题，进一步提升了性能。

在五个具有代表性的结肠息肉数据集上的实验结果表明，HiFiSeg算法具有较强的学习和泛化能力，优于其他竞争方法。

在未来的工作中，作者计划探索轻量级架构以降低模型复杂度，从而将其适用性扩展到更广泛的医学图像分割任务中。

点击上方卡片，关注「AI视界引擎」公众号

基于 Global-Local Vision Transformer的高频信息增强分割 ！

I Introduction

II Related Work

III Proposed Method

IV Experiment and Analysis

V Conclusion