RotCAtt-TransUNet++ 用于精细分割的新型深度神经网络 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

RotCAtt-TransUNet++ 用于精细分割的新型深度神经网络 !

picture.image

心血管疾病是全球主要的公共卫生问题，对全球死亡率有重大影响。

准确分割心脏医学影像数据对于降低这些条件相关的死亡率至关重要。然而，当前最先进的神经网络（包括基于卷积神经网络的CNN和基于Transformer的方法）在捕捉切片间的连接和切内的细节方面存在挑战，尤其是在包含复杂、远程Z轴详细情况的数据集上，如冠状动脉。

现有方法在区分非心脏组织和心肌方面也存在困难，导致分割不准确和"喷射"现象。为了解决这些问题，作者提出了一种新的架构RotCAtt-TransUNet++，用于对复杂心脏结构进行健壮的分割。作者的方法通过在编码器中的多尺度特征聚合和嵌套跳过连接增强全球上下文建模。

Transformer层有助于捕获切片间的交互，而旋转 Transformer 注意机制处理切片间的连通性。通道相关交叉注意力门将多尺度信息和解码器特征集成，有效弥合语义鸿沟。

多个数据集上的实验结果表明，作者的方法在现有方法上具有优越的性能，"喷射"现象得到了改善。消融研究确认，作者的旋转 Transformer 机制在语义维度空间中转变嵌入的向量化块，显著提高了分割精度。

I Introduction

医学图像分割对于疾病和肿瘤检测至关重要。尽管手工分割是病理结构勾勒的黄金标准，但它耗时费力且易受人为错误影响。随着对专家知识的依赖减少和加速过程的需求增加，自动分割越来越有必要。心脏因其复杂的结构和微妙的细节，在这方面的挑战显著。以前的研究主要使用单标签数据集进行二分分割任务 [2, 3]。2017年，近期的研究选择了多类分割，主要有两个数据集，即MMWHS [4]和ACDC [5]。然而，这些数据集仅以简单和不精细的方式标注基本区域，如冠状动脉和心 capillaries，缺乏很大细节。像 ImageCHD [6]这样的更详细的标注数据集有8个标签（2021年）和 VHSCDD 有12个标签（2023年），这对 SOTA 网络提出了挑战。此外，SOTA 网络，无论是基于 CNN 的，还是基于 Transformer 的，都还没有使用相同的心脏数据集进行评估，导致这些网络之间缺乏公平的比较。在这篇论文中，作者使用 SOTA 网络（不论是基于 CNN 的还是基于 Transformer 的方法）提出一种新设计的自定义架构，并证明其优越性。

本文的内容组织如下。在第 II 节，作者简要回顾了与作者的工作相关的方法。然后，在第 III 节，作者提出了作者的解决方案。实验和结果分析将在第 IV 节进行讨论。最后，结论和启示将在第 V 节中出现。

II Related works

全卷积神经网络（FCNs）已经成为医学影像分割的默认标准 [7, 8]。 UNet [9]通过直接跳跃连接将同一尺寸的特征图连接在一起，以减轻更深层的信息损失。 UNet++ [10]进一步改进了UNet，采用嵌套跳跃连接。 ResUNet [11]采用具有空洞卷积的ResNet单元和金字塔池化来解决语义间隙问题。然而，基于卷积神经网络（CNN）的方法在捕捉长程依赖关系和全局上下文方面存在困难，因为它们继承了局部性 [5]。注意力机制，如U-Net Attention [12]，试图通过关注相关细节并忽略分心信息来提高性能。

尽管取得了这些进展，基于CNN的方法仍然存在性能问题，特别是在展示显著的跨患者变异性结构时 [1, 5]。最初设计用于自然语言处理任务， Transformer 因其多头自注意力（MSA）机制而闻名，在捕捉长期相互作用方面表现出色。在计算机视觉和分割领域，TransUNet [5]采用Transformer编码器进行全局信息学习，采用CNN解码器进行空间细节提取。相反，Swin-Unet [13]用完整的Transformer架构替代CNN，采用移位窗口机制进行细节提取，采用 Patch 扩展层进行上采样。然而，当前基于Transformer的方法仅将自注意力局限于patch相互作用和跳跃连接，逐层处理体积数据，并限制不同切片之间的信息整合。这个限制影响了TransUNet在相邻切片之间实现无缝分割的能力。

3D网络如UNet 3D [14]和VNet [15]保留了跨切片细节，但面临着GPU内存和计算需求的限制。因此，作者引入了轻量级的2.5D网络RotCAtt-TransUNet++，以解决这些问题。

III Our Proposed Method

Architecture Overview

图1显示了架构图。通过对UNet++[10]架构与嵌套跳跃连接的仔细实验和消融研究，作者观察到它们在实现高级分割结果时保留关键信息的有效性。作者也受到了赵等人[16]在不同尺度金字塔池化的启发。因此，作者采用了密集下采样与嵌套跳跃连接的联合方式，产生了在不同分辨率和深度下的四个独特特征图。

不同于TransUNet及其变体，它们只嵌入最后一个低分辨率特征图，作者对多尺度特征图采用线性嵌入。具体来说，第一个三个特征图经历不同程度的线性嵌入，生成不同嵌入向量，同时经过 Transformer 块捕获贴图之间的交互，并使用旋转注意力机制聚合相邻切片的信息。在这些 Transformer 块内，包含个 Transformer 层，嵌入序列贴图进行自注意力和多层感知，从而实现牢固的切片内信息捕获，并生成新的编码图像表示。

旋转注意力块设计为将批量大小作为多个连续切片处理，选择处理前三个人连续切片--将第一个作为左，第二个作为目标，第三个作为右--来生成包含相邻切片体积数据中相邻切片信息的三个向量。切片间和切片内信息的融合得到，然后通过上采样技术恢复为原始分辨率，得到。

最后，与进行拼接，使得该迭代过程一直持续直到通过卷积获得最终的分割图。

嵌套跳跃连接的特征提取。输入是，表示批处理大小、通道数、高度和宽度。批处理大小也代表旋转注意力块中聚合的相邻切片数目。输入进行卷积处理，得到，形状为，其中。生成的特征图下采样到，形状为。然后，上采样到。将与其沿着轴上的拼接，得到。这一子集进一步卷积处理生成，其形状与相同，但包括的聚合信息。这个过程继续通过后续低分辨率图像。

1: 旋转注意力机制与通道级注意力门控相结合以增强解码器中的特征融合。借助于丰富的嵌套跳跃连接的多尺度特征提取的Transformer-Unet混合模型。

如果作者规定所需的不同分辨率输出数量为，作者得到和，其中的形状为。第分辨率图的形状为，跳过 Transformer 块和旋转注意力块，而是用于解码器。对于，最终的特征图有 , , 。分别简化为，当 ### 线性嵌入和位置嵌入

Patch Embedding 将规范化插值得到的向量转换为个维度的潜在空间。为了保留patch的空间信息，作者引入每个patch特有的位置嵌入，然后将位置嵌入与patch嵌入相结合。具体而言：

在这段文本中，是执行的卷积操作并生成，其中表示位置嵌入，是添加了与位置向量相对应的线性嵌入投影后的结果。

_Transformer Block_

本文提出了一种名为Transformer encoder的编码结构，包括层多头自注意力机制（Multihead Self-Attention，MSA）和多层感知机（MLP）块。因此，第层输出可以表示为：其中表示层规范化算子，且是表示图像大小的编码图像。在第层中，编码图像经过自注意力机制，使得编码的 Patch 学习如何相互关注。

数学上，表示的注意力分数按照缩小的点积计算如下：其中。MLP 包含一个大小为的全连接层。产生的保持与相同的形状，学习一种在单2D图像切片内的内子切片信息或 Patch 之间的关系。

为了表示简洁，暂时省略了尺度索引：目标是推导出一个向量，并将其与集成，以调整隐藏状态或调整嵌入块在语义维度空间中的位置。被表示为一个向量，通过注意力机制从左和右上下文中提取必要的信息来过滤噪声和冗余信息。

首先，通过池化形成一个目标表示：类似于Transformer层中的自注意力机制，左边上下文的关键和值被提取出来：现在，被用作 Query ，以创建左context的上下文向量。Score的计算使用tanh激活的分数函数，而注意力分数的计算使用softmax函数：

左context的Patch Embedding的加权组合被考虑为组件表示：在图2中，作者把这个过程称为单注意力（SA），其表示为：接下来，将矢量用作 Query ，在

目标上下文中创建上下文，将信息集成回中心编码切片/图像，从而产生。可以执行类似的过程，以获取右认知的目标表示和。

作者的组合损失函数定义如下：

损失

在作者的实现中，作者设alpha为0.6，因为观察到IoU损失几乎总是超过Dice损失。因此，作者选择增加对模型的惩罚。

Results and Discussion

旋转注意力消融研究：图4展示了在心脏数据上应用作者的网络时，旋转注意力的最快收敛时间。图3显示，在作者的网络中，旋转注意力使得编码的向量化 Patch 可以在语义空间中有效地进行变换，从而减少了使用大量 Transformer 层的需求。然而，尽管RotCAtt-TransUNet++在各个数据集和指标上都优于其他方法，但在Synapses数据集上的效果却较差。经过数据集分析，作者得出可能是由于该数据集中的结构中断，模型在尝试聚合相邻切片信息或在z轴上获取必要信息时（超过批量大小）距离较远。增加 Transformer 层数，如TransUNet，虽然可以带来轻微的改进，但会显著增加模型参数和复杂性。因此，这个领域仍需未来改进。作者在VHSCDD数据集上进行了消融研究，比较了有和没有注意力机制的结果。表2中，DSC和IoU得分显着下降，图4显示在没有应用旋转注意力的情况下，出现了“喷洒现象”。作者的注意图分析表明，除了心脏区域，非心区域与心肌组织块具有很高的相似性。此外，如图5 所示，作者的方法在所有类别上都实现了近完美的分割。相反，TransUNet（基于 Transformer 的方法）和UNet++ 注意力（基于CNN的方法）没有表现出那么好的效果。“喷洒现象”也明显出现在TransUNet的分割结果中。

picture.image

V Conclusion and Implication

基于Transformer的方法在自注意力上表现出色,而基于CNN的方法在局部ization上表现强健。

作者的研究介绍了RotCATt-TransUNet++,它采用了嵌套跳跃连接在编码器中进行多尺度特征提取,然后接上周转器注意力块,最后是Transformer层。这种架构增强了图像表示和分割精度,特别是在复杂的心肌数据集中。

实验结果表明,冠状动脉和心肌等重要结构的标注非常接近完美,逆转注意力块的有效性得到了证实。

未来的研究目标是对架构进行优化,并集成先进的技术,以提高心血管疾病的分割效率和临床结果。

参考

[1].RotCAtt-TransUNet++: Novel Deep Neural Network for Sophisticated Cardiac Segmentation.

点击上方卡片，关注「AI视界引擎」公众号