结合卷积与变换,Perspective+ Unet 提升图像分割的性能与效率!

人工智能与算法大数据MySQL

点击下方卡片,关注 「AI视界引擎」 公众号

扫码进群:方向+学校/公司+昵称/姓名

picture.image

picture.image

精确的医学图像分割对于提取关键的临床信息至关重要,这些信息在提高诊断准确性、制定有效的治疗方案以及改善患者预后方面发挥着关键作用。尽管卷积神经网络(CNNs)和非局部注意力方法在医学图像分割方面取得了显著的成就,但它们要么因为依赖局部特征而难以捕捉长距离的空间依赖性,要么在尝试使用全局注意力机制解决此问题时面临巨大的计算和特征整合挑战。为了克服医学图像分割中现有的局限性,作者提出了一种新颖的架构,即Perspective+ Unet。

这个框架具有三大创新点:

(i) 在编码器阶段引入了双路径策略,结合传统卷积和扩张卷积的结果。这不仅保持了局部感受野,还显著地扩展了它,使得在保留细节敏感性的同时更好地理解图像的全局结构。

(ii) 框架融入了一个高效的非局部变换块,名为ENLTB,它使用核函数近似来有效地捕捉长距离依赖性,具有线性的计算和空间复杂度。

(iii) 采用了一种空间跨尺度整合策略,在模型各阶段合并全局依赖性和局部上下文线索,细致地精炼来自不同层次的特征,以调和全局和局部信息。在ACDC和Synapse数据集上的实验结果证明了作者提出的Perspective+ Unet的有效性。

1 Introduction

在诊断放射学和手术规划领域,3D医学图像分割发挥着关键作用。从体积数据集中,如磁共振成像(MRI)或CT,精确分割解剖结构,能够提取关键的临床信息,有助于精确干预,监测疾病进展,并个性化治疗策略。

近年来,卷积神经网络(CNNs)在各种领域取得了巨大成功。它们的三维变体,如V-Net和3D U-Net,在3D医学图像分割的局部特征提取中发挥着重要作用。这些模型,包括带有残差连接的Res-UNet,以及带有高级跳跃路径和嵌套设计的U-Net++和UNet3+,在检测详细局部模式方面表现出色。尽管它们精通于此,但CNNs的局部感受野固有限制,限制了它们捕捉对全面理解图像至关重要的更广泛空间关系的能力。为了补偿这一点,需要多层来扩大覆盖范围,这可能导致模型复杂性的增加,而无法有效地整合全局上下文。

相比之下,非局部方法扩大了分割模型的感受野,利用全局上下文而不仅仅是图像分析中的局部细节。这些策略关注整个图像的空间关系,以提高分割效率。这种方法的代表是基于变换器的方法或混合变换器模型,它们对图像区域应用全局注意力。尽管它们的目的是综合远距离空间信息,但这些模块存在整合噪声的风险,并面临与输入大小相关的二次计算成本。虽然包含非局部交互提供了计算上的缓解,但矛盾的是,它削减了关键的全局洞察力。在图像分割中平衡计算效率和全局上下文意识的努力导致了如Swin-Unet和非局部注意力变体等创新,它们在全局综合之前对图像进行分块注意力计算。尽管这降低了复杂性,但也限制了更广泛空间信息的捕捉。

在本文中,作者提出了Perspective+ Unet,这是一个旨在扩大感受野以增强3D医学图像分割的先驱框架。作者模型包含一个创新的双路径编码器,使用两条路径:一条使用标准卷积捕捉高分辨率的局部细节,另一条使用扩张卷积捕捉更广泛的环境信息。这种配置解决了通常与扩张卷积相关的问题,允许合成具有不同感受野大小的丰富特征集,促进对图像的更深层次和更广泛的理解。

然后,提取的特征被输入到高效非局部变换块(ENLTB),它建立在标准非局部注意力机制之上,以一小部分通常的计算开销提供全局视角。ENLTB有效地将长距离空间依赖性压缩成一个紧凑的特征集,使后续的特征图富含全局注意力特征。此外,为了增强局部和全局特征表示之间的协同作用,作者设计了空间跨尺度整合器(SCSI),以鼓励不同阶段信息的一致性整合,确保在受益于宏观上下文的同时保留精细细节。

picture.image

2 Methods

作者提出的Perspective+ Unet采用了编码器-瓶颈-解码器的配置,具体的网络工作流程如图1所示。在本章中,作者将详细介绍网络中的三个模块,首先从双向路径残差块开始。

Bi-Path Residual Block (BPRB)

为了提高准确性,扩大感受野一直是3D医学图像分割进展中的研究重点。传统上,研究行人通过堆叠全局模块来实现这一点,虽然扩展了视野,但常常导致局部区域信息的丢失:更广阔的感受野捕捉全局信息可能会忽略关键的局部细节。

为了应对这一挑战,作者创新了BPRB,一个双路径设计,平衡局部和全局信息处理以增强分割。一条路径使用扩张卷积来扩大感受野,理解更广泛的空间信息,但由于其间隔方法,引入了特征的不连续性。为了解决这个问题,BPRB融合了另一条使用传统卷积的路径,专注于捕捉详细特征并保持局部信息连续性,从而实现全局和局部信息处理之间的最佳平衡。所提出的BPRB可以表示为:

其中 , , 分别是阶段 中的局部、全局和最终特征。 和 是阶段 中的卷积和扩张卷积,扩张率为 。

Efficient Non-Local Transformer Block (ENLTB)

在输入图像中捕获全局信息对于增强特征表示至关重要,这直接有助于分割的有效性。为此,作者将ENLTB整合进来,作为一种战略手段,重新配置编码器产生的特征图,旨在实现增强的上下文理解和表示多样性。

ENLTB采用了高效的非局部自注意力(ENLSA)机制,它通过用更计算效率高的无偏估计替代了在非局部神经网络[16]中引用的传统指数核,从而大大加快了处理速度。具体来说,,其中可以被重参化为线性映射。详细的证明如下(为了提高可读性,省略了与变量无关的常数):

其中 和 分别代表注意力机制中的 Query (query)和键(key)。 可以被重参化为一个多元正态变量 和 的乘积。

与传统的 Transformer 具有二次计算复杂度相比,ENLSA模块在矩阵投影计算和时仅具有的复杂度,然后是用于和之间的乘法。这种设计确保了整体计算过程与输入大小线性相关,显著降低了计算成本。

作者通过用ENLSA替换其注意力机制来重新构建Transformer,从而构建了ENLTB。这种修改简化了特征表示增强。ENLTB的第一层仅处理来自编码器的特征。然而,随后的ENLTB层通过 Patch 合并聚合了直接来自编码器的特征以及从前面ENLTB层传递的特征,从而精细地将细粒度细节与粗语义信息复杂地融合在一起。ENLTB的过程可以表示为:

其中的定义与2.1节中介绍的一致。,分别表示在阶段的ENLTB的输入和输出。和分别代表层归一化和多层感知机。

Spatial Cross-Scale Integrator (SCSI)

协作特征交互对于丰富网络的解释性性能至关重要,因此作者设计了SCSI模块,以确保对图像复杂性的详细部分进行精确且精细的分割。

SCSI从块展平开始,这里将每个ENLTB产生的特征图收集并合并成一个统一序列。接下来, Transformer 处理这个序列,这支持不同特征之间联系的学习。细化后的特征序列再仔细映射回它们各自尺度的原始特征图,保持它们原始的连接顺序。SCSI的过程可以表述为:

其中 和 分别表示在阶段 的ENLTB和SCSI的输出。 代表连接操作。

SCSI模块为Perspective+ Unet配备了能够跨尺度融合补充信息的能力,从而简化了与复杂尺度变化相关的模糊性问题的解决。

3 Experiments

Datasets and Evaluation

3.1.1 Synapse:

Synapse数据集来自2015年MICCAI多图谱腹部标记挑战赛,包含30个腹部3D CT扫描。随机选择18例用于训练目的,其余12例用于测试。作者的方法使用平均Dice相似性系数(DSC)和平均Hausdorff距离(HD)来评估八个腹部器官。

3.1.2 Acdc:

表2:不同方法在ACDC数据集上的分割准确度。最佳结果以粗体显示。

picture.image

ACDC挑战汇集了来自不同患者的MRI扫描结果。每位患者的扫描图像都手动标注了三个标签:左心室(LV)、右心室(RV)和心肌(MYO)。作者随机选择70例用于训练,10例用于验证,20例用于测试。方法论通过平均DSC进行评估。

实验细节

在作者的Perspective+ Unet中,编码器或解码器无需预训练,完全从零开始训练。为了减轻过拟合的风险,采用了全面的数据增强技术,包括概率性图像翻转、加性高斯噪声、高斯模糊、对比度调整以及多种仿射变换,如缩放、旋转、剪切和平移。在Synapse和ACDC数据集上进行训练,分别进行600和1000个周期的训练,批处理大小为12。图像被调整到224224像素。为了优化学习过程,实施了0.05的学习率,并使用SGD优化器将权重衰减设置为0.0001。所有的训练和测试过程都在NVIDIA RTX A5000 GPU上执行。

Quantitative and qualitative segmentation results

图2:在Synapse多器官CT数据集上,不同方法的可视化分割结果。作者的方法(最后一列)展现出最平滑的边界和最准确的分割结果。

picture.image

为了验证Perspective+ Unet的有效性,作者在Synapse数据集上将其与11种先进方法进行了比较。如表1所示,Perspective+ Unet在DSC上达到了84.63%,在HD上达到了11.74%,明显优于最新方法MSAANet,DSC提高了1.78%,HD减少了6.8mm。这种进步归功于BPRB和ENLTB模块,它们增强了模型的感受野。在ACDC数据集上的进一步验证证实了Perspective+ Unet在捕捉关键表征方面的卓越多功能性和鲁棒性,如表2所示。不同方法在Synapse数据集上的分割结果如图2所示。在比较分析中,ENLSA在参数数量和浮点运算数(FLOPs)方面与另一种非局部方法进行了评估。表3中的结果显示,ENLSA在效率上显著优于NLSA。

picture.image

picture.image

此外,为了进一步验证模型的的有效性,本研究采用了网络中间层输出的可视化以及注意力 Heatmap 的创建。如图3所示, Heatmap 中的高亮区域与分割标签紧密对齐。这不仅在输入图像中证明了模型有效识别关键特征的能力,而且还展示了其特征定位的准确性。

picture.image

Ablation Study

在作者的提出的Perspective+ Unet架构中,作者对所增加的模块:BPRB、SCSI和ENLTB进行了深入的消融研究,以评估它们对模型性能的影响。表4的数据显示,仅加入BPRB模块会略微降低DSC(-0.68%),但显著提高了精确度,将HD降低了1.93毫米。进一步将SCSI模块与BPRB结合使用,提高了DSC(0.56%),并将HD降低了0.76毫米,证明了SCSI模块在提高重建准确性和精确度方面的作用。使用所有三个模块达到了最优效果,DSC为84.63%,HD为11.74毫米,突显了每个模块在提高模型性能方面的关键贡献。

picture.image

4 结论

总之,Perspective+ Unet以其创新的方法在增强3D医学图像分割中的空间感知能力而著称。

作者设计了一个双通道策略,将传统卷积和扩张卷积与新颖的 Transformer 块和空间跨尺度集成器相结合。

这种架构确保了在不同阶段全面整合图像特征,并有效地处理全局结构和细粒度部分,显著增强了感受野。

作者的实验结果表明,Perspective+ Unet在ACDC和Synapse数据集上展现出良好的分割准确性,突显了其在医学分析中的巨大潜力。

参考

[1].Perspective+.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动云原生降本增效实践
本次分享主要介绍字节跳动如何利用云原生技术不断提升资源利用效率,降低基础设施成本;并重点分享字节跳动云原生团队在构建超大规模云原生系统过程中遇到的问题和相关解决方案,以及过程中回馈社区和客户的一系列开源项目和产品。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论