点击下方卡片,关注 「AI视界引擎」 公众号
由于医学图像的稀缺性和特定成像特性,轻量级视觉 Transformer (ViTs)对于有效医疗图像分割是一个重大的挑战,目前的研究尚未关注这个问题。
本文重新审视了卷积神经网络(CNNs)和 Transformer 在轻量级通用网络中的关系,旨在在基础设施设计层面整合两者的优势。为了利用CNNs中固有的归纳偏差,作者抽象出一个类似于轻量级CNNs块(ConvUr)的Transformer-like轻量级CNNs块(ConvUr),为Transformer提供去噪、非冗余且高度压缩的语义信息。
此外,作者还引入了一个自适应的局部-全局-局部(LGL)块,以促进有效的地方到全局信息流的交换,最大限度地提取Transformer的全局上下文信息提取能力。最后,作者构建了一个高效的医学图像分割模型(MobileUtr),基于CNN和Transformer。
在五个公共医学图像数据集(包括3种不同的模态)上的大量实验表明,MobileUtr优于最先进的方法,具有较轻的权重和较低的计算成本。
1 Introduction
医学图像分割是计算机辅助医学诊断中的一个关键且具有挑战性的任务。通过为医生提供感兴趣区域的客观和精确参考,设计良好的医学图像分割方法可以显著提高临床诊断的准确性。然而,这些性能提升是以模型尺寸增加和推理延迟增加为代价的。在实际医疗应用中,例如实时检测和分割,对资源受限的移动设备上进行视觉识别任务的及时执行有需求。在医学影像领域,由于成像原理的局限性和其特定特性,U-Net 已成为首选。这种结构和其变体在各种医学图像(包括超声、CT、皮肤病理学 等)中取得了巨大的成功。
随着医学领域对存储/计算受限应用的需求日益增加,具有较少参数和较低浮点运算(FLOPs)的移动模型引起了研究人员 的广泛关注。在有效模型设计中,卷积神经网络(CNN)是一种廉价实现轻量级 Backbone 网络的方法,因为其具有高推理效率和强归纳偏差,在医学分割领域取得了巨大的进步。然而,由于CNN的局部限制,纯CNN模型在分割性能上实现进一步突破是不可能的。
与基于CNN的方法相比, Transformer (Transformers)具有性能上限,不仅展示了提取全局上下文信息的强大能力,而且在预在大规模数据集上进行预训练时,还表现出将下游任务迁移到新的表示能力方面的显著迁移能力 。在计算机视觉领域,这种概念已经演变为了视觉 Transformer (ViT) 。基于这种架构的许多研究都实现了相对于CNN的显著改进。
为了提高其性能,ViT网络通常具有计算密集的自我注意力,这消耗了大量的计算资源,无法满足实时分割的需求。因此,一个关键的问题出现了:_如何有效地结合CNN固有的计算效率与ViT所展示的优越表示能力?_
为了回答这个问题,研究人员探索了CNN和 Transformer 模型的融合。这种混合架构可以结合CNN的归纳偏差和ViT提取全局上下文信息的能力,以在医学图像上实现更好的性能。值得注意的是,TransUnet和TransBTS在编码器部分保留了CNN结构,同时将ViT组件集成到底部,在一般医学分割任务上取得了显著的成功。然而,这些方法吸收了 Transformer 的性能优势,但并未消除其计算上的缺点。它们仍然严重依赖大量的计算资源,因此在实际临床环境中部署起来不适合。
为了保留ViT的高性能和CNN的高计算效率,作者注意到有几个方面需要仔细考虑:
- 医学图像中的语义噪声、低分辨率以及语义边界之间的模糊性使得 Transformer 难以学习医学图像块之间的长程表示。不可避免地,短程关系进一步受到损害,使学习变得更加困难;
- CNN固有的归纳偏差使其能够有效地使用相对较少的参数从稀缺的医学数据中学习表示,而ViT不具备这种能力。CNN可以将输入从像素级空间转换为ViT可以理解的潜在语义空间,这需要较少的计算就能实现。
基于以上的动机,作者重新审视了医学图像分割网络中CNN和 Transformer 之间的关系,致力于在基础设施设计层面整合两者的优势。为了充分利用CNN的归纳偏差,作者试图将 Transformer 的整个设计思想引入CNN。虽然观察到逐点卷积和反转瓶颈卷积在 Transformer 中的MHSA和FFN结构上具有相似的结构相似性,但作者归纳抽象出一个具有 Transformer 样式的CNN模块(见第3.2节),以提供易于学习的嵌入。
此外,为了实现由CNN提取的局部特征和由 Transformer 提取的全局特征之间的平滑过渡,作者在CNN和 Transformer 之间引入了一个自适应轻量级局部-全局-局部(LGL)模块,以实现局部和全局信息流的交换。最后,作者精心分析和构建了一个U形网络用于医学图像分割,并将其称为新颖的ViT-based轻量级网络MobileUtr。据作者所知,MobileUtr是第一个、最轻量级和最有效的通用医学分割网络(如在图1中,比重的轻量级TransUnet高1%,比轻量级UNeXt高6%)。
本文的贡献如下:
- 提出了一种类似于 Transformer 的CNN模块(ConvUtr)作为Transformer的块嵌入。ConvUtr有效地将医学图像从像素空间压缩到潜在空间,同时为Transformer提供易于理解的语义编码。
- 改进了自适应的局部-全局-局部(LGL)转换作为CNN和Transformer之间的 Adapter ,以实现局部和全局信息流的更有效交换,从而增强Transformer有效地捕获全局上下文信息的能力。
- 在三个模态(包括5个不同的公共医学数据集)上验证了作者的网络。通过全面的实验结果,结果表明作者的MobileUtr可以在最近的最新状态(SOTA)方法上获得优越性能。
2 RelatedWork
Light-weight networks
在早期的有效模型设计中,基于CNN的轻量级模型取得了巨大的进步。值得注意的是,MobileNetV2提出了一种基于深度卷积和反转瓶颈设计的有效网络,被认为是高效网络的核心设计思想。此外,UNeXt和EGE-Unet丰富了医学视觉领域的选择。
近年来,研究人员致力于将ViTs引入自然视觉任务。在MobileViT中,将MobileNet与ViT结构相结合,在各种自然视觉任务上取得了显著的成功。然后,EdgeViT提出了局部-全局-局部(LGL)瓶颈,以减少网络参数大小。此外,RepViT和EMO最近进一步提高了将 Transformer 设计引入CNN的性能,同时保持轻量级。
Hybrid architecture of CNN and Transformer
由于 Transformer 需要大量的参数来获得有效的归纳偏差能力,因此许多轻量级ViT网络通常与CNN相结合在自然视觉任务中。在医学领域,ViT网络的应用由于医学图像的稀缺性和限制而带来了巨大的困难。最近,研究人员将CNN与ViT相结合并试图弥补这一缺点。
其中,Transfuse 采用并行风格将CNN和Transformer结合。TransUnet 保留CNN在编码器顶部部分,而将ViT放在底部。Swin-Unet 将Swin Transformer 集成到U形结构中。然而,上述大多数方法针对单一模态,通过大量参数获得巨大的分割性能。到目前为止,很少有工作能够保持CNN和Transformer混合架构的性能,同时减少模型参数和计算量,以适应移动设备的资源限制。
3 Method
构建一种轻量级有效的CNN-Transformer融合网络需要仔细考虑两个关键方面:
- 在网络中实现CNN和Transformer的比例平衡。
- 考虑到CNN和Transformer的独特的语义特征需求,每个层都需要进行语义特征转换,以促进平滑过渡。
为了解决这些问题,作者开发了MobileUtr,这是一种轻量级且移动友好的通用医学分割模型,它结合了CNN和ViT。
Overview of Network Architecture
所提出的MobileUtr的整体架构如图2所示。MobileUtr采用u形架构。编码器包括ConvUr作为块嵌入,自适应LGL瓶颈和Transformer瓶颈。解码器包括渐进堆叠上采样块和卷积块用于跳过连接。
编码器MobileUtr和MobileUtr-L的具体设置(包括块的长度、核大小和通道数)现在在表1中呈现。接下来的部分将详细概述MobileUtr。
Encoder
ConvUtr作为块嵌入: 当前方法使用重的CNN来提取医学语义块以提高性能,但是提供的语义块是冗余的,需要重的Transformer结构来匹配和学习全局表示。因此,关键挑战在于设计一种轻量级Transformer,特别强调设计基于CNN的轻量级块嵌入。这可以为Transformer提供去噪、非冗余、高度压缩的语义块,并释放Transformer对大型参数要求带来的压力。
为了实现上述目标,作者采用CNN模拟 Transformer 的行为。给定一个图像,作者试图使用提出的ConvUtr块为ViT架构获取嵌入。
ConvUtr块的定义如下:
在这里,表示ConvUtr块中第层的输出特征图,和是中间变量,表示GELU激活函数,表示批量归一化。两个点积卷积之间的隐维数是输入维数的四倍。
为了在保持性能的同时实现轻量化网络,ConvUtr块采用深度可分卷积来模拟ViTs中的块嵌入。这种组合保持了与 Transformer 相似的设计结构和哲学,涉及在空间和通道维度分别混合信息。具体来说,在ConvUtr块内部,深度可分卷积(即,组数等于通道数)可以提取空间维度信息,以代替多头自注意力(MHSA)。
然后,作者使用两个反转瓶颈点积卷积(称为FFN)来充分结合空间和通道信息。最后,作者应用卷积操作来扩展ConvUtr的输出特征通道。作者设置了三个ConvUtr块来获得丰富的表示语义块嵌入。每个块的长度(, , )、核大小(K1, K2, K3)和通道(C1, C2, C3)如表1所示。
在网络层之间的转换上下文中,下采样方法的选择非常重要。考虑到医学图像的典型特征,它们经常具有低分辨率和模糊的边缘,传统的池化操作在减少噪声的同时不会增加额外的计算开销。因此,作者选择最大池化进行下采样,使用窗口大小为,步长为2。
自适应局部-全局-局部(LGL)瓶颈: 在通过块嵌入后,作者得到一个8倍下采样的特征图。在设计用于医学图像的ViT瓶颈时,存在一个主要问题:_当将CNN与ViT结合时,作者如何确保两个不同结构之间的信息交换和转换?_
如图3(a)-(b)所示,与Transformer相比,LGL瓶颈给出了一个合理的三操作结构:局部聚合()、全局稀疏关注()和局部传播()。然而,LGL瓶颈在感受野方面仍存在一些缺点。
LGL瓶颈中的行为类似于传统的二维窗口信号卷积,这在公式4中可以看到。
其中,信号,时间,频率,窗口时间偏移。关键的是窗口大小,它类似于卷积的核大小()。如果作者能适当地控制每个变换的范围,在一定程度上可以缓解变换过程中信息损失的问题。因此,为了解决这个问题,作者提前计算卷积核的大小作为先验。作者称之为自适应LGL,它可以在分割中覆盖更大的感受野,实现更高效的信息交换(使图3(c)中的红色区域更适应前景和背景的语义)。
在到达ViT层之前,输入经历了一系列在n层上的下采样操作。这意味着在ViT层上,每个像素的感知野为。核大小K可以计算为:
在这个背景下,表示数据集中分割区域的平均直径。作者在局部聚合模块内部调整了各种聚合 Scale ,以探索最佳的分割感受野。这种微调,结合,确保了ViT模块内部的信息交换,最大化其利用率,并使CNN层中提取的信息能够有效地进行长程通信。
最后,如图3(a)所示,作者在编码器中使用Transformer瓶颈作为最终层来获得全局上下文。LGL和Transformer瓶颈的长度(, )、核大小(, )和通道(, )如表1所示。
Decoder with Skip-connection
跳接连接策略: 在跳接连接阶段,实现全局和局部语义特征的适当融合有望提高分割性能。然而,在结合CNN和Transformer的混合架构中,由CNN提取的低级特征通常受到噪声干扰,与Transformer的高层特征相比,语义差异显著。如果将低级特征直接与解码器连接,这些差异将阻碍分割性能的整体改进。
为了缓解解码器方面的问题,作者利用下采样操作对跳接连接中每个级别的编码特征进行处理。这种操作不仅消除了额外的噪声干扰,还确保了在跳接连接过程中适当的感受野,从而简化了全局和局部信息的对齐。此外,为了实现全面特征融合,作者采用两个卷积操作(核大小为3,步长为1,填充为1)并在每个卷积后应用ReLU激活函数和批量归一化层。
渐进堆叠上采样: 如图2所示,为了有效地区分和捕捉医学图像语义信息的细微差异,作者采用一种渐进堆叠上采样方法。这种方法包括多个阶段,每个阶段都包括一个2倍上采样层、一个卷积层、一个批量归一化层和一个ReLU激活函数。在 upsampling 过程中,作者使用双线性插值,这有助于在 upsampling 操作期间保留更精细的细节。在每个阶段的卷积层中,作者使用核大小为3x3,步长为1,填充为1来捕捉空间依赖关系并增强特征表示。
4 Experiment
Experiment Setting
数据集: 作者选择五个公共数据集来评估作者的网络以及其他最先进的网络。本研究中使用的主要模态包括CT(Synapse有30个案例)、超声(BUS有562张图像,BUSI有647张图像,TNSCUI有4554张图像)和皮肤病理学图像(ISIC 2018有2594张图像)。作者使用在四个医学图像数据集(BUS、BUSI、TNSCUI、ISIC2018)上的70/30比例进行训练和验证三次。此外,作者将Synapse数据集随机分为18个案例用于训练(2212个轴向切片)和12个案例用于验证。
评估指标和比较方法: 在本研究中,作者主要使用广泛使用的评估指标,包括IoU和F1分数用于BUS、BUSI、TNSCUI和ISIC 2018数据集;Hausdorff距离(HD95)、Dice和mIoU用于Synapse数据集。
为了评估医学图像分割的性能,作者选择了12个流行的医学分割模型,包括重的医学图像网络:U-Net,CMU-Net,nnUNet TransUnet,Swin-Unet;轻量级自然图像网络:MobileViT,EdgeViT,RepViT,EMO;轻量级医学图像模型:MedT,UNeXt,EGE-Unet。
实现细节: 预测值与真实值之间的损失定义为二进制交叉熵(BCE)和Dice损失(Dice)的组合。作者将五个数据集的所有训练案例重置为256256,并对其进行随机旋转和翻转以进行简单的数据增强。此外,作者使用具有权重衰减1e-4和动量0.9的SGD优化器来训练网络。初始学习率设置为0.01,使用多项式策略调整学习率。批处理大小设置为8,训练周期为300。所有实验均在单个NVIDIA GeForce RTX4090 GPU上进行。
Analysis of Experimental Results on Images
4.2.1 Experiments on Ultrasound Images
在图5中,作者展示了各种算法性能的示例结果。直观的视觉效果清楚地表明,作者提出的MobileUtr在视觉质量方面超过了其他最先进算法。为了确保可靠的评估,接下来的部分将提供定量结果的深入分析。
在超声图像分割任务(BUS、BUSI、TNSCUI数据集)中,作者将提出的MobileUtr与表2中提到的最先进方法进行了比较。实验结果表明,MobileUtr在准确率和计算成本之间取得了更好的平衡,实现了最佳性能。
具体来说,在BUS和BUSI数据集中,nnUNet实现了最高的IoU和F1分数。然而,作者的网络在保持显著较小的模型大小(1.39 M vs 26.10 M)的同时,实现了可比的性能(与nnUNet相当)。计算效率也有所提高(2.51 GFLOPs vs 12.67 GFLOPs)。尽管nnUNet的性能很高,但一旦扩大网络维度,MobileUtr-L在IoU得分87.63和73.91(比nnUNet高0.1%和1.8%)以及最小参数的情况下实现了最佳性能。
此外,轻量级CNNs(如UNeXt和EGE-Unet)并未获得令人满意的结果。虽然它们的参数和计算需求显著降低,但相应的性能也下降了。这种现象也出现在ViT网络中。当作者使用像MobileViT、EdgeViT、RepViT和EMO这样的网络时,它们的有效性受到限制,因为这些网络最初是针对自然图像的特定任务设计的。将其应用于医学图像时,其性能远低于MobileUtr。另一方面,将CNN和ViT相结合的网络(如TransUnet(105.32M参数,112.95 FPS,38.52 GFLOPs)和Swin-Unet(27.14M参数,392.21 FPS,5.91 GFLOPs))在性能和计算负担之间实现了一定的成功,但必然面临性能和计算负担的权衡。
然而,由于编码器的特殊设计,作者的MobileUtr在保持近最小轻量级模型的同时,实现了几乎最佳的性能。在MobileUtr-L的情况下,它超过了其他模型。这表明作者的编码器块嵌入和将CNN与Transformer结合策略的有效性和正确性。此外,MobileUtr作为在医学领域实现 Transformer 轻量化的第一个成功模型,设立了新的基准。
4.2.2 Experiments on Dermoscopy Images
在皮肤病理学实验中,作者关注的是在自然光照条件下进行皮肤癌分割的挑战性任务。如表2所示,MobileUtr和MobileUtr-L在皮肤癌分割方面表现出最高的准确性。特别是,EGE-Unet在参数数量和计算负担上都有显著减少,但准确性并未显著降低。这是因为皮肤病理学数据集包含许多细节,如纹理、对比和清晰边缘。此外,训练和测试数据之间的相似度分布极大地简化了网络训练,使所有网络都能很好地适应。
值得强调的是,nnUNet和TransUnet在超声图像数据集(BUS、BUSI、TNSCUI)以及皮肤病理学数据集(ISIC 2018)上都实现了最佳性能。这要归因于它们作为像作者的MobileUtr这样的通用医学分割网络的本质。确实,大多数医学分割任务,如超声图像和计算机断层扫描(CT)图像,都涉及弱目标分割。如表2所示,其余轻量级模型在性能上出现了显著下降,表明它们在轻量级设计方面的尝试是失败的。一个真正实用的轻量级模型应该在大多数任务上都能有效,这就是本文提出的网络的价值所在。
4.2.3 Experiments on Computed Tomography Images
在作者全面的评估中,作者还包括CT图像,这是医学分割任务中常见且重要的图像类型。值得注意的是,CT图像本质上是存在于3D空间的,因此可以应用3D和2D分割方法。对于这次评估,作者选择2D切片分割方法,该方法涉及独立地分割CT体积中的单个切片。
实验结果总结在表3中。值得注意的是,除了TransUnet之外,轻量级基于 Transformer 的网络和轻量级CNNs-based网络在性能上都有显著的下降。例如,与MobileUtr相比,如MedT、EdgeViT和MobileViT等模型性能下降了20%。同样,CNNs网络也表现出大约10%的性能下降。
这些发现强调了作者的轻量级网络MobileUtr在CT多器官分割任务中的优越性能。与其他模型不同,MobileUtr保持了高性能(mIoU为69.09%,Dice为79.90%)。此外,如图6所示,作者的网络在CT图像中的各个器官上实现了平衡和清晰的分割。考虑到其紧凑的尺寸和高帧率,这进一步突显了作者的网络在边缘设备上的适用性,确保了实时应用中高效的医学图像分割。
Ablation Study
对每个模块的消融研究: 为了全面评估作者提出的MobileUtr,作者在Synapse数据集上进行了广泛的消融实验,以评估每个模块的贡献。消融研究结果如表4所示。
最初,作者使用ResNet34的前三层(块嵌入)和纯ViT作为编码器,省略跳接连接,得到mIoU为63.76。接下来,作者用LGL瓶颈替换纯ViT,计算成本降低。然后,作者用ConvUtr块替换块嵌入,同时确保计算成本最小化。这个修改导致模型参数减少到1.32 M,GFLOPs减少34倍,推理时间提高3倍,但分割性能只略有降低。这表明ConvUtr块成功地为Transformer提供合适的编码信息,同时有效降低了计算成本。然后,作者用自适应LGL瓶颈替换LGL瓶颈。作者观察到mIoU提高了1%,表明自适应LGL可以在医学领域实现更好的局部和全局信息流交换。
此外,作者从上到下逐步引入额外的跳接连接。值得注意的是,随着跳接连接数量的增加,网络的分割性能持续提高,同时保持低的计算成本。这一观察突出了跳接连接在向网络提供局部详细信息方面的有效性,从而增强了其知识传递能力。当使用三个跳接连接时,网络实现了68.17%的最高分割性能。
这些消融实验说明了MobileUtr中每个模块的重要性,并阐明了它们各自的贡献。研究结果表明,ConvUtr块可以实现高效的编码,而跳接连接则有助于将局部细节集成,最终提高网络的分割性能。
跳接连接和自适应LGL瓶颈: 作者进一步研究了跳接连接和自适应LGL瓶颈对MobileUtr的影响。结果总结在表5中。
首先,作者将MobileUtr编码器第四层设置为全局注意力,这意味着第四和第五层都由Transformer块组成。接下来,作者将水平跳接连接替换为下采样跳接连接,作者发现MobileUtr的分割性能得到提高,计算成本降低。这些消融结果进一步强调了提高分割性能需要全局和局部语义对齐。最后,作者将自适应LGL瓶颈替换为编码器第四层,分割性能进一步提高,参数数量和FPS进一步减少。这表明自适应LGL瓶颈在提取最终全局信息方面发挥着重要作用。
下采样: 最后,作者研究了不同下采样技术对医学图像特征提取的影响。作者将所有下采样操作替换为卷积下采样(核大小为2x2,步长为2x2),并将消融结果呈现在表6中。
作者发现,用卷积下采样替换后,分割性能降低。这进一步证明了在稀疏和噪声医学图像的特征提取中,max池化起着重要作用。值得注意的是,作者仍然认为卷积下采样是解决CNN中的翻译不变性问题的重要措施。然而,医学图像通常具有低分辨率和小局部边缘变化。与使用卷积进行下采样相比,传统的池化操作在保持最小计算开销的同时,有效地过滤出医学图像中的噪声。
5 Conclusion
这篇论文介绍了一种创新性的医学通用视觉 Transformer (ViT)网络,名为MobileUtr。MobileUtr是一种突破性的超轻量级网络,它结合了CNN和ViTs的优势。它在保持低计算复杂度、低参数数量和高实时帧率的同时,在一般的医学分割任务中保持了或甚至提高了准确性。
MobileUtr的关键贡献在于其创新的融合概念。这种方法使作者能够同时解决实现轻量级ViTs和保持性能的挑战。与当前最先进的通用医学分割网络TransUnet相比,MobileUtr在计算复杂度和参数数量上分别降低了10倍。此外,MobileUtr展示了与针对特定任务的最先进算法相媲美的泛化能力。
总的来说,MobileUtr是ViTs网络轻量级实现的首次成功突破。它达到了最先进的水平,使它成为医学图像分割任务的非常具有前景和影响力的解决方案。
6 Description of Dataset
每个数据集的描述如下:
Synapse数据集。Synapse多器官CT分割数据集1,用于多器官CT分割,来自MICCAI 2015多器官腹部标签挑战。它包括30个案例(3779个轴向图像)的8个器官的腹部CT扫描。每个CT体积包含512512像素,空间分辨率为 mm3的85~198个切片。
BUS数据集。BUS(Breast UltraSound)数据集2包含使用五种不同超声设备收集的562个乳腺超声图像,包括306个良性案例和256个恶性案例,每个案例都有对应的ground truth。
BUSI数据集。BUSI(Breast UltraSound Images)数据集3收集自600名女性患者,包括780张乳腺超声图像,涵盖133个正常案例、487个良性案例和210个恶性案例,每个案例都有对应的ground truth。根据最近的研究[24, 26],作者只使用这个数据集中的良性案例和恶性案例。
TNSCUI数据集。TNSCUI(Thyroid Nodule Segmentation and Classification in Ultrasound Images 2020)数据集4是由中国人工智能联盟甲状腺和乳腺超声(CAAU)收集的。它包括不同年龄和性别的3644个案例,每个案例都有对应的ground truth。
ISIC 2018数据集。ISIC 2018(International Skin Imaging Collaboration 2018)数据集5包含2594个皮肤病变分割图像,每个图像都有对应的ground truth。
7 Implement Details
在中,作者使用核大小为9的卷积来达到局部信息聚合。此外,在中,作者使用核大小为2的转置卷积来传播全局上下文信息。
预测的和真实值之间的损失定义为二进制交叉熵(BCE)和Dice损失(Dice)的组合。
8 Segmentation performance with different variants of other method
表8和表9展示了作者提出的MobileUtr与其他轻量级模型变体的性能比较。
可以看出,作者提出的MobileUtr方法取得了最佳性能。此外,EMO在其他方法中表现相对出色,突显了反转瓶颈设计在增强分割任务表示方面的关键作用。反转瓶颈也是作者ConvUtr块设计的一个焦点。
此外,一种简单的方法是使用EMO瓶颈(iRMB)替换LGL瓶颈,基于表7中的性能。然而,如表7所示,用EMO替换LGL,导致性能显著下降。这表明LGL可以在CNN和Transformer之间发挥过渡作用,而EMO无法实现。此外,当作者引入自适应LGL时,性能进一步提高,表明自适应LGL可以进一步增强全局和局部信息流的交换。
参考
[1]. MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation.
点击上方卡片,关注 「AI视界引擎」 公众号