Mobile U-ViT逆袭nnUNet | 1.39M参数、51 FPS轻量级医学分割新王者,零样本SOTA

机器学习算法图像处理

picture.image

精简阅读版本

本文主要解决了什么问题

    1. 现有移动模型主要针对自然图像优化,由于自然域和医学域之间存在显著的信息密度差距,这些模型在医学任务上表现不佳。
    1. 在开发轻量级、通用且高性能的网络时,如何结合计算效率与医学成像特有的架构优势仍然是一个挑战。
    1. 医学图像与自然图像之间存在根本的信息密度差距:Sparse局部信息(医学图像在相同空间窗口内包含较少信息内容,相邻区域间高度相似)和边界模糊及高噪声水平(医学图像通常呈现不清晰的病灶边缘,目标结构与周围组织间低对比度,加上复杂解剖背景和成像伪影)。

本文的核心创新是什么

    1. 提出了移动U形视觉Transformer(Mobile U-ViT),专门用于医学图像分割的移动模型。
    1. 采用新提出的ConvUtr作为分层块嵌入,其特点是参数高效的、具有倒置Bottleneck融合的大核CNN,既具备类似Transformer的表征学习能力,又更为轻量且快速。
    1. 引入了一种新型的大核局部-全局-局部(LGL)模块,有效平衡医学图像的低信息密度和High-Level语义差异,通过局部特征聚合、全局上下文交换和局部信息重新分配的结构化信息流来减少语义模糊性。
    1. 采用浅层轻量级Transformer Bottleneck进行长距离建模,并使用级联解码器和下采样Shortcut进行密集预测,有效对齐局部和全局特征。

结果相较于以前的方法有哪些提升

    1. 在涵盖多种成像模式的八个公开2D和3D数据集上实现了最先进的性能,包括在四个未见数据集上的零样本测试。
    1. 在超声(BUS、BUSI、TNSCUI)、皮肤镜(ISIC)和息肉镜(Kvasir)图像上,在保持显著更小的模型尺寸(1.39M vs. 26.10M)和提升计算效率(2.51 GFLOPs vs. 12.67 GFLOPs)的同时,取得了优于竞争性nnUNet的结果。
    1. 在切片级(Synapse)评估中,实现了最佳分割精度(Dice系数为79.90%),同时以极小的误差识别结构和边界。
    1. 在体积级(BTCV和KiTS'23)数据集上,3D Mobile U-ViT-L在SegMamba之上表现更优,平均Dice指标提升了0.65% - 7.468%,而其计算成本显著降低(11.06M vs. 65.18M)。
    1. 在NVIDIA Jetson Nano上的评估显示,在多个数据集上实现了SOTA性能,实际帧率分别为51.22 FPS(Mobile U-ViT)和19.52 FPS(Mobile U-ViT-L),满足临床部署需求。

局限性总结

    1. 虽然模型在多个数据集上表现良好,但在某些特定情况下(如最大的TNSCUI数据集上)只能提供具有竞争力的准确率,而非最佳。
    1. 在3D数据集上的表现虽然优于一些方法,但在某些指标(如HD95和ASD)上只能达到具有竞争力的精度,而非全面领先。
    1. 论文未对模型在更极端资源受限环境下的性能进行充分验证,实际部署中可能面临额外挑战。
    1. 虽然模型设计考虑了医学图像的特性,但对不同类型医学成像模态的适应性可能还需要进一步优化。
深入阅读版本

导读

在临床实践中,医学图像分析通常需要在资源受限的移动设备上高效执行。然而,现有的移动模型主要针对自然图像进行优化,由于自然域和医学域之间存在显著的信息密度差距,这些模型在医学任务上的表现往往不佳。在开发轻量级、通用且高性能的网络时,如何结合计算效率与医学成像特有的架构优势仍然是一个挑战。为此,作者提出了一种名为移动U形视觉Transformer(Mobile U-ViT)的移动模型,专门用于医学图像分割。具体而言,作者采用新提出的ConvUtr作为分层块嵌入,其特点是参数高效的、具有倒置 Bottleneck 融合的大核CNN,这种设计既具备类似Transformer的表征学习能力,又更为轻量且快速。为了实现高效的局部-全局信息交换,作者引入了一种新型的大核局部-全局-局部(LGL)模块,有效平衡医学图像的低信息密度和High-Level语义差异。最后,作者采用浅层轻量级Transformer Bottleneck 进行长距离建模,并使用级联解码器和下采样 Shortcut 进行密集预测。尽管计算需求有所降低,作者的医学优化架构在涵盖多种成像模式的八个公开2D和3D数据集上实现了最先进的性能,包括在四个未见数据集上的零样本测试。这些结果证明,该模型是移动医学图像分析领域一种高效、强大且泛化能力强的解决方案。

代码 https://github.com/FengheTan9/Mobile-U-ViT

1 引言

医学图像分割是一项关键且具有挑战性的任务,它能够通过为医生提供客观精确的兴趣区域参考,显著提高诊断效率[49]。然而,这种性能的提升往往伴随着模型尺寸的增加和推理延迟的增大[30, 49]。在现实世界的临床应用中,例如即时成像干预[39]和实时诊断[28, 30, 38, 46],在资源受限的移动设备上实现及时执行至关重要。为了应对上述效率挑战,参数更少、FLOPs更低的移动模型已引起研究行人的广泛关注[13, 21, 29, 47]。在高效模型设计中,卷积神经网络(CNN)由于其高推理效率和强大的归纳偏置,为实现轻量级 Backbone 网络提供了一种经济高效的方法,这已推动轻量级医学图像分割取得显著进展[4, 28, 30, 38]。然而,由于在捕获全局上下文方面存在固有局限性,纯CNN模型难以在分割性能上实现进一步突破[19, 31, 32, 34]。

近期,在自然图像上训练的移动混合架构利用了CNN的归纳偏置[26]和ViT的全局上下文学习能力[8, 24, 35, 44],展现出突破性能 Bottleneck 的巨大潜力[2, 21, 23]。然而,它们在医学视觉任务上的表现仍然有限。这主要是因为医学图像与自然图像之间存在根本的信息密度差距:(i)Sparse局部信息。医学图像在相同的空间窗口内通常包含较少的信息内容,且相邻区域之间具有较高的相似性(如图1(a)所示)。这种显著特征的Sparse分布使得标准的小核卷积难以捕捉到有意义的模式,因此需要更大的感受野来聚合足够的上下文信息。(ii)边界模糊和高噪声水平。与具有清晰目标边界的自然图像不同,医学图像通常呈现不清晰的病灶边缘,以及目标结构与周围组织之间的低对比度。此外,复杂的解剖背景和成像伪影的存在进一步增加了模糊性(图1(a,d))。这些特征要求模型能够在利用全局上下文线索的同时,既能强调微妙的局部细节,又能抑制噪声,从而准确区分视觉相似的区域。作者发现,为自然图像任务设计的深度移动网络往往未能考虑到上述两个挑战[2, 21, 23]。这一领域差距显著阻碍了这些模型在医学图像分析中的性能。

picture.image

在本文中,作者旨在通过设计一个更高效且适用于医学图像分割的移动网络来弥补这一差距:针对问题(i),为了在扩大感受野和保持计算效率之间取得平衡,作者提出了一种基于深度可分离卷积(DSConv)[13]的Transformer模式大型卷积块(ConvUtr)作为图像块嵌入。ConvUtr块由大型 Kernel 深度卷积提取全局特征,随后通过倒置的双点卷积促进通道交互。这种设计呼应了Transformer[40]的建模模式(如图1(d)所示)。值得注意的是,与基础ViT相比,ConvUtr显著减少了参数数量,使其成为移动应用的更轻量化和更快速的替代方案。针对问题(ii),作者集成了大型 Kernel 局部-全局-局部(LKLGL)模块。该组件旨在通过促进结构化信息流来减少语义模糊性并增强局部和全局特征的融合:它首先执行局部特征聚合(红色),然后高效地实现全局上下文交换(蓝色),最后在局部重新分配精细信息(绿色),如图1(d)所示。LKLGL模块中包含的 Token 聚合操作减少了 Token 数量,从而实现更高效的远距离计算。此外,作者构建了一个轻量级级联解码器,具有下采样 Shortcut ,能够实现高效快速的解码,同时促进对细粒度局部细节和High-Level全局语义的精确对齐和密集预测。

通过大量实验验证,作者提出的医学优化架构在八个来自不同成像模态的公开2D和3D数据集上展现出最先进的性能。其零样本泛化能力也得到了验证,进一步证明了其有效性。由于资源需求显著降低且性能优越,Mobile U-ViT成为移动医疗图像分析领域兼具高效与强大的解决方案。

综上所述,作者提出了一种新颖且高效混合轻量级网络Mobile U-ViT,用于解决移动医疗成像的挑战。

移动端U-ViT通过三个关键部分实现了SOTA结果:

  • • ConvUtr:一种轻量级、受Transformer启发的CNN Backbone 网络,能够高效地将Sparse像素空间中的医学图像压缩为紧凑的潜在表示;
  • • 大核局部全局局部(LKLGL)模块——设计用于实现局部和全局信息流之间的高效交互,以进行鲁棒的特征细化;
  • • 带有下采样 Shortcut 的级联解码器,旨在有效对齐局部和全局特征,从而促进精确高效的密集预测。

2 方法

Mobile U-ViT的整体架构如图2所示。遵循先前工作[5, 21, 33],作者采用混合分割模型。编码器(第2.1节)将基于CNN的ConvUtr与Large-Kernel Local-Global-Local(LKLGL)模块集成,为Transformer层生成嵌入,而解码器(第2.2节)采用通过下采样 Shortcut 增强的级联上采样结构,以实现高效的分割预测。

picture.image

2.1 高效混合编码器

2.1.1 ConvUtr

深度可分离卷积(DSConv)在轻量级卷积神经网络中被广泛应用,但其设计——主要针对自然图像进行优化——在医学图像任务中存在局限性。医学图像中病灶和器官的位置和形状往往存在显著变化,而DSConv由于固有的感受野限制难以捕捉这些变化。因此,在不增加模型尺寸的情况下,平衡模型效率与表征能力至关重要。作者设计了一种医学定制化的轻量级组件,在保持计算效率的同时增强了语义表征能力。

为了在不牺牲性能的前提下实现轻量级的 Patch 嵌入,作者的ConvUtr模块包含一个大型核DepthwiseConv(),以及两个反向的PointwiseConv(-)来模拟ViT中的学习机制,从而在卷积框架内实现高效的远程依赖建模。给定图像

,作者尝试使用由ConvUtr模块组成的编码器输出用于LKLGL模块的嵌入

(详见第2.1.2节)。ConvUtr模块的定义如下:

其中

表示 ConvUtr 块中第

层的输出特征图,

是大核,

是中间变量,

表示 GELU 函数 [12],

表示批量归一化。该模块通过多次堆叠以实现分层建模。详细的配置,包括堆叠次数

、核大小 (K1, K2, K3) 以及每个模块的通道数 (C1, C2, C3),如表1 所示。

picture.image

值得注意的是,作者在每个模块的末端使用最大池化进行下采样。该操作有效地减少了背景噪声,有助于锐化定义不佳的边界,从而在考虑医学图像特征的情况下有利于分割。

2.1.2 大核局部全局局部(LKLGL)块

为减少语义歧义并强化局部与全局表示的融合,作者引入Large-kernel LGL(LKLGL)模块以在Transformer层之前优化信息。受[23]启发,每个LKLGL模块包含四个步骤:1)通过大核DSConv模块捕获丰富的局部信息;2)利用池化操作聚合token以实现高效的远程建模;3)采用注意力机制[40]进行有效的全局信息交换;4)应用转置卷积以在局部层面有效分配信息流。该过程可表述为:

其中

是 ConvUtr 模块的输出,

是 Transformer 的输入。

是比例

的平均池化操作。TransConv(-) 表示转置卷积。作者通过增大感受野来扩展 DSConv() 的核大小

,从而实现丰富的特征聚合。在整个过程中,池化操作将 token 数量减少

倍,进而提升了计算效率。

2.1.3 计算复杂度

ConvUtr。对于传统的卷积层,它接收一个大小为

的输入

,并应用一个卷积核

,生成一个大小为

的输出。传统卷积层的计算复杂度表示为:

。作者的 ConvUtr 作为一种高效且有效的替代方案,旨在提升医学分割性能,但其成本仅为:

,这是深度卷积和两个逐点卷积的总和。

LKLGL. 常规Transformer模型存在显著的计算开销,其复杂度约为

,其中

表示视觉token的数量。LKLGL引入了一种新的token聚合机制,其池化比例为

,能够有效降低计算复杂度至

,同时保留了长距离建模能力。

2.2 带下采样 Shortcut 的级联解码器

2.2.1 解码器结构

参考先前研究[3, 5, 15, 26, 33, 43],作者采用一种基于编码器残差连接的渐进级联解码方法。该方法包含多个阶段,每个阶段由一个上采样层、一个卷积层、一个批量归一化层和一个ReLU激活函数组成。详细的结构描述见附录。

在解码过程中,由于低层CNN特征与高层Transformer输出表示在语义上的差异,将两者对齐是一项挑战。为此,作者引入了不同分辨率下采样 Shortcut ,分别作用于编码器特征和解码器特征。除了语义对齐之外,该设计还能过滤掉编码器特征中的冗余信息(例如背景组织、外部噪声),从而突出分割所需的边界信息。

3 实验

3.1 实验设置

数据集:作者选择了六个公共2D数据集和两个公共3D数据集进行评估,涵盖四种医学图像模态:CT(用于多器官分割的Synapse'和BTCV [17],以及用于肾脏肿瘤分割的KiTS'23 [11])、超声(用于乳腺病变分割的BUS [48]和BUSI [1],以及用于甲状腺病变分割的TNSCUI?)、皮肤镜(ISIC2018 [6])和息肉镜(Kvasir [16])图像。此外,为了验证Mobile-U-ViT的一般化能力,作者在BUs [48]、TUCC3、PH2 [22]和CVC-300 [41]上进行了零样本实验。详细的数据库信息和划分描述可以在附录中找到。

评估指标:遵循[4, 38],作者使用以下指标来衡量计算效率:参数数量(Params)衡量模型的大小;每秒帧数(FPS)表示推理速度;GFLOPs(十亿浮点运算)量化计算复杂度。对于分割评估,遵循[4, 33, 38],作者为BUS、BUSI、TNSCUI和ISIC采用IoU(IoU)和F1分数,而为Synapse采用Dice、Jaccard,为BTCV采用Dice、Hausdorff距离(HD95)和平均表面距离(ASD),遵循[5, 10, 27, 36]。对比方法:作者选择了22种最新的2D和3D医学三类分割模型进行对比:(1)

2D重型医学图像网络,包括U-Net [26]、CMU-Net [33]、nnUNet [15]、TransUnet [5]、Swin-Unet [3]、MissFormer [14]和UCTransNet [43]; (2) 轻型自然图像网络,包括MobileViT [21]、EdgeViT [23]、RepViT [42]、EMO [47]、EfficientViT [2]和UniRepLKNet [7]; (3) 轻型医学图像模型,包括MedT [37]、UNeXt [38]、EGEUnet [28]、ERDUnet [18]和TinyU-Net [4];3D重型医学图像网络:UNETR [10]、Swin UNETR [3]、MedNeXt [27]和SegMamba [45]。

实现细节:ConvUtr的配置参数列于表1中。在LKLGL模块中,DSConv的

设置为9,池化比例为2,转置卷积的卷积核大小为2。优化损失函数

用于预测结果

与真实标签

之间的比较,定义为二元交叉熵

与Dice损失的组合:

。输入图像被调整为

。为了进行公平比较,作者遵循先前2D分割方法(BUs、BUSI和TNSCUI遵循[33, 38],Synapse遵循[5])相同的训练参数设置和数据增强策略。对于3D数据集,数据预处理策略与UNETR[10]相同。所有实验均使用单个NVIDIA GeForce RTX4090 GPU进行。更多细节可参见附录。

3.2 实验结果

3.2.1 不同模态的2D结果

如表11所示,对于超声(BUS、BUSI、TNSCUI)、皮肤镜(ISIC)和息肉镜(Kvasir)图像,作者的网络Mobile U-ViT在保持显著更小的模型尺寸(1.39M vs. 26.10M)和提升计算效率(2.51 GFLOPs vs. 12.67 GFLOPs)的同时,取得了优于竞争性nnUNet的结果。跨超声、皮肤镜和息肉镜成像模式的广泛实验表明,Mobile U-ViT-L实现了最先进的分割性能,IoU得分分别为87.63%(BUS)、73.91%(BUSI)、83.31%(ISIC)和89.07%(Kvasir),分别比nnUNet高0.1%、1.8%、0.01%和3.4%。即使在最大的TNSCUI数据集上,Mobile-U-ViT也能提供具有竞争力的准确率,同时保持更轻量化和更快速。

picture.image

移动端U-ViT的医学针对性设计被证明是有效的。可视化图展示了不同医学成像模态之间显著的领域差距。现有的轻量级CNN在长距离依赖建模方面存在局限性(例如,在BUS中的UNeXt),而混合架构(例如,TransUnet、UCTransNet)在平衡性能和计算效率方面面临挑战。移动端U-ViT解决了领域差距和模型设计问题。其现代轻量级架构在各种模态上实现了最佳性能,移动端U-ViT和移动端U-ViT-L变体的平均IoU为81.67%和82.43%,优于其他近期重和轻量级医学网络。作者可视化了一些示例。

Mobile U-ViT不仅在性能上表现出色,而且在计算效率方面也具有优势。如图3所示,其参数数量明显少于TransUnet和UCTransNet等重型混合医学网络(分别为105.32M和66.24M,而Mobile U-ViT仅为1.39M)。由于GFLOPs的减少,Mobile U-ViT在资源受限的环境中表现出高度效率。此外,其高FPS确保了快速推理,满足多模态成像实时计算机辅助临床诊断的需求。这些特性使Mobile U-ViT成为理想的解决方案,为移动医疗应用提供高性能且计算开销低的方案。

picture.image

3.2.2 切片和 Voxel Level 的CT结果

作者进一步在切片级(Synapse)和体积级(BTCV和KiTS'23)数据集上进行了实验,分别如表3和表4所示。

picture.image

picture.image

表3中的切片级评估显示,与重量级网络相比,当代轻量级网络性能显著下降。作者通过t-SNE分析特征空间,如图5所示。结果揭示,采用通道减少的轻量级网络类别之间存在明显的纠缠现象(例如Tiny U-Net、UNeXt),这表明其学习到的特征表示的判别能力欠佳。相比之下,Mobile U-ViT能够保持类别间的特征判别性。这一点也通过表3中的定量结果和图4中的定性结果得到验证。Mobile U-ViT实现了最佳分割精度(Dice系数为79.90%),同时以极小的误差识别结构和边界。值得注意的是,其紧凑的尺寸和高FPS进一步证实了其在边缘设备上进行实时医学图像分割的适用性。

picture.image

picture.image

如表4所示,作者将Mobile U-ViT扩展到"3D"版本,并在BTCV和KiTS'23数据集上进行了评估。尽管基于Mamba的模型如SegMamba在医学分割领域已引起关注,但作者的

3D Mobile U-ViT-L在SegMamba之上表现更优,平均Dice指标提升了0.65% - 7.468%,而其计算成本显著降低(11.06M vs. 65.18M)。与其他3D网络相比,Mobile U-ViT在保持较低计算开销的同时实现了SOTA性能。各分割目标的实验结果如图1(b)所示。即使在最大的3D数据集KiTS'23上,Mobile-U-ViT在HD95和ASD指标上也能达到具有竞争力的精度,同时保持更轻量化和更快的速度。作者将这一改进归因于作者设计所赋予的强大局部和全局表征能力,这使得Mobile U-ViT能够对不同尺度的器官和肿瘤进行分割。

3.3 分析

3.3.1 泛化分析

为评估Mobile U-ViT在每种模态下训练的领域泛化能力,作者在来自未见过的临床环境的外部数据集上测试了该模型。表5中展示的结果突出了Mobile U-ViT在各种图像模态的零样本分割任务中的鲁棒性优势。Mobile-U-ViT始终优于当代轻量级模型,在IoU上分别实现了最高性能,并显著提升了2.17%和2.81%。考虑到临床场景的多样性,其轻量级设计和鲁棒性进一步增强了其在实际临床环境中的应用价值。

picture.image

3.3.2 编码特征的统计分析

为评估编码特征的有效性,作者通过计算真实分割 Mask 与编码器输出中高亮区域(阈值设为0.4)之间的IoU(IoU)来衡量特征集中度。图6中的结果对模型聚焦于相关前景区域的效果进行了定量评估。在不同数据集上,作者Mobile U-ViT(以红线表示)的特征通常获得最佳的IoU分数,验证了作者提出的编码器设计的有效性。

picture.image

此外,如图7所示,Grad-CAM可视化结果表明作者的Mobile U-ViT能够有效捕捉全局上下文信息和细粒度局部细节。与其他方法相比,作者编码器生成的激活图在保持对物体边界锐利聚焦的同时,对前景区域展现出更广泛的覆盖范围,这证明了模型在语义理解与精确定位之间取得平衡的能力。更多结果可参见附录。

picture.image

3.3.3 在NVIDIA Jetson Nano上的评估

边缘医疗设备通常采用多种处理架构。作者在入门级NVIDIA Jetson Nano(472 GFLOPS)上评估了Mobile-U-ViT,该设备广泛应用于手持超声系统(例如Butterfly iQ/iQ+ Clarius)。医疗诊断应用既需要高精度,也需要实时预览。如表7所示,Mobile-U-ViT在多个数据集上实现了SOTA性能,实际帧率分别为51.22 FPS(Mobile U-ViT)和19.52 FPS(Mobile U-ViT-L),满足临床部署需求。INT8量化进一步提升了内存和计算效率,使Mobile-U-ViT非常适合边缘医疗设备。

picture.image

3.4 消融实验

3.4.1 组件消融研究

如表6所示,作者在第一行将MobileViT设置为 Backbone 网络,并逐步集成作者提出的模块,以评估每个组件的效果。

picture.image

首先,比较第2-4行,作者发现ConvUtr具有显著影响,其Jaccard指数达到56.98%,而无ConvUtr时仅为41.16%(提升了36%)。这一改进归因于ConvUtr更大的感受野及其捕捉更丰富表示的能力。此外,增加MobileViT中局部嵌入模块的卷积核大小也能提升性能(第1、2行),但增加模型深度(第4行)会导致性能下降。

此外,值得注意的是,LKLGL的简单应用并未带来性能提升(第2行和第7行),但展示了效率改进(也可见于第11行和第12行)。当LKLGL集成到ConvUtr编码器中(第7-10行)时,性能显著增强,表明ConvUtr能够提升CNN-Transformer混合结构的协同效应。作者将此归因于ConvUtr模拟Transformer学习模式的能力。这种协同效应促进了LKLGL固有的全局和局部信息流之间的交互(第8行和第10行)。此外,值得注意的是,由于MViT参数数量庞大,作者将其替换为ViT(1.39M vs 4.42M参数,代表68.5%的减少)。尽管这种替换导致性能略有下降,但模型复杂度的显著降低使其成为有利的权衡。

此外,作者研究了级联解码器对性能的影响,并观察到所有包含级联解码器的方法均取得了显著改进(参见带

的“级联解码器”列)。这归因于U形设计的优势,其在医学图像任务中尤为有效,能够对边界模糊、噪声水平高的医学图像进行精确的密集预测。此外,通过比较第19行与第18行,作者采用第19行的下采样 Shortcut 策略是有效且高效的(Jaccard为67.26%对比66.50%,GFLOPs为2.91

对比3.34)。最后,作者考察了不同下采样策略对医学图像特征提取的影响。具体而言,作者将所有下采样操作替换为卷积下采样(第20行和第21行)。结果表明,在此修改下,分割性能有所下降,进一步突显了最大池化在从Sparse和噪声医学图像中有效提取特征的关键作用。

3.4.2 核函数消融研究

与先前工作(例如ConvNeXt [20]、CMUNeXt [30])类似,作者将尺寸大于3的卷积核定义为大卷积核。与在整个编码器中应用大卷积核的方法(例如ConvNeXt [20])不同,作者的设计强调通过平滑扩展感受野来保留细粒度语义。如表6(第17行)的补充实验验证,当改变方法中卷积核尺寸为ConvUtr (K1,K2,K3)和LKLGL (K4)时,突变过渡(如3→9或7→9)会降低性能,而渐变过渡(3→7→9)则能获得更好的结果。

3.4.3 LKLGL 消融研究

LKLGL针对医学图像特性,如Sparse局部信息、模糊边界和高噪声水平进行处理。它结合了用于局部聚合的大核深度卷积和用于降低复杂度同时保留长距离依赖性的Sparse全局注意力机制。在全局Sparse注意力机制之后,通过转置卷积进行的局部传播将全局上下文重新分配回细粒度细节,从而细化对分割至关重要的局部信息。虽然消融实验在Synapse上进行,但LKLGL在诸如超声、皮肤镜等共享低对比度和边界模糊等挑战的模态(如图1所示)中仍然有效。作者还对其他模态进行了额外的消融研究,以评估LKLGL的有效性。如表9所示,应用LKLGL(w/)在BUs、BUSI、TNSCUI、ISIC和Kvasir上分别带来了0.59、0.75、0.75、0.52和0.43的持续增益,证实了其在医学领域的泛化能力。

picture.image

4 结论

在这项工作中,作者提出了Mobile U-ViT,一种新型的混合轻量级网络,旨在解决移动医疗图像分析中的挑战。通过结合ConvUtr(一种轻量级、受Transformer启发的CNN图像块嵌入)和LKLGL模块,Mobile U-ViT有效地在计算效率和性能之间架起桥梁,特别是在医学图像分割方面。此外,级联解码器与下采样 Shortcut 确保了局部和全局特征的高效融合,使该模型非常适合资源受限的环境。通过广泛的实验,Mobile U-ViT在多种2D和3D数据集上展示了最先进的性能,展示了其零样本泛化能力,并证明了其在多样化医学图像任务中的鲁棒性。作者的工作在保持低计算复杂度、减少参数数量和高实时帧率的同时,甚至在一般医学分割任务中提高了准确性。这种创新设计成功地平衡了ViT的轻量级特性和鲁棒性能。作者希望Mobile-U-ViT将激发在移动医疗图像分析领域高效和高性能模型方面的进一步发展。

参考

[1]. Mobile U-ViT: Revisiting large kernel and U-shaped ViT for efficient medical image segmentation.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论