点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
基于 Query 的建模对于医学图像分割的高级深度学习模型的部署通常受限于需要大量标注数据的要求。弱监督学习允许使用更不精确的标签,已成为解决这一挑战的有前途的解决方案。在此基础上,作者提出了一种名为QMax ViT-Unet+的新颖框架,用于素描监督下的医学图像分割。该框架基于U-Net架构,其中编码器和解码器被替换为多轴视觉 Transformer (Max ViT)模块。这些模块增强了模型高效学习局部和全局特征的能力。
此外,作者的方法集成了基于 Query 的Transformer解码器以细化特征,并集成了一个边缘增强模块以补偿素描标签中的有限边界信息。
作者在四个专注于心脏结构、结直肠息肉和乳腺癌的公共数据集上评估了提出的QMax ViT-Unet+:ACDC、MS-CMRSeg、SUN-SEG 和 BUSI。评估指标包括骰子相似系数(DSC)和Hausdorff距离的第95百分位数(HD95)。
实验结果显示,QMaxViT-Unet+在ACDC上的DSC为89.1%,HD95为1.316mm;在MS-CMRSeg上的DSC为88.4%,HD95为2.226mm;在SUN-SEG上的DSC为71.4%,HD95为4.996mm;在BUSI上的DSC为69.4%,HD95为50.122mm。
这些结果表明,与现有方法相比,作者的方法在准确度、鲁棒性和效率方面表现出色,同时仍具有与完全监督学习方法相当的竞争性。这使它成为医学图像分析的理想选择,因为高质量的标注往往稀缺且需要大量的努力和成本。
unsetunset1. Introductionunsetunset
近年来,深度学习的进展显著提升了分割技术,通过有效地从医学影像数据中直接学习复杂的特征。这一进步使得器官结构的分割更加准确和详细,有助于改善患者的预后。传统深度学习模型,如U-Net架构及其变种,在医学图像分割领域起到了基础性的作用[1, 2, 3, 4]。尽管U-Net中的卷积层在捕捉图像细节方面表现出色,但在获取全局和长距离语义信息方面存在不足。因此,许多研究结合了卷积层与 Transformer 层,以解决这些问题[5, 6, 7]。随着视觉 Transformer (ViTs)的发展[8], Transformer 在医学图像分割中的应用也变得越来越广泛。随着深度学习方法的流行,迁移学习在通过利用预训练网络来提高医学分割模型性能方面扮演着至关重要的角色。例如,STU-Net等技术展示了大规模监督预训练和迁移学习在医学领域的潜力。这些方法在大数据集和密集标注的情况下表现出了稳健的效果。然而,生成这样的数据集非常耗资源,需要大量时间和专业知识来进行医学标注,以产生用于模型训练所需的密集标签。
为了应对这些挑战,领域内越来越多地采用了弱监督学习策略。这些策略使用的是精度较低但更容易获取的标签,例如点、边界框和涂鸦。涂鸦监督学习的应用已成为一种有前途的方法,能够在减少密集标注数据集训练成本的同时保持高性能。该技术已被成功应用于各种视觉任务,包括目标检测和语义分割。[16] 提出了一个基于涂鸦的分层弱监督学习模型用于脑肿瘤分割。该模型结合了两种类型的弱标签进行训练:表示整个肿瘤和健康脑组织的涂鸦,以及表示每个亚结构存在的全局标签。[17] 使用了一个双分支网络,包含一个编码器和两个略微不同的解码器,用于分割,并动态混合这两个解码器的预测以生成监督用的伪标签。据作者所述,该设计具有两大优势。首先,它减轻了单分支网络中伪标签固有的不足之处,因为两个分支由于特征扰动而产生不同的输出。其次,它允许通过双重监督下两个输出的组合生成伪标签,从而无需分别训练两个网络,进而提高编码器提取特征的能力。为了解决卷积层学习全局特征的难题,[18] 提出了一种名为 Scribble VC 的方法,该方法利用传统 CNN-Transformer 混合架构同时学习局部和全局特征。此外,ScribbleVC 还结合了从涂鸦标签中提取的类别信息来构建一个多模态信息增强模块。CNN 和 Transformer 架构的结合使得模型能够有效地学习局部和全局特征。此外,[19] 在此基础上进一步引入了注意力引导的类激活图(ACAM)分支到 CNN-Transformer 框架中,以进一步提升性能。
然而,涂鸦标注通常缺乏密集标签提供的详细边界信息。为解决这一局限性,[20] 提出了一个辅助边缘检测任务,明确地定位物体边界,并引入了一个门控结构感知损失来约束在特定范围内结构细节的恢复。此外,[21] 引入了一种名为 CycleMix 的框架,该框架结合了混合法策略以及专门设计的随机遮挡方案。这种方法使得涂鸦的增量调整和减量调整成为可能。CycleMix 通过一致性损失改进了训练目标,惩罚不一致的分割,从而提高边界信息的质量,最终显著提高了分割性能。此外,[22] 设计了一种名为空间-光谱双分支互教及熵导向伪标签集成学习(S2ME)的框架。该框架利用从空间域和光谱域提取的特征的自然兼容性,在协作优化过程中鼓励跨空间一致性。它还引入了一种新的自适应像素级融合技术,基于来自空间分支和光谱分支的熵指导进行边界细化。
基于以往的研究和作者的观察,作者概述了标注擦除监督分割中的关键挑战。首先,这些上下文中迁移学习的应用尚未得到充分探索,这为降低训练成本并提升模型性能提供了重要的改进机会。其次,尽管传统的卷积神经网络(CNN)与 Transformer 的混合体可以同时学习局部和全局特征,但如果未经预训练,它们的表现往往不如传统的卷积神经网络。根据[23]的研究,这种差距源于 Transformer 的强大能力,其诱导偏置较小,在小数据集上训练时容易过拟合。此外,在分层网络的早期或高分辨率阶段通过全注意力机制获取全局交互计算密集,因为注意力机制具有二次复杂度。最后,擦除标注相对于密集标注缺乏详细的边界信息,这可能导致分割性能不佳。特别是在医疗领域,准确的边界分割尤为关键。
在本研究中,作者提出了一种名为QMax ViTUnet+的新颖框架,用于解决上述问题。特别地,QMaxViT-Unet+利用了[23]提出的Max ViT块来替换U-Net架构中的编码器和解码器模块。通过使用这些预训练的MaxViT块作为 Backbone ,作者可以有效处理scribble监督分割中的前两个问题。此外,作者的方法整合了一个基于 Query 的Transformer解码器,用于细化特征并构建辅助解码器,这有助于单分支网络中的问题,并增强输出的变化。最后,通过集成一个边缘增强模块,该模块将从MaxViT编码器中提取的边缘信息整合到MaxViT解码器块中,解决了上述问题。此方法不仅减少了对大量标注数据的依赖,还旨在与全监督模型的分割质量更加接近,从而使得高质量的医学图像分割更加易于实现且不那么劳动密集型。作者的贡献可以总结如下:
据作者所知,本方法是首次使用预训练的视觉Transformer进行标注监督的医疗图像分割任务中的迁移学习,而不是从头开始训练。该方法采用预训练的Max ViT作为主干,并基于U-Net类型的架构,通过具有线性复杂度的注意力机制捕获图像中的详细高分辨率空间信息和全局上下文,这与传统注意力机制的二次复杂度形成了对比。
医学图像scribble监督分割性能增强· 作者引入了一种基于Query的Transformer解码器和边缘增强模块,以提升分割结果的表现。基于Query的Transformer解码器对编码器特征进行细化,并作为辅助解码器,以解决单分支网络中伪标签固有的弱点,并产生不同的输出变体。边缘增强模块专门设计用于增强与密集标签相比,scribble标签中常常缺失的边界信息。
对提出的QMax ViT-Unet+在四个基准数据集ACDC、MSCMRSeg、SUN-SEG和BUSI上进行了各种实验评价。结果表明,作者的方法在DSC方面优于现有的最先进的方法,分别为89.1%、88.4%、71.4%和69.4%,以及HD95分别为1.316毫米、2.226毫米、4.996毫米和50.122毫米。结果还突显了基于Query的Transformer解码器和边缘增强模块对QMax ViT-Unet+整体性能的重要贡献。
unsetunset2. Materials and Methodsunsetunset
2.1. Datasets
作者将提出的方法在四个医学数据集中进行了评估:ACDC、MS-CMRSeg、SUN-SEG 和 BUSI。这些数据集的视觉表示和统计摘要分别如图1 和表1 所示。
ACDC数据集包含了150名患者的 cine-MRI 扫描,并由专家提供了左心室(LV)、右心室(RV)和心肌(MYO)的手动标注 Token ,详细情况参见[24, 25]。按照[17]的方法,作者采用五折交叉验证策略,利用前100名患者进行训练,并在每个折中将剩余的50名患者保留用于测试。MS-CMRSeg数据集[26, 27]包含来自45名心肌病患者的延迟钆增强(LGE)MRI扫描,并由[21]提供了LV、MYO和RV的标注 Token 。每位患者都有大约15个切片(图像)的容积扫描,总共约有686张图像。根据[21, 28]中的方法,作者在患者 Level 随机划分数据集,选择25名患者(382张图像)用于训练,5名患者(75张图像)用于验证,15名患者(229张图像)用于测试。由于只有训练子集具有所需的标注 Token ,因此作者使用这382张训练图像进行模型学习,而其余子集则用于验证和最终性能评估。SUN-SEG数据集[29, 30, 31]是有标注 Token 的SUN数据库[32]的一个子集。
该数据集包含100个不同的息肉视频病例。为了减少数据冗余和内存消耗[22],作者在每个病例中仅选取每连续五个帧中的第一个帧。然后,作者将数据集分为用于训练的70个病例、用于验证的10个病例和用于测试的20个病例。BUSI数据集[33]包含了2018年从25至75岁女性收集的乳腺超声图像。未进行分割 Mask 标注的正常样本被排除在外。由于没有手动标注 Token ,作者使用HiLab在UESTC提供的WSL4MIS代码生成标注 Token ,该代码从二值 Mask 中提取两个最大的连通区域并细化分支结构。类似于ACDC数据集,作者采用五折交叉验证来评估此数据集的性能。对于边缘信息提取,作者使用预训练模型[34]对图像进行推理以获取边缘 Mask (视为Ground Truth)。
2.2. QMaxViT-Unet
Architecture
QMaxViT-Unet+ 概览。QMaxViT-Unet+框架的架构如图3所示,该框架包含三个关键组件:MaxViT 块、边缘增强模块以及 Query 引导的 Transformer 解码器。给定一个输入三元组
,它代表图像、草图和 GT 边缘,来自数据集
,QOMaxViT-Unet+ 首先通过四个 E 块处理输入以提取局部和全局特征。与传统的 U-Net 架构不同,作者的方法将最后一个 E 块(瓶 Neck 分)路由到 Query 引导的 Transformer 解码器中,在将其传递给第一个 D 块之前对其进行注意力特征的细化。最后一个 D 块,在一个卷积层之后,生成主要分割 Mask
。为了进一步增强边缘信息,第一和第二个 E 块的特征被送入边缘增强模块。从该模块输出的增强特征随后与 D 块的特征结合起来,从而提高整体分割质量。PPM-FPN 模块处理最后三个 E 块的特征,并在更新 Query 后进行矩阵乘法以生成辅助分割 Mask
。此外,为了改进可学习的 Query ,引入了 Query 增强器(图2),这受到了文献[35, 36]研究结果的启发,这些研究表明零初始化的局限性。相比于现有的最先进的 CNN-Transformer 混合网络[18, 19],QMaxViT-Unet+ 不仅更有效地学习局部和全局特征,而且通过整合边缘信息并利用 Query 引导的 Transformer 解码器来表示细化特征,其分割质量和边界质量也超过了它们。
MaxViT-Unet。传统的卷积神经网络(CNN)在捕捉局部图像特征方面表现出色,但在建模长距离依赖关系方面存在局限性,这在有效的医学图像分析中至关重要。虽然视觉 Transformer (ViT)能够捕捉局部和全局特征,但它们通常会受到高计算需求和过拟合倾向的影响,尤其是在从零开始训练时。MaxViT块通过结合使用计算特征的Mobile Convolution Blocks(MBConv)以及Squeeze-and-Excitation(SE)注意力机制、Block Attention机制和Grid Attention机制,由[23]提出,解决了这些问题。这样有效地模拟了空间交互,并保持了线性复杂度。作者的QMax ViT-Unet
框架在此基础上建立,采用了[37]介绍的MaxViT-Unet架构,该架构使用类似U-Net的设计并通过 Short-Cut 保持上下文信息。MaxViT-Unet用MaxViT Stage替换传统编码器-解码器块,每个Stage包含一个可变数量的Max ViT块——这是作者的模型中的一个超参数。通过结合U-Net设计和MaxViT块,作者的模型处理复杂特征的能力得到了大幅提高。此外,使用ImageNet-1k [38]进行预训练作为主干,可以实现迁移学习,进一步提升了分割准确性。主干处理的图像尺寸为
。对于单灰度图像
,采用conv2d层,随后是BatchNorm [39]和ReLU激活 [40],将其单通道灰度图映射到三通道。主干生成四个不同Stage的特征表示,大小分别为
,其中
。
边缘增强模块。与全监督学习相比,擦痕监督学习的一个显著限制是没有边界信息。受到[41]的启发,作者设计了一个简单的边缘增强模块,该模块将增强的边缘信息融入到D块中。作者的观察表明,前两个E块通常捕获低级特征如边缘。因此,作者将在这些早期的E块之上应用此模块。在作者的边缘增强模块中,来自第二个E块的输出被上采样以对齐第一个E块输出的分辨率。上采样的特征随后被送入一个1×1–3×3卷积层,再进行拼接,并分成两支路。第一支路由一个1×1卷积层生成边缘 Mask ,这些 Mask 由自动生成的GT边缘监督。第二支路由MaxViT阶段产生注意力图,然后用于与Query增强器中的零初始化 Query 结合(见图2)。注意力图也被上采样并通过1×1卷积层进一步增强边缘信息,以便提供给D块。
Query-guided Transformer解码器。受[42]工作的启发,MaskFormer展示了在计算机视觉任务中使用 Query 引导Transformer解码器的潜力。这种方法利用强大的关系和属性建模来实现令人印象深刻的成果。[43]进一步探索了这一概念,提出了QuCCeS方法,该方法有效地利用基于 Query 的Transformer进行医学图像分割中的跨中心泛化,特别是在数据有限的情况下。受到这些进展的启发,作者将一个 Query 引导的Transformer解码器融入到作者的模型中,以增强分割质量。作者定义了一组 Query
,其中
表示分割任务中的类别数。与QuCCeS采用零初始化 Query 的方法不同,作者使用了一个简单的Query增强器(图2),它结合了零初始化 Query 和通过边缘增强模块生成的注意力图,以提高学习 Query 的能力。具体而言,作者将形状为
的零初始化 Query 与Query增强器的输出(同样形状为
)连接起来,生成最终形状为
的学习可 Query 。这里,
表示最后一层E块输出特征的隐藏维度。经过增强的学习 Query 和从最后一层E块输出的特征,被送入Transformer解码器[44]中,用于细化和增强对重要特征的关注度,从而更新 Query 。此外,作者观察到最后一层E块的最高 Level 特征不足以生成分割 Mask ,因此作者采用了PPM-FPN[45]的一种变体,而不是传统的FPN[46],后者通过融合多尺度特征并扩大感受野来使用金字塔池化模块。最后,作者执行矩阵乘法,将更新的学习 Query 所赋予的注意力权重分配给多尺度特征,从而生成辅助分割 Mask
。
2.3. Loss Functions
scribble 监督损失。作者应用部分交叉熵损失进行 scribble 监督学习,忽略标注(scribble annotation)中的未标注像素(UP)。scribble 监督损失
对于一个样本
的计算方式为:增强医学图像 scribble 监督分割的表现。
表述为:
其中,
是用于计算交叉熵的目标标签集合,不包括标签 UP(未知像素)。
伪监督损失。仿照[17]的做法,作者通过动态混合两个预测结果
和
生成硬伪标签。伪监督损失
定义为:
其中,
是Dice函数,
是伪标签,而
在每次迭代中是一个在区间
内动态生成的随机数,
设置为
。边缘监督损失。边缘增强模块使用均方误差(MSE)回归损失函数进行监督,该函数衡量预测边缘值与真实边缘值之间的差异。边缘监督损失函数,记作
,形式上定义如下:
其中,
表示由边缘增强模块预测出的边缘值,而
则是在像素
处对应的 GT 边缘值,
是图像中总的像素数量。
最终损失函数。为了训练作者的QMaxViT-Unet
,最终损失函数被公式化为:
其中,
是每个损失部分的权重,用于平衡不同的监督损失。图4 展示了方法中使用的监督损失函数。
医学图像scribble监督分割的增强方法
unsetunset3. Experiments and Resultsunsetunset
3.1. Implementation Details
该模型使用了PyTorch实现,并在单个NVIDIA RTX 4090 GPU上进行训练。在训练过程中,通过随机旋转和翻转图像进行了实时数据增强。增强后的图像被调整为
像素后送入网络。学习率设置为1e-3,权重衰减为0.01。实验中使用AdamW优化器进行了200个epoch的训练,并应用了余弦退火调度器(CosineAnnealingLR)。方程4中的权重
通过实验证实分别设置为(1, 0.5, 0.2)。在推理过程中,仅需输入调整大小后的
图像。对于所有数据集,使用Dice分数(DSC)和Hausdorff距离的第95百分位数(HD95)作为评估指标。
3.2. Results
为了全面评估作者提出的QMax ViT-Unet+
模型的分割性能,作者在四个基准数据集ACDC、MS-CMRSeg、SUNSEG和BUSI上与最先进的(SOTA)方法进行了比较分析。结果分别呈现在表2、表3、表4和表5中。每张表都分为两部分:标注监督方法和全监督方法。在标注监督设置中,作者没有包括如Puzzle Mix [48]、Cutout [49]、MixUp [50]和CycleMix [21]等数据增强策略的对比,因为它们的训练收敛速度较慢且性能较差。
在ACDC数据集中,QMax ViT-Unet
显著超过了所有先前的模型。它在Dice系数(DSC)上比Scribble VC高出了3.9%,在HD95上高出了0.462毫米;而在ScribFormer方面的DSC提高了1.7%,在HD95上提高了5.15毫米。特别地,在心肌区域,作者的模型在DSC方面比ScribFormer高出2.2%。当与全监督方法进行比较时,作者的模型在性能上可与表现最佳的TransUnet媲美,但标注成本更低。尽管在心肌(DSC)和左心室(HD95)方面,作者的结果略低于TransUnet,但仍具有竞争力。在小型MS-CMRSeg数据集中,许多最新方法的表现有所下降,甚至不如传统的CNN模型如Unet,而作者的QMax ViT-Unet
一直表现出色,其性能与在ACDC数据集上训练的结果相比几乎没有退化。具体而言,它在DSC方面比Scribble VC高1.9%,在HD95上高出了7.22毫米;在DSC方面比ScribFormer高4.6%,在HD95上减少了3.832毫米。与全监督方法相比,QMax ViT-Unet
在各方面均表现出色,尤其是在DSC上超越了
3%,在HD95上减少了1.064毫米。在最大的数据集SUN-SEG中,QMax ViT-Unet
比当前的SOTA方法S2ME在DSC上高出了4%,虽然HD95略微较高。与全监督方法相比,作者的模型在标注努力较低的情况下达到了类似于
的结果,尽管在性能上仍然不及SwinUnet和TransUnet。在BUSI数据集中,QMax ViT-Unet
表现优于先前的方法。它在DSC上比S2ME高2.1%,在HD95上减少了19.004毫米;而在DSC上比ScribFormer高2.7%,在HD95上减少了12.545毫米。与全监督方法相比,QMax ViT-Unet
达到了有竞争力的结果,DSC接近
,且标注成本显著降低。尽管在HD95上的表现略逊于SwinUnet和TransUnet,但整体表现依然令人称赞。总之,这些发现突显了所提出的标注 Token Prompt 监督模型在医学图像分割中的巨大潜力,能够在最小化标注成本的同时达到与全监督方法相当的性能。
unsetunset4. Discussionunsetunset
本节旨在展示QMax ViT-Unet
设计在标注监督医学图像分割任务中的有效性。作者使用ACDC和MS-CMRSeg数据集进行了一系列诊断性实验。这些实验旨在评估本方法的不同方面,包括模型可视化5、损失函数的有效性6、不同模型组件的贡献7、跨数据集性能分析8以及模型复杂度9。这些结果为全面理解QMax ViT-Unet
的能力及其鲁棒性提供了依据。
分割性能的可视化与分析。图5展示了QMaxViT-Unet+
模型在四个数据集上的分割结果,这些数据集被分为简单、中等和困难三类案例。该模型在简单案例中的准确性较高,预测结果与所有数据集的GT高度一致。对于中等增强的医学图像轮廓监督分割,进行了额外的分析。
增强型scribble监督医学图像分割在某些情况下,模型显示出了较强的性能,尤其是在心脏数据集中小区域的检测中,尽管出现了一些假阳性,特别是在SUN-SEG和BUSI数据集中,这可能是因为不同区域之间的视觉相似性所致。但随着病例变得更为复杂,模型的表现逐渐下降,在心脏区域精细结构、大息肉以及乳腺癌区域的边界划分上遇到困难,这是由于这些特征的复杂结构和变异性所致。总体而言,虽然模型在简单和大多数中等难度的情况下表现良好,但在处理复杂结构、图像质量和scribble标注质量方面仍面临挑战,这些因素影响了边界信息和整体性能。这凸显了进一步改进模型以提高其在更复杂场景下的效果的必要性。
损失函数的有效性。本实验展示了在QMax ViT-Unet+
模型中平衡不同损失组件权重的重要性。如表6所示,作者将所有损失组件赋予相同权重(设置#1)时,获得了相当不错的分割性能。然而,调整权重以优先考虑
和
提高了分割质量,这从改进的平均DsC可以明显看出,尽管这也导致HD95有所增加(设置#2和设置#3)。这是因为增加
的权重可能会引入噪声到模型中,这可能是由于预训练模型[34]生成的不完美的边缘 Mask 造成的,从而提高了平均HD95值。这些边缘 Mask 虽然被视为真实值,但其中可能包含错误或不一致性,可能在训练过程中误导模型。通过减少
的权重(设置#4),作者有效解决了这一问题,并实现了最高的平均DsC和最精确的边界预测,这从最低的平均HD95可以看出。
模型组件的有效性。表7中的消融研究表明了在作者提出的QMax ViT-Unet+模型中各个组件的有效性。请注意,在集成 Query 组件但缺少边缘组件的模型中使用了零初始化的学习型 Query ,在没有
的模型中则排除了PPM-FPN模块路径。表分为两个部分:第一部分(前四行)评估了单解码器(主要解码器)设置下的模型性能,而第二部分(后四行)则评估了双解码器设置下的性能。
在单解码器设置下,不包含 Query 和边缘组件的基本模型平均Dice系数为75.2%。添加边缘和 Query 组件后,平均Dice系数和HD95评分有了显著提升。特别地,同时引入边和 Query 组件显著提升了性能,平均Dice系数达到了81.8%,平均HD95评分为139.566毫米,即使只使用一个解码器也是如此。在双解码器设置下,不包含 Query 和边缘组件的基本模型平均Dice系数为87.3%,平均HD95评分为6.749毫米,这表明了作者的双解码器模型的有效性,这一点曾在[17]中有所探讨。添加边缘组件后,平均Dice系数略有提高,与此同时,平均HD95评分显著降低至2.508毫米,突出了边缘信息对于边界分割精度的重要性。尽管 Query 组件相较于边缘组件提高了Dice系数,但其却导致了更高的HD95评分。这一观察表明,虽然 Query 组件有效细化特征,从而增强分割准确性,但边缘组件对于精确边界分割仍然至关重要。最终,配备双解码器及同时包含 Query 和边缘组件的QMaxViT-Unet+模型实现了最高的平均Dice系数88.4%和最低的平均HD95评分2.226毫米。此外,在单解码器和双解码器设置下,包含这两部分( Query +边缘)的模型表现最佳。这可能是因为这些组件之间的协同作用,也许还得到了Query增强器的帮助。然而,在本研究中并未具体分析Query增强器的效果,因此未来实验需要进一步探讨这个问题。
作者进一步通过可视化QMaxViT-Unet
模型推理过程中提取的特征表示来探讨作者的方法是如何工作的。如图6所示,在 Token 有黑色边框的特征图中,经过细化处理前后的特征看起来相似,但原本模糊不清的特征变得更加聚焦且定义清晰。这一细化过程表明,基于Query的Transformer解码器能够有效聚焦于最相关的特征并过滤掉无关信息。此外,图7中的注意力图显示,作者的模型能够有效地突出医疗图像中最关键的特征。然而,与ACDC和MS-CMRSeg数据集相比,该模型在更复杂的SUN-SEG和BUSI数据集上捕捉注意力时面临更大的困难。
模型泛化能力。作者通过在ACDC( cine MRI)和MS-CMRSeg( LGE MRI)数据集上的跨数据集实验评估了方法的鲁棒性,结果如表8所示。尽管当前最先进的方法在各自的数据集上单独训练时表现出色,但在交叉评估中其性能显著下降。具体而言,传统的CNN-Transformer混合模型,Scribble VC和ScribFormer,在ACDC数据集上的性能分别下降了31.7%(从85.2%降至53.5%)和61.2%(从87.4%降至26.2%),在MS-CMRSeg数据集上的性能分别下降了42.2%(从86.7%降至44.5%)和25.8%(从83.8%降至58.0%)。值得注意的是,这些模型的表现甚至不如CNN架构,例如
或DMPLS。相比之下,基于Max ViT块构建的作者的QMax ViT-Unet+展示了更优异的性能和泛化能力,性能下降幅度较小(ACDC数据集上为16.6%,MS-CMRSeg数据集上为18.1%)。此外,作者的QMax ViT-Unet+还实现了最低的HD95分数,突显了边缘信息增强的有效性。这表明,作者的模型更适合用于MRI图像可能来自多样来源的真实世界应用场景。
模型复杂度对比。为了研究模型复杂度与性能之间的权衡关系,作者使用ACDC数据集分析了各种模型,并在表9中展示了结果。作者比较了不同模型的参数数量、乘加运算(MACs)次数以及平均推理时间,共进行了100次试验。虽然CycleMix模型以其CNN主干网络表现出最低的参数数量,但其混合策略增加了额外的复杂性。相比之下,传统的CNN-Transformer(ScribbleVC和ScribFormer)架构则显示出了更高的参数数量和MACs次数。作者的QMaxViT-Unet+
模型拥有1.09亿个参数,在评估的模型中是最大的,但由于其高效的Max ViT块,其计算复杂度最低,仅有39.10G的MACs。然而,QMax ViT-Unet+
的推理时间略高于其他模型,这可能与其庞大的模型规模有关。为了使架构更适合更多应用场景,作者正在积极优化其设计。
局限性与未来工作。尽管作者提出的方法取得了令人鼓舞的结果,但仍存在一些限制需要进一步探索。一个显著的局限性是使用了预训练模型生成的不完美的边缘 Mask ,这可能会引入噪声并可能导致模型将注意力分散到无关区域,从而影响其性能。未来的研究方向可以探索自动技术以增强边界信息同时最小化噪声,并提高模型的精确度。
此外,虽然作者的方法在检测医学图像中的小区域方面表现良好,但在某些情况下遇到了困难,如图5所示。解决这一问题可能需要尝试先进的医学图像处理技术,并深入分析标注覆盖度与数据集规模之间的关系。作者的观察表明,SUN-SEG和BUSI数据集的标注覆盖度最低,这可能是导致模型性能不佳的一个因素。
另一个局限性是没有在小型数据集MS-CMRSeg上进行交叉验证的可能性,这减少了对模型在该数据集上的具体性能特征进行全面分析的机会,并部分限制了对作者提出方法泛化能力的全面评估。作者希望未来的研究能够为MS-CMRSeg提供更多标注,或提出新的基于标注的数据集,以便推动此领域中模型验证和基准测试的发展。
此外,尽管模型的推理时间是可以接受的,但其庞大的尺寸仍需要优化以扩大应用范围。最后,探索大型视觉模型无监督预训练在医学图像分割领域的潜力,类似于大语言模型的发展,代表了未来研究的一个有前景的方向。
unsetunset5. Conclusionunsetunset
本文提出了一种新颖的方法,以解决现有 Token 草图监督医学图像分割任务中的限制问题,利用了高效的Vision Transformer Max ViT模块。通过构建这些模块,作者提出的架构在与传统的CNN-Transformer混合架构相比时,表现出更高的效率。
此外,基于Query的Transformer解码器的集成增强了模型的注意力机制,而边缘增强模块则缓解了 Token 草图标签固有的边界信息不足的问题。因此,作者的方法在性能上超越了其他SOTA方法,并且在较低的成本下达到了与完全监督学习相当的表现,使其适用于高精度标注稀缺且难以获得的医学图像分析领域。该方法在计算机辅助诊断和治疗规划方面显示出潜力,有可能通过更高效和准确的图像解释来改善医疗保健成果。
unsetunset参考unsetunset
[0]. QMViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for ScribbleSuper vised Segmentation of Medical Images .
点击上方卡片,关注「AI视界引擎」公众号