点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
本实验室是中国四川省成都市四川大学计算机科学与技术学院计算机 Vis 理论国重实验室,全称为“计算机视觉国家重点实验室”。
实验室现有职工 150 余人,博士生导师 38 人,其中含杰出青年科学基金获得者 8 人,青年长江学者 5 人,优秀青年基金获得者 4 人,其他省部级人才称号获得者 11 人。实验室每年邀请来自世界各地的多位计算机视觉领域的顶级专家学者进行短期讲学和合作研究。实验室承担了多项国家自然科学基金,国家重点研发计划,国家 863 计划,国家 973 计划等重大科研项目。
现有的编码器在医学图像分割领域的应用中,因为其捕捉复杂特征表示的能力而被广泛使用。
然而,现有的模型无法有效地利用由预训练编码器获取的丰富特征,导致分割结果不理想。在此,提出了一种新颖的U形模型,称为FIF-UNet,用于解决上面的问题,包括三个可插拔模块。提出了一种渠道空间交互模块(CSI)以获取有信息价值的特点,通过在编码器阶段和相应的解码器阶段之间建立交互。
设计了一种级联卷积-自注意力模块(CoSE)以自适应分配不同特征通道的重要性权重,从而增强关键特征的表达。提出了多级融合模块(MLF)来融合解码器阶段的多尺度特征,以确保准确和稳健的最终分割。
在Synapse和ACDC数据集上的综合实验表明,提出的FIF-UNet优于现有最先进的方法,分别实现了86.05%和92.58%的最高平均DICE。
1 Introduction
医学图像分割是指从医学图像中提取感兴趣区域(如器官、疾病区域等),这些区域有助于医生进行诊断并制定治疗方案。在医学图像分析中,自动分割是一项基本任务,它为后续图像分析和定量提供了准确的解剖学结构信息。自动分割为医生提供高精度的分割 Mask (病变大小、形状和位置),使医生能够准确识别和分割图像中的特定结构或病变。与手工分割相比,自动分割可以显著减少处理医学图像的 time and cost,提高数据处理效率。此外,自动分割工具可以减少人类相关的主观因素影响,提供更准确、一致的结果,这对大规模医学影像数据集尤为重要。
近年来,深度学习在各领域取得了突破。卷积神经网络(CNNs)能够实现图像特征提取和表示,从而消除了手工特征的需求。在这个背景下,基于CNN的自动分割工具通过神经架构从大量的训练样本中学习图像特征,从而实现高 performance 并可拓展到新的任务。UNet (Ronneberger, Fischer 和 Brox (2015)) 成为医学图像分割最受欢迎的框架,因为它具有简单而有效的架构设计和高性能,可应用于医学图像的多种模态(包括 CT、MRI、X 光、PET 等)。UNet 采用编码器-解码器架构,通过 Short-Cut 实现。编码器通过多级特征提取和下采样操作逐渐将图像转换为抽象表示。解码器基于抽象表示预测分割 Mask ,其中上采样操作用于恢复图像分辨率以生成像素级 Mask 。UNet 核心组件为 Short-Cut ,它将相邻编码器阶段和解码器阶段的特点结合起来实现高效学习。
虽然 UNet 模型在医学图像分割任务中展示了理想的性能,但由于有限的感受野,它们仍无法捕获全局上下文信息。为解决这个问题,提出了Transformer模块并将其集成到UNet结构中,以增强全局特征集成和上下文理解,例如 SwinUNet、TransUNet、MISSFormer、UNRTR(Hatamizadeh等人,2022年)等。然而,Transformer在卷积神经网络(CNNs)中缺乏归纳偏见,如平移不变性和局部特征学习能力,这使得在样本数量不足以达到预期性能时难以实现预期的性能。在预训练视觉Transformer(ViT)(Dosovitskiy等人,2020年)中, Backbone 网络在大规模通用数据集上进行预训练,并在特定任务上进一步微调有限样本,这显著展示了实际应用中的有效性,并减少了标记样品的 requirements,例如 Efficientnet、ConvNeXt(Liu等人,2022年)、DeepViT(Zhou等人,2021年)、等。得益于预训练策略的近期进步,预训练编码器被赋予丰富和泛化的特征表示。改进任务性能的关键在于在跳跃连接和解码器中设计高效的特征交互和融合机制,该机制有能力利用预训练编码器学习的语义信息来预测分割 Mask 。
为此,提出了一种新颖的U型模型,称为 FIF-UNet,通过特征交互和融合有效利用不同语义 Level 的信息。考虑到不同编码器和解码器阶段学习到的特征之间的语义差距,基于 ConCat 或元素加法运算的普通跳跃连接特征融合必然导致不准确的特征和信息损失,影响模型在支持分割任务时的学习和泛化能力。在本工作中,提出了一种通道空间交互(CSI)模块,包括级联通道交互单元(CIU)和空间交互单元(SIU),以增强跳跃连接。CSI旨在以可学习的方式捕获不同语义 Level 之间特征图之间的相关性,从而互动性地调整特征图。
在解码器中,将挤压与激励网络(SENet)纳入原始的CNN块,即串行的卷积一激励模块(CoSE)。CoSE模块利用通道注意力自适应地重新加权不同通道的特征,通过模拟不同通道之间的依赖性。其主要目的是有效选择和集成关键特征,突出目标区域并抑制无关的背景区域。此外,为了生成像素级的分割 Mask ,解码模块连续应用上采样操作以恢复特征分辨率。在此过程中,多级特征的融合有限导致详细特征的损失。在本工作中,设计了一个多级融合模块(MLF),以有效融合不同解码阶段学习的多尺度特征,通过内分类和外分类之间的特征交互。
在开源Synapse和ACDC数据集上进行了大量的实验以验证提出的模型。实验结果表明,所提出的算法优于其他选择性 Baseline ,获得了平均DICE的86.05%和92.58%,分别。最重要的是,所提出的三个可插拔模块为预期性能改进做出了贡献,视觉化结果表明位置信心。
总之,本工作的主要贡献如下:
(1) 提出了一种新的U形模型,通过特征交互和融合充分利用编码器和解码器的多级语义信息。结果证明了FIF-UNet的鲁棒性和在实际应用中的潜力。
(2) 提出了CSI模块,通过捕获由不同编码器和解码器阶段学习到的特征之间的相关性,自适应地逐步实现特征交互,实现CIU和SIU相连。
(3) 在解码器中,设计了一个CoSE模块,基于局部结构和全局上下文学习关键特征,通过将通道注意力集成到卷积操作中来突出目标区域。
(4) 提出了MLF模块,有效融合不同解码阶段的多尺度语义信息,以缓解细节损失问题,有助于获得准确和强大的最终分割。
2 Related Work
作为联合国核心模块的CNN模型是各种计算机视觉任务的主导方法。由于其在许多人工智能任务上的近期进展,Transformer模型也被认为是主流方法。将这两个模块集成到UNet成为提高医学图像分割性能的一种增强策略。在本节中,相关工作按照如下顺序组织:
CNN models
在2020年之前的 medical image segmentation领域,CNN基础的UNet模型占主导地位,可通过卷积操作高效捕获局部特征。然而,原始的UNet存在特征提取能力有限以及编码器与解码器之间的语义差距等问题。为解决这些问题,UNet的编码器或解码器模块被改进以增强特征学习。在DDNet(Jin, Meng, Pham, Chen, Wei和Su(2019))中,将原始UNet中的卷积层替换为变形卷积层,以捕捉复杂特征。在自注意力门(AG)的帮助下,通过采用大感受野和语义上下文信息,自动关注具有不同形状和大小的目标结构,实现了自注意力U-Net。Google-Net(Punn和Agarwal(2020))中的入手层被应用于自动选择深网络中的多种层。然而,所述改进主要基于局部卷积运算,在全球上下文捕获能力较弱。
其他研究关注调整跳线连接以减轻编码器与解码器之间的语义差距。EGE-UNet 中的Group Aggregation Bridge模块(GAB)通过分组低级特征、高级特征和由解码器生成的 Mask ,有效地融合了多尺度信息。在UNet++(Zhou,Siddiquee,Tajbakhsh和Liang(2019))中,设计密集连接的跳线连接以聚合不同语义尺度的特征,从而形成高度灵活的特征融合方案。skip connections中的两轮融合模块(即从顶部到底部,然后从底部到顶部)在FusionU-Net(Li, Lyu和Wang(2024))中执行,以减少Semantic间隙。然而,现有的工作仅利用编码器层和解码器层之间的有效语义融合来减轻语义间隙,忽视了编码器层和解码器层之间有效语义融合的重要性。
Vision Transformer models
自注意力机制使得Transformer块能够对输入序列中的每个元素关注到其他所有元素,从而构建纯Transformer模型以有效地适应复杂的图像场景和各种尺寸的目标,超越了CNN的局限性。例如,在Swin-UNet中,使用了具有移位窗口的分层Swin Transformer作为基础模块来学习全局和较远的语义交互。为了学习相对位置编码,在轴向自注意力中添加了门控机制,以便进一步准确地编码MedT中的长程交互。在MISSPFormer(Huang等人,2021年)中,引入了高效的自我注意力和增强的混合FFN来构建用于对齐更高一致性的增强Transformer块。受膨胀卷积的启发,提出了一种膨胀Transformer,在 D-Former中以膨胀方式执行全局自注意力,扩展了感受野并降低了计算成本,而无需添加卷积块。然而,与CNN相比,纯Transformer模型受到局部特征学习的影响,这影响了详细特征的准确捕捉,尤其是在复杂的医学图像分割任务中。
Hybrid CNN-Transformer models
混合CNN-Transformer模型利用了Transformer在捕捉长程依赖性和全局信息方面的优势,同时保留了CNN在处理局部特征方面的有效性。这种独特的组合使得混合模型能够在各种任务中实现尖端性能,尤其是在医学图像分割方面。在TransUNet(Chen等人,2021年),CNN用于提取局部特征以将输出投影到标记图像块,然后将这些块输入到一个级联的Transformer模块中以学习全局特征。在TransBTS ,在CNN编码器生成的局部特征图的瓶颈连接处引入了Transformer,以模拟局部特征图上的全局上下文。考虑到Transformer的计算成本很高,在MTU-Net 中,应用了CNN操作在较上层,以关注局部关系,而在较深的层中设计了一个混合Transformer模块,其空间尺寸较小。在FCT(Tragakis,Kaul,Murray-Smith和Husmeier,2023年)中,UNet的每个阶段都将其输入分为两步:通过Transformer块提取长程语义依赖性,并使用特定扩置率的膨胀卷积捕捉不同尺度的语义信息。在TMU(Azad,Heidari,Wu和Merhof,2022b)中,作者通过CNN和Transformer分别提取了层次化的局部和全局特征,然后将其输入到上下文注意力模块中,以自适应地校准表示空间,突出显示信息区域。尽管结合CNN可以提高特征提取的效率,但混合模型仍具有很高的计算复杂性,合并CNN和Transformer的优势仍然具有挑战性。
3 Method
Overall architecture
五度网络(FIF-UNet)的架构如图1(a)所示,实现了一个U型架构对称编码器-解码器模块。在编码器中,MaxVit-S 作为基本网络,利用图像分类任务在ImageNet数据集上进行预训练。与全自注意力不同,MaxViT的实现基于块状局部和膨胀全局注意力来捕捉局部和全局特征,这些特征可以仅通过线性复杂度(,为输入图像的空间大小)来计算。编码器网络包括5个阶段,包括一个茎阶段和四个串行的MaxViT阶段。在茎阶段,两层卷积层具有96个通道和3.0的核大小。第一层卷积层的前步长设置为2到2以防下采样输入图像分辨率。MaxViT的配置为块,分别生成具有个通道的特征图。
在跳接连接中,提出了一种CSI模块,通过设计的CIU和SIU动态重置特征图,以便获得有用的目标特征。在解码器网络中,每个解码阶段基于CoSE模块和UpConv模块构建。提出的CoSE模块旨在通过将SENet机制集成到卷积神经网络中来增强关键特征的表达。UpConv模块通过双线性插值上采样CoSE输出的分辨率,然后通过卷积层细化上采样特征图,如图1(c)所示。在这项工作中,创新性地提出了一种MLF模块,以有效地将解码阶段的输出融合在一起,以增强分割细节,同时集成类内和类间的特征。
CSI Module
总的来说,CSI模块基于顺序通道交互单元(CIU)和空间交互单元(SIU),如图1(a)所示。CSI模块在UNet架构的跳跃连接上执行,输入特征图来自编码器阶段i(2、3、4)和 decoder 阶段i+1。设计的目的如下:
- CIU致力于在通道维度上交互式调整通道权重,以实现编码器特征和 decoder 特征之间的语义对齐。
- SIU用于捕捉像素之间的空间相关性,这预计将有助于支持语义互补,以支持特征学习。
最后,CSI模块的输出被输入到 decoder 阶段i。认为CSI可以集成到任何UNet架构中,使跳跃连接有效地融合不同语义 Level 的信息,以获得有用的特征图。
3.2.1 Ciu
如图2(a)所示,CIU的输入是编码器阶段的特征图X和解码器阶段的特征图Y。CIU的核心思想是根据另一个对偶特征图Y或X调整输入特征图X或Y的重要性,通过单独并行的路径实现(图2(a))。
具体而言,对于每个路径,首先执行1x1卷积和批量归一化操作来集成沿通道维度的全局信息,然后执行自适应平均池化(AAP)操作生成特征权重。相关权重Wx和Wy通过sigmoid激活函数获得,表示不同特征通道的重要性。上述过程可以表示为:
其中,AAP 表示自适应平均池化操作,s表示sigmoid激活。
类似地,对于每个路径,输入特征图Y或X被进一步校准为(CNN, BN, ReLU)块,然后通过学习的相关权重融合以重新加权每个通道的重要性,从而得到交互特征图。
(4) (5) \tag{6}$
最后,使用残差机制将交互特征图融合,同时保留原始特征输入。CIU模块的输出是特征图X和Y:
Siu
总体而言,CIU的输出被送入SIU模块,以生成CSI模块的融合特征图。SIU关注通过一个X形路径(如图2(b)所示)重新加权空间像素的重要性,在该路径上,所有特征通道分享一个单一的权重矩阵。
具体而言,X形路径的左边部分,使用1x1卷积和BN操作,将特征图的通道压缩为1,目的是生成全局上下文。在通道维度上,将编码器和解码器特征进行连接,生成一个初始权重矩阵:
其中_Cat_表示通道维度上的连接操作。
然后,初始权重矩阵通过1x1卷积操作进一步校准,以生成样本相关的权重,类似于:
在X形路径的右边部分,使用 sigmoid 激活函数将权重元素映射到 ,该函数进一步用于 SIU 的输入,重新加权每个像素的重要性。最后,通过加法操作生成融合特征图:
总之,交互和融合操作考虑输入特征图像素之间的相关性,并重新分配它们的重要性权重,以实现语义对齐和互补。通过级联CIU和SIU模块,CSI模块预期可以增强UNet架构的跳过连接,为解码器提供丰富的特征。
CoSE Module
在原始的UNet中,每个解码阶段仅包含两组(卷积层,批量归一化(BN)和归一化线性单位(ReLU)激活),如图1(e)所示。推理规则如下:
其中表示一个核大小为K的卷积操作。_BN_和_ReLU_分别表示批量归一化和归一化线性单位激活函数。
对于医学图像,目标区域通常与复杂的背景器官相交,呈现相似的纹理和形状。需要提高关键特征的表达,同时抑制无关背景特征的影响。为此,在本研究中,将空间注意力机制(SENet)引入原始解码阶段,以通过集成通道上下文信息捕捉通道之间的相互依赖性。SENet可以通过学习注意力权重自适应调整每个特征通道的重要性,从而突出重要区域并抑制背景区域。
如图1(b)所示,CoSE模块由一个卷积块和一个SENet组成,其中在卷积块和SENet之前分别添加相应的残差连接。残差连接直接将学习到的特征累加到更深层,从而有效地解决梯度消失和爆炸问题,提供额外的路径增强信息传递。该过程可用以下方程表示:
其中_SENet_参照Hu等人(2018年)实现。
MLF Module
在提出的模型中,预训练的编码器用于通过降低特征分辨率来提取输入图像的特征,而解码器则通过恢复到原始图像的分辨率来生成像素 Level 的分割 Mask 。在原始的UNet中,插值算法用于实现上采样操作,限制了不同尺度的特征交互,并且在分割结果中丢失了关键的细节。
为了解决这个问题,在这个工作中,作者提出了一种MLF模块,用于将解码器阶段不同尺度的学习特征进行融合,如图3所示。其主要目的是通过交互和融合操作增强特征细节,帮助模型更好地识别具有相似特征的不同区域。解码器阶段1-4的输出特征图作为MLF的输入,并分别通过2、4、8、16倍上采样来生成按图像大小排列的 Mask 。然后,将通过上采样的特征图的通道数映射到与任务相关的类别数量,通过点卷积。推理规则如下:
其中,表示解码器阶段的输出。表示通过一个因子为的上采样。,其中为批量大小,为类别数量,和为原始图像的高度和宽度。在这个过程中,每个特征通道被视为对应类的特征表示,这指导模型捕捉到特定类的分割目标的判别性特征。
为了进一步优化特征表示,、、和的对应通道被连接起来以结合每个类的特征,如图3(b)所示。
其中_ChannelCat_表示通道连接操作。
最后,作者使用一个两步卷积块来集成类内和类间的特征来生成分割 Mask 。
- 类内:每个类别的特征通过设置组数量为类别数量来进行组卷积,单独对每个类别的特征进行卷积运算,从而生成每个类别通道数为1的特征图。
- 类间:然后使用标准卷积来集成每个类别的组内特征,通过融合每个类别的特征来得到最终的分割 Mask ,从而由类内和类间的特征。 (18) (19)
其中,,,表示带核尺寸为3的组卷积
Loss Function
基于分割 Mask ,FIF-UNet的损失函数是通过加权Dice损失和交叉熵(CE)损失获得的,这些损失函数适用于分割和分类任务,如下所示:
其中和分别表示Dice损失()和CE损失()的权重。
为了增强模型的收敛性,本文引入了异质多尺度特征融合损失聚合(MUTATION)方法,该方法由MERIT(Rahman和Marculescu,2024年)提出。具体来说,对于MLF模块的各个特征图、、、,首先得到15个非空子集,共有个,每个子集基于每个子集中的特征图元素相加生成15个预测 Mask 。因此,对于上述15个预测 Mask 中的每个 Mask ,在真实值上计算式(20)中的来衡量多级预测误差。此外,还考虑MLF输出和真实值之间的损失来形成最终的损失,如下所示:
其中_nonsubset_是一个函数,它接受一个列表的非空子集。表示每个子集中元素的个数。
4 Experiments and results
Datasets and evaluation metrics
Synapse multi-organ segmentation dataset:Synapse (Landman, Xu, Igelsias, Styner, Langerak 和 Klein,2015年)包含30个腹部CT扫描,共计3779个轴向对比增强腹部CT图像。每个CT扫描包括85-198个切片,像素大小为512 x 512, Voxel 空间分辨率为([0:54-0:54] x [0:98-0:98] x [2:5-5:0])。遵循TransUNet(Chen等人,2021年)的思路,该数据集随机分为18个扫描(2212个轴向切片)用于训练,以及12个扫描(1304个轴向切片)用于验证。总共8个解剖结构被分割,包括主动脉,胆囊,左肾,右肾,肝脏,胰腺,脾脏和胃。在实验中,这个数据集使用DICE分数和95%的Hausdorff距离(95HD)作为评价指标。
自动心脏诊断挑战:ACDC数据集(Bernard, Lalande, Zotti, Cervenansky, Yang, Heng, Cetin, Lekadir, Camara, Ballester等人,2018年)包括来自不同患者的100个心脏MRI扫描,由MICCAI ACDC挑战2017提供。每个扫描包含三个器官:右心室,左心室和心肌。遵循TransUNet(Chen等人,2021年)的思路,70个案例(1930个轴向切片)用于训练,10个案例用于验证,20个案例用于测试。在这个数据集的实验中,使用DICE分数作为评价指标。
Implementation details
预训练的MaxViT(来自Tu等人(2022年))作为所提出模型的编码器,输入分辨率设定为256x256,注意力窗口大小设定为7x7。为了考虑最终性能,应用了两个小型MaxViT结构进行实验,即小型FIF-UNet和TinyFIF-UNet。为了增加训练样本的多样性,使用了随机旋转和翻转策略来扩充原始数据(来自Chen等人(2021年))。该模型使用AdamW(Loshchilov和Hutter(2017年))优化器进行训练,学习率为 1e-4,经过400个周期,应用权重衰减为1e-4。在Synapse和ACDC中,批处理大小设定为16。参考Tu等人(2022年),将损失权重和分别设置为0.7和0.3。所提出的模型采用Pytorch 2.2.2实现,所有实验在一个配备24GB内存的NVIDIA TITAN RTX GPU上进行。
结果与讨论
4.3.1 Experimental results on Synapse dataset
在Synapse多器官数据集的实验结果如表1所示,包括所提出的模型和其他选择性 Baseline 。共选择了14个比较 Baseline 来评估模型性能,分为三类:基于CNN的模型(例如,UNet(Ronneberger等(2015)》,AttnUNet(Oktay等人(2018)》,ViT-基于的模型(例如,SwintUNet(Cao等人(2022)》,TransDeepLab(Azad等人(2022a)》,MISSFormer(Huang等人(2012”)和混合CNN-Transformer模型(例如,TransUNet Chen等人(2021)》,SSFormerPVT(Wang等人(2022)》,PolyPVT(Dong, Wang, Fan, Li, Fu和Shao(2021)》,MT-UNet(Wang等人(2022)》,HiFormer(Heidari, Kazerouni, Soltany, Azad, Aghdam, Cohen-Adad和Merhof(2023)》,PVT-CASCADE(Rahman和Marculescu(2023)》,CASTformer(You, Zhao, Liu, Dong, Chinchali, Topcu, Staib和Duncan(2022)》,TransCASCADE(Rahman和Marculescu(2023)》,Cascaded MERIT(Rahman和Marculescu(2024))。
如表1所示,平均DICE和高95平均值的DICE和HD95都被报告出来,以比较模型性能,以及8个特定类别的DICE分数。总体而言,小FIF-UNet达到了最高的平均DICE,为86.05%(主要指标),显著优于所有选择的 Baseline (1.15%的绝对提升)。具体而言,小FIF-UNet拥有获取7/8类最佳性能的能力,证实了其超过 Baseline 的性能优势。与此同时,提出的模型还获得了第二个最佳的HD95测量。
与经典ViT-基础的SwinUNet和混合TransUNet相比,小FIF-UNet在平均DICE方面分别提高了6.92%和8.57%。更重要的是,提出的FIF-UNet在小型和难以分割的器官方面实现了显著的性能改进。具体而言,相对于最佳 Baseline ,提出的模型在小型器官(KL和KR)上的改进分别提高了0.44%和1.41%,在难以分割的器官(GB和PC)上的改进分别提高了1.75%和2.33%。
此外,作者还考虑了模型复杂性。与两个竞争 Baseline TransCASCADE和Cascaded MERIT相比,小FIF-UNet可以在仅86.91M参数下实现最佳性能(比 Baseline 低36.56M和60.95M)。值得注意的是,提出的Tiny FIF-UNet在仅38.31M可训练参数下达到了 Baseline 中第三好的平均DICE,与第二好的Cascaded MERIT相当,比 Baseline 低109.55M。
总之,实验结果表明,在Synapse数据集上,所提出的模型在性能和效率方面优于选择的 Baseline ,同时在对小型和难以分割的器官上也能实现所需的增强。
4.3.2 Experimental results on ACDC dataset
表2报告了在ACDC数据集上的比较方法实验结果,按平均DICE分数排列。同样,选择了三种模型作为比较 Baseline ,包括基于CNN的模型(例如,R50 UNet(Chen等人,2021年),R50 AttnUNet(Chen等人,2021年))、基于ViT的模型(例如,SwinUNet(Cao等人,2022年),MISSFormer(Huang等人,2021年))和混合CNN-Transformer模型(例如,TransUNet(Chen等人,2021年),MT-UNet(Wang等人,2022年),PVT-CASCADE(Rahman和Marculescu,(2023年)),TransCASCADE(Rahman和Marculescu,(2023年)),并行MERIT(Rahman和Marculescu,(2024年)),串行MERIT(Rahman和Marculescu,(2024年)))。
如表2所示,提出的Small FIF-UNet在平均DICE得分方面超过了最近的最高水平(SOTA)方法,为92.58%,超过最佳基准并行MERIT(92.32%)。具体来说,Small FIF-UNet在RV(91.30%)和LV(96.19%)分割上达到了最佳DICE分数,在Myo(90.24%,仅比最佳 Baseline 低0.01%)分割上排名第二。此外,提出的Tiny FIF-UNet取得了第二好的结果(92.37%),而参数数量比之前的最佳结果低109.55M。
值得注意的是,提出的FIF-UNet使用了与并行MERIT相同的预训练编码器,作者的模型在所有三个器官上都有实现更高性能的能力。这可以归因于提出的在解码器和跳跃连接上的技术模块增强了模型性能。总之,这些结果不仅证实了所 Proposal 模型的有效性,而且支持提高跳跃连接和解码器的动机。### 截面研究
为了确认三个提出的模块的有效性,选择Synapse数据集进行截面实验,并在利用预训练编码器的同时考虑模型性能。截面研究的设计主要涉及模块的单独使用或与基准的组合。截面实验结果以相关的指标列入表3中。可发现,所有的技术模块都为预期性能改进做出了贡献。具体而言,将每个模块单独集成到 Baseline 模型中,DICE得分为0.9%,0.89%和0.88%分别有所提高。此外,将每个两个模块的组合与 Baseline 相比,进一步提高了分割性能,绝对改进分别为1.35%,1.00%和1.33%。最后,所有三个模块的FIF-UNet在基准上实现了1.48%的改进。
Generalization studies
为了评估所提出模块的泛化能力,原UNet被选为基准,进行泛化实验。与消融研究类似,实验设计涉及到将所提出的技术模块单独使用或与基准相结合,以全面评估模块的有效性和适用性。如表4所示,所有提出的技术模块与UNet基准相比都提供了理想的性能提升。需要注意的是,由于实验配置的更改,表4中UNet的重新实现结果为75.65%而非基准的70.11%。具体来说,CoSE、CSI和MLF模块分别提升了DICE分数2.26%、1.99%和2.20%。当UNet使用每两个模块时,DICE分数提升了3.47%、2.70%和2.80%。最后,使用全部提出的模块,UNet的性能提升了3.92%。
综上所述,上述实验结果表明,即使使用的Backbone不同,所提出的模块都能对性能提升做出贡献,并保持一致的性能。最重要的是,作者还可以观察到,所提出的模块对于更简单的模型架构(即原始UNet)也有获取更高性能提升的能力。
Visualization results
为了更好地理解所提出的模型,本节提供了结构一致性(CSI)模块ablation研究的可视化结果图像(见图4)。根据表3中的结果,对于单独的模块和两个模块的组合,选择具有最高DICE值的模型进行可视化分析。与基准模型相比,解码器中的CoSE显著增强了模型对前景和背景特征的识别能力,从而显著减小了错误区域。特别是,对于第三行,模型成功地将胆囊目标进行分割,而基准模型则无法识别它们。结合CSI模块,每个器官的大致形状可以被定位,这意味着模型可以通过基于编码器和解码器之间不同语义信息 Level 获得的有用特征准确地理解器官的结构特征。与前一种模型相比,FIF-UNet能够通过融合不同大小的语义信息,准确地捕获每个器官的空间分布和形态细节,从而减少分割结果中的误识别散射区域。
此外,还选取了经典的SwinUNet和三个近期模型(PVT-CASCADE,TransCASCADE和Cascaded MERIT)与提出的FIF-UNet进行可视化结果比较。如图5所示,与所选模型相比,提出的FIF-UNet能够精确地定位所有器官的精确细节。在胃的分割中,所选基准模型受到与背景高度相似性的挑战,即只能部分识别器官,甚至无法检测到它们。幸运的是,提出的FIF-UNet模型在准确分割整个胃并大大降低将其错认为是胃的其他区域的风险方面显著具有优势。此外,在第二行中,也可以观察到相对于最近模型,只有FIF-UNet能够识别左肾中的空区,这说明了其在捕捉复杂结构细节方面的优势。从以上的分析中,除了定量指标外,还有更多的定性结果也支持了与 Baseline 模型的性能提升。
5 Conclusion
在这项工作中,作者提出了一种名为FIF-UNet的新模型,用于实现精确的医学图像分割,该模型有效地利用了编码器和解码器阶段的语义信息,实现特征交互与融合。
为了增强跳过连接和解码器,作者设计了一种名为FIF-UNet的三模块结构,包括CoSE、CSI和MLF。实验结果显示,与SOTA方法相比,所提出的模型在某些指标上具有优越性能。此外,所提出的三个模块也对所需性能改进做出了贡献。
最重要的是,它们还可以适应其他类似的结构,以提高总体性能,表明在分割任务中所需的泛化能力。
在未来的工作中,作者将尝试将所提出的模型应用到医学图像的其他模态,以构建一个通用的医学图像分割模型。
点击上方卡片,关注 「AI视界引擎」 公众号