U-Net 医学图像精准分割技术演进及未来路径 !

大模型向量数据库机器学习

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

医学图像通常表现出病变与周围组织之间的低对比度和模糊性,即使在同一疾病中,病变的边缘和形状也存在较大差异,这给分割带来了重大挑战。因此,精确分割病变已成为患者状况评估和治疗计划制定的基本前提。近年来,与U-Net模型相关的研究取得了显著成果。

它提高了分割性能,并被广泛应用于医学图像的语义分割,为一致性的定量病变分析方法提供技术支持。

首先,本文根据医学图像的成像方式对医学图像数据集进行分类,然后从结构修改的角度考察U-Net及其各种改进模型。详细讨论了每种方法的研发目标、创新设计和局限性。

其次,作者总结了U-Net及其变体算法的四个核心改进机制: Shortcut 机制、残差连接机制、3D-UNet和转换机制。

最后,作者考察了这四个核心增强机制与常用医学数据集之间的关系,并提出了未来发展的潜在途径和策略。本文为相关领域的研究行人提供了系统的总结和参考,作者期待设计出基于U-Net网络的更高效、更稳定的医学图像分割网络模型。

引言

计算机视觉极大地提升了医学图像处理的技术水平,降低了医务行人的工作智力要求,并提高了医疗服务质量和效率。同时,它为未来将智能医疗和远程医疗技术提升到更高层次建立了坚实的科技基础。在图像分析和识别方面,无论是传统的X光片、CT扫描、MRI,还是更高级的PET和光学成像,计算机视觉技术能够自动识别和分析医学图像中的结构和特征,如识别病变、器官轮廓和血管分布等关键信息,这有助于医生快速定位和判断可能的病变。

卷积神经网络(CNNs)具有在早期筛查和诊断疾病方面的潜力,从而提高癌症、心血管疾病和脑部病变等疾病的检测率和诊断准确性。J等人设计了一种全卷积神经网络(FCN)[1]。与CNN相比,其最显著的特点是使用卷积层而非全连接层。FCN在实现图像像素级语义分割方面开创了先河。自提出以来,它已成为构建语义分割模型的重要框架。

表1 常见医学图像数据集及其适用的网络模型

picture.image

在医学影像领域,成像模态的多样性导致了众多数据集的产生,每个数据集都表现出独特的特征。这种多样性导致不同深度网络模型在这些数据集上的性能存在差异。本研究系统地回顾了七种类型的医学影像数据集,每种数据集对应一种不同的成像模态,并分析了适用于每个数据集的最合适的深度学习模型。详细信息见表1。

提供的数据明确指出,U-Net及其变体在医学图像分割中得到了广泛应用,并确立了在该领域的主体方法。Ronneberger等人改进了FCN网络,并提出了U型网络架构,后来被称为UNet[10]。具体信息如图1所示。

U-Net的编码器通过多次卷积和池化操作提取图像特征,而解码器则通过上采样逐渐恢复特征图像。最终,通过1x1卷积映射实现图像分割。U-Net模型能够在小型数据集上训练并实现卓越的性能,这一特性在医学图像分割任务中尤为重要。医学数据集通常规模有限,标注要求相对较高,这使得大规模标注数据集的生成具有挑战性。

因此,基于U-Net的各种改进网络模型在医学图像分割研究中受到了广泛关注。

picture.image

  1. U-Net及其多种多样化形式

U-Net模型在医学图像分割领域表现卓越,这促使了各种U-Net变种的持续发展和应用。这些方法主要分为三类:第一种方法涉及优化编码器的数量;第二种方法着重于构建多个U-Net网络;第三种方法旨在开发3D UNet模型,以分割具有更复杂空间特征的图像。图2展示了某些代表性的U-Net变种。

picture.image

2.1 编码器数量的提升

图像特征通过编码器提取,而解码器则将提取的特征图重构回原始尺寸。在Y-Net、

-Net和多头密集U-Net的编码器架构中发现了显著的改进。Lan等人提出了YNet [15]网络,该网络解决了在某些特殊图像处理任务中,对复杂目标进行逆模型映射的问题,例如重构原始PA(光声)信号或波束成形图像的初始光学压力分布,如图3所示。

picture.image

大脑图像分割的最大难题在于颅内出血区域周围组织的对比度较低。为了提高分割性能,Kuang等人提出了

-Net [16],如图4所示。该网络结构呈希腊字母"

"形状,由三个并行编码器和单个解码器组成。编码器在编码层中引入了自注意力机制,在解码层中引入了上下文注意力机制,处理目标切片及其两个相邻切片。这种设计不仅增强了模型捕捉全局特征和抑制冗余信息的能力,还通过上下文注意力机制提高了局部细节的恢复。

picture.image

低信息利用的多模态数据在缺血性卒中病灶分割方法中的应用。为了解决缺血性卒中病灶分割中低信息利用的挑战,Dolz等人提出了一种多路径密集型U-Net模型[17],该模型能够有效地从多种脑部成像模态中提取特征。编码路径的输入由四个模块组成,如图5所示。这些多模态输入增强了模型捕捉和整合关键信息的能力,从而提高了分割性能。

picture.image

2.2 多个U-Net网络

网络利用多个U-Net获取图像的更多特征和多尺度信息,从而提高分割精度。多个U-Net的级联将前一个网络的输出作为后续网络的输入。夏和库利斯提出了一种完全无监督的W-Net[18](如图6所示)。U-Net网络嵌套在U型框架中,左右两侧的U-Nets分别代表收缩和扩展路径。该网络通过迭代最小化解码器的重建误差,在编码过程中包含更多输入信息,同时编码器的软归一化剪枝在反向传播中更新梯度。胡等人提出了一种耦合的U型架构[19][20],该架构将具有相同分辨率的块连接到后续的U-Net层,从而实现轻量级的U-Net模型。通过减少冗余参数和提高参数效率,这种设计最终提高了堆叠网络的效率。康等人引入了CMUnet[21]网络,该网络通过使用模块化和级联预训练的U-Nets进行文档图像二值化,旨在解决样本稀缺的问题。级联U-Net通过模块间按顺序的 Shortcut ,减少了每层中有用特征损失的问题。

picture.image

多种平行结构将U形网络以并行方式结合,为不同的U-Net网络分配不同的功能,并输入不同类型的图像。将U-Net与其他模型结合。赵等人提出了一个深度学习模型Triple U-net [22],该模型专门用于病理癌症核的分割。该模型包含三个并行分支:RGB分支从H&E染色图像中提取颜色特征,而H分支专注于从苏木精浓度图像中捕获核轮廓特征。第三个分支,分割分支,使用一个模块将RGB和H分支获取的特征融合,从而产生准确的核分割结果。通过整合多模态信息,Triple U-Net显著提高了病理图像中癌症核分割的准确性和鲁棒性。李等人提出了一种用于去噪双光子显微镜3D图像的网络Mu-net [23]。该网络由多个不同尺度的并行U形网络组成,不同尺度的图像处理过程由不同的网络提出。网络持续对图像进行下采样以生成后续输入的U-Net网络,实现从粗到细的图像重建,并构建从低频到高频的目标输出。李等人提出了一种在 Bottleneck 层引入监督的U形方法 [24], Bottleneck 层是最密集特征所在的位置。这种监督引导模型在编码过程中提取更具判别性和相关性的特征,从而增强分割性能。通过在此关键层应用额外的监督,模型可以更好地捕捉复杂模式,提高分割的准确性和鲁棒性。

2.3 三维U-Net网络

与二维图像相比,三维医学图像包含了更丰富的空间结构信息,提供了对器官和病变的更全面的立体视图。这种增强的视角有助于医疗专业行人进行更准确的诊断和治疗规划。由于其架构设计,3D U-Net可以直接处理三维数据,充分利用图像中的空间信息,并捕捉跨多个维度的特征关系。这使得模型在复杂的医学图像分割任务中实现了更高的准确性和稳定性。然而,尽管3D U-Net在处理三维医学图像方面具有显著优势,但也面临着一些挑战。例如,使用高分辨率 Voxel 图像训练3D U-Net模型通常需要大量的内存(VRAM)和计算资源。

Cicek等人设计了一种3D U-Net网络模型,用于分割三维医学图像。该模型采用3D卷积核处理体积数据,同时保持“U形”架构。它包括收缩路径和扩张路径,以及对应层之间的 Shortcut ,用于传递多尺度特征信息。这种设计有效地利用了空间结构信息,增强了模型理解三维结构的能力。通过同时捕获高分辨率细节特征和上下文信息,该模型提高了分割精度。图8展示了3D U-Net架构的细节,表2详细描述了其主要结构布局。

picture.image

picture.image

表2 3DU-Net编码器和解码器详细信息

Milletari等人引入了一种新型U-Net架构,专门针对3D医学图像分割任务。V-Net [3]保留了基本的“U形”网络结构,但针对处理3D体数据进行了优化。如图9所示,V-Net对原始U-Net架构进行了几项关键改进,包括使用3D卷积层和3D池化操作。此外,该网络集成了卷积残差单元,以增强跨多个空间尺度的特征提取。这些改进使得V-Net能够捕捉三维空间依赖关系,使其适用于三维物体分割任务。

picture.image

与U-Net不同,V-Net采用了3D卷积层,这使得其在三维空间中进行特征提取,并捕捉三维图像中的空间信息。V-Net的编码路径中包含残差单元,它们通过 Shortcut 直接将输入加到输出上。这种方法不仅缓解了梯度消失问题,还提升了特征提取的效率。V-Net的编码器和解码器细节展示于表3中。

picture.image

表3展示了V-Net的编码器和解码器细节。Hatamizadeh等人提出了一种新的“U型”架构UNETR [25],其具体细节如图10所示。该架构将卷积神经网络(CNNs)与自注意力机制相结合,实现了高效的特性提取和全局上下文整合。多分辨率跳接连接作为桥梁,连接了 Transformer 编码器和解码器,使得对复杂医学图像的精确分割成为可能。

picture.image

Aboussaleh等人设计了一种混合网络模型,该模型采用多模态磁共振成像技术,在脑肿瘤分割任务中表现出色。该模型结合了3D U-Net和ResNet的优点,在编码路径中集成了3D卷积和残差块。通过整合多模态MRI数据并利用 Shortcut ,模型有效地保留了高分辨率的空间细节,同时增强了不同模态特征的融合。3D U-VNet [9] 的网络结构细节如图11所示。

picture.image

杜等人设计了一个用于肝脏CT图像分割和心脏及血管MR图像分割的三维监督网络[26]。该网络引入了一种多层次监督机制,使得网络在不同层次实现监督学习。在每个层次生成分割预测,并逐步整合,从而提高训练效率和分割精度,同时确保性能稳定。陈等人提出了VoxResNet[27]网络,该网络能够充分利用3D图像的层间信息以分割脑组织图像,解决了由于网络深度加深而导致的分割性能下降的问题,并使用残差块加深 Voxel 块,以获得更多多模态和上下文信息,缓解网络退化。一些研究者将3D医学图像分割任务概念化为序列之间的预测任务。

2.4 半监督和无监督领域自适应

在医学图像分割领域,标注数据的稀缺性仍然是一个普遍的挑战。由于标注数据集的有限可用性,构建具有强类内紧密度和类间可分性的伪标签证明是一个重大的困难,这反过来又限制了模型性能的提升。一致性学习已成为一种有前景的方法,通过有效地利用有限的标注数据同时整合大量的未标注数据来解决这个问题。然而,在其实际应用中仍存在两个关键挑战:增强预测多样性和确保训练稳定性。解决这些挑战对于进一步提高此类模型的分割性能和鲁棒性至关重要。

张振西等人介绍了自感知与跨样本原型网络(SCP-Net)[28],该网络生成两种不同的原型预测类型,以增强语义信息交互并确保在一致性训练过程中的可控不一致性。此外,该模型利用自感知原型预测与多个预测结果之间的预测不确定性,对跨样本原型的一致性约束损失进行重新加权。这种方法减轻了在挑战区域(如低对比度区域或粘附边界)中标签噪声的负面影响,从而促进了更稳定的 consistency training 过程,并提升了模型的表现力和准确性。SCP-Net 的架构细节如图12 所示。

picture.image

图12 SCP-Net(张振西等人,2023年)的架构细节。Torbunov Dmitrii等人引入了UVCGAN,这是一种CycleGAN变体,它将一个UNet生成器与一个视觉Transformer(ViT) Bottleneck 相结合,并通过梯度惩罚和自监督预训练等高级训练技术进行增强。该模型方法解决了图像到图像翻译中的关键挑战,尤其是在需要严格循环一致性和输入输出图像之间高度相关性的应用中。UVCGAN框架在多个基准数据集上(包括Selfie2Anime和从CelebA派生的任务,如性别转换和眼镜)相较于现有模型表现出了显著的改进。该模型在Frechet Inception Distance(FID)和Kernel Inception Distance(KID)指标上取得了优异的成绩,这突显了其在不牺牲高视觉保真度的同时保留关键特征的能力。ViT Bottleneck 的引入增强了生成器学习非局部依赖关系的能力,从而提高了其捕捉复杂空间模式的能力。UVCGAN的网络结构细节如图13所示。

picture.image

图13 UVCGAN(Torbunov Dmitri等人,2022年)的架构。通过标准化的测试协议和全面的消融研究进行的严格评估突出了梯度惩罚和自监督预训练在实现最佳性能中的关键作用。然而,模型架构的内在复杂性和对大量超参数调整的依赖性限制了其泛化能力和实际应用性。未来的研究应优先考虑提高计算效率并减少对人工超参数调整的依赖,以增强模型在多样化环境中的可扩展性和适应性。

总的来说,这项研究为无配对图像到图像翻译领域做出了显著的贡献。通过将基于Transformer的架构无缝集成到CycleGAN框架中,作者们为构建更稳健、更灵活且性能卓越的模型奠定了坚实基础,这些模型能够应对各种具有挑战性的翻译任务。

郑博云等人提出了一种新颖的框架——语义保留的双域分布中断(DDSP),用于解决医学图像分割任务中的域转换问题。如图14所示,基于GAN的传统无监督域自适应(UDA)方法由于域转换不完整,存在不稳定性和语义不一致的问题。

picture.image

图14:基于联合数据适配(UDA)方法的生成对抗网络(GAN)。

DDSP框架引入了关键创新,尤其是信道相似性特征对齐(IFA)和语义一致性损失,这些创新有助于精确对齐源域和目标域的特征,同时保持语义完整性。在三个公开数据集——心脏、脑肿瘤和前列腺分割——上的严格验证表明,该框架的性能优于最先进的无监督学习(UDA)方法。令人瞩目地,DDSP实现的Dice相似度得分接近全监督模型,凸显了其有效性和潜在的巨大影响。DDSP架构的细节展示于图15中。

picture.image

图15 DDSP框架的架构(Boyun Zheng等人,2024年)然而,对分布变换的依赖性以及对计算效率的探索有限可能限制了其在不同临床场景中的可扩展性和适用性。未来的研究应聚焦于自动化参数优化,并将验证扩展至涵盖更多的成像模态和数据集,以增强框架的鲁棒性和实用性。

总结来说,本研究对医学图像分割领域做出了重要贡献,解决了基于GAN的 未标注 数据扩充(UDA)方法的基本局限性,包括不稳定性和语义不一致性。通过提供一个鲁棒且领域无关的DDSP框架,为更可靠和可扩展的解决方案铺平了道路,推动了分割模型在多种医学影像应用中的临床应用价值。

  1. 改进方法与策略

为了提升原始U-Net模型在网络性能、效率、准确性和泛化能力方面的表现,引入了多项改进。这些改进涵盖了U-Net架构的多个方面,包括数据增强、卷积操作、下采样操作和上采样操作、模型优化策略以及 Shortcut 。这些修改共同促成了一个更稳健且有效的U-Net模型,能够在各种应用中展现出卓越的性能。

3.1 数据增强。

数据增强在提升U-Net模型性能中扮演着至关重要的角色,它通过人工扩展训练数据集来帮助减轻过拟合问题,并提升模型的泛化能力。数据增强通过应用多种变换,如旋转、平移、缩放和翻转,对原始图像进行处理,从而创建更加多样化和丰富的训练样本集。这种多样性使得U-Net模型能够学习到更加鲁棒的特征,使其更擅长处理未见数据中的变化和噪声。此外,数据增强还能模拟不同的成像条件和场景,进一步增强模型在实际应用中准确和可靠执行的能力。数据增强技术确保U-Net模型在全面的数据集上进行训练,从而提高性能、提升准确性和增强分割任务中的效率。

数据增强的方法大致可以分为两大类:基础数据增强和高级数据增强。基础数据增强主要涉及对图像位置或颜色的修改。相比之下,高级数据增强主要指的是图像融合和自动增强。具体的分类信息如图16所示。

picture.image

3.2 网络改进机制。

通过残差连接、密集层、注意力机制及其组合,实现了U-Net网络分割性能的提升。

3.2.1 残差神经网络机制

ResNet[31]是由何等团队提出的一种深度学习模型。当年,该模型在ImageNet竞赛的分类和目标检测任务中均取得了第一名。ResNet的主要创新点在于解决了深度神经网络训练中的退化问题,使得网络能够有效训练至非常深的层次,突破了先前网络深度的限制。伊布泰哈兹和拉赫曼提出了一种名为MultiResUNet[32]的网络,用于皮肤镜图像分割,通过用多分辨率块替换收缩和扩张路径中的卷积操作。多分辨率块从三个大小为

的卷积块中获取输出,并通过并行连接获得不同尺度的中间特征。卡纳等提出了一个用于肺CT图像分割的残差U-Net[33]模型。该模型将残差块整合到U-Net架构的收缩路径中,有效防止了网络退化,并显著降低了计算消耗。萨拉伊卡等引入了一种新型密集残差U-Net[34],这是一种旨在提高图像分割任务的深度学习架构。该模型在U-Net框架内将密集连接与残差块结合,使得整个网络中的特征传播和复用更加高效。密集和残差连接的结合极大地增强了模型捕捉特征的能力,同时保持了相对较低的参数数量,从而提高了模型解决复杂分割任务时的准确性和降低了计算成本。其架构如图17所示。

picture.image

3.2.2 密集卷积网络机制。

黄等人提出了一种基于ResNet[13]的密集卷积网络,该网络在输出和输入之间建立了并行连接。这有效地缓解了梯度消失问题,增加了特征的复用性,并最小化了网络计算中使用的参数。黄等人还提出了一种新颖的

[35]网络,该网络利用了广泛的深度监督下的完整 Shortcut 。该方法将不同尺度下合并的详细信息与高级语义概念集成,使其特别适用于多尺度器官分割。这种模型方法在减少网络参数的同时提高了精度,增强了计算效率。此外,网络模型中增加了结合损失函数和分类驱动模块的结构,以锐化边界,避免过度分割,并获得更准确的结果。向等人提出了一种带有解码器路径 Shortcut 的双向O型网络(BiO Net)[36],在编码器和解码器之间建立了O型循环路径。这种O型模型可以递归多次重复,以提高性能而不会引入额外的参数,这有助于避免过拟合。伊布特哈兹和拉赫曼提出了MultiResUNet[32],该网络使用卷积层序列形成残差 Shortcut ,增强了网络的学习能力,使其更容易描绘模糊边界。刘等人设计了一种分割模型TransUNet+[37],通过重新设计 Shortcut 增加了一个特征增强模块。该网络通过利用评分矩阵的列向量构建图像特征之间的关系,以强化特征表示。图18展示了基于U-Net框架的四种不同的 Shortcut 结构。

picture.image

3.2.3 Transformer 机制。

为了提高医学图像分割的准确性,以实现更好的临床效果,通过丰富上下文信息,语义分割有效地实现了对医学图像中患者病变与周围组织的区分,并阐明了单个图像块内的联系。 Transformer 架构通过利用堆叠的编码器-解码器结构,有效地避免了循环,提供了一个最优的解决方案。编码器在每个层中由两个子层组成:一个多头注意力组件和一个前馈连接组件。相反,解码器在每个层中有三个子层:一个 Mask 多头注意力组件、一个多头注意力组件和一个前馈连接组件。每一层组件都集成了残差连接和正则化层。完整的架构如图19所示。

picture.image

多种算法结合Transformer和U-Net构建用于病灶分割的网络。Chen等人引入了TransUNet[38],该算法结合了U形结构和Transformer的优点。Transformer能够从卷积神经网络的特征图块中编码和提取全局顶部和底部区域。针对文本输入序列信息,解码器对编码特征进行采样,随后与高分辨率CNN特征图相结合,以实现精确定位,协助U-Net恢复局部空间信息,并在Synapse中实现精确分割。器官分割的结果显示,TransUNet的性能优于U-Net。TransU-Net架构如图20所示。

picture.image

在结肠息肉、皮肤和前列腺分割任务中,张等人开发了TransFuse [39]模型,该模型具有并行分支架构,包含两个编码器分支:DeiT-S作为 Backbone 分支以提取全局信息,ResNet作为CNN分支的 Backbone 以捕捉局部信息。这两个编码器分支用于在BiFusion模块中执行分支操作。TransFuse代表了第一个将CNN与 Transformer 合并的并行分支模型,以克服梯度消失和特征衰减的问题。图21展示了Transfuse网络架构的细节。

picture.image

曹等人设计了基于Transformer的U形网络Swin UNet [40],该网络将双Transformer块作为编码器、解码器和瓶 Neck 分,如图22所示。该方法在Synapse和ACDC分割数据集上展示了良好的分割精度和鲁棒的泛化能力。

picture.image

兰斌等提出了一种名为BRAU-Net++[41]的U型混合卷积神经网络(CNN-Transformer)架构,其核心构建块为双路径注意力机制。该网络采用动态稀疏注意力代替传统的全注意力或手动设计的静态稀疏注意力,在显著降低计算复杂度的同时,能够有效地学习局部和全局语义信息。此外,还引入了一种新型模块,称为 Shortcut 通道空间注意力(SCCSA),以整合多尺度特征,弥补空间信息损失,并增强跨维度交互。

该方法在Synapse多器官分割、ISIC-2018挑战赛和CVC-ClinicDB数据集上的几乎所有评估指标上均展现出最先进(SOTA)的性能。值得注意的是,该方法在捕捉小目标特征方面表现出色,解决了医学图像分割中一个长期存在的挑战。在未来的研究中,目标是设计更复杂和通用的架构,以进一步提高所提方法的应用性和鲁棒性。图23展示了BRAU-Net

网络架构的详细信息。

picture.image

图23 BRAU-Net++架构(Libin Lan等,2024年)

3.2.4 注意力机制。

DCSAU-Net[42]是由徐青等人提出的一种新型编码器-解码器架构,专为医学图像分割设计。该模型有效地解决了传统U-Net架构的关键局限性,包括在不同深度上特征提取不足以及处理复杂医学图像的效率低下。所提出的框架通过全面的实验和深入的消融研究进行了严格评估,阐明了每个组件对整体性能的具体贡献。

尽管其设计稳健且已证明有效,但仍存在某些局限性。将模型扩展到3D分割并提高其处理具有高前景-背景相似度的图像的能力,是未来研究的有希望的方向。总体而言,这项工作在医学图像分割领域取得了重大进步,将稳健的性能与计算效率相结合。进一步优化和调整架构可以增强其泛化能力和应用于更广泛分割任务的能力。完整的架构细节请见图24。

picture.image

图24 DCSAU-Net架构(Qing Xu等人,2023年)Md Mostafijur Rahman等人提出了一种高效且创新的解码器架构,旨在解决医学图像分割中普遍存在的计算挑战。通过利用多尺度深度可分离卷积块,并集成包括通道注意力、空间注意力和大核分组注意力在内的高级注意力机制,所提出的EMCAD[43]框架提高了准确性和效率。

对12个基准数据集在六个分割任务上的实证评估表明,EMCAD表现卓越。它通过显著降低计算复杂度,达到了最先进的成果,参数数量比竞争方法减少了79.4%,浮点运算次数减少了80.3%。

这些成果归因于新颖的多尺度卷积注意力模块(MSCAM)和大型核分组注意力门控(LGAG),它们各自的作用通过全面的消融实验得到了验证。尽管EMCAD具有优势,但其当前实现仅专注于二维医学图像分割,这可能会限制其在三维成像任务中的应用。EMCAD在医学图像分割方面取得了重大进步,在计算效率与高分割精度之间取得了平衡。其模块化和可适应的设计使其成为医学图像分析更广泛应用的潜在工具。完整的架构细节见图25。

picture.image

4 评估指标。

选择合适的评估指标取决于具体的应用场景和需求;例如,如果关注的是边界精度,豪斯多夫距离或平均表面距离可能是更合适的选择;如果关注的是整体分割精度和一致性,Dice系数或Jaccard指数可能更为适用。在实际应用中,通常需要考虑各种指标来全面评估模型的表现。

4.1 棋盘相似系数(Dice相似系数,DsC)

DsC是一种通过交集与并集的比值来衡量相似度的统计指标。其值域介于0和1之间,其中1表示两幅图像完全相同,其计算公式如下:

4.2 杰卡德指数(Jaccard Index,简称JI)

类似于DsC,但采用了略有不同的计算方法,它侧重于测量与真实分割区域(

)匹配的预测分割区域(

)。

4.3 均值交并比(Mean Intersection over Union,MIoU)

MIoU(平均交并比)是广泛用于评估模型在分割任务中性能的一个评价指标。IoU首先通过以下公式计算重叠和合并部分的比率:

代表真实图像区域,而

代表预测图像区域。MloU 表示所有类别上的平均交并比(IoU)。假设存在 m 个类别,MloU 的计算公式如下:

4.4 豪斯多夫距离(HD)

豪斯多夫距离(Hausdorff Distance,简称HD)是一种在数学和计算机科学中用于测量两个几何形状之间差异的度量方法。它通过计算两个形状中点集之间的最远距离来定义,是形状分析中的一个重要工具。在人工智能领域,豪斯多夫距离常用于图像处理、模式识别和机器学习任务中,尤其是在需要比较和匹配几何形状的场景中。

在衡量医学数据集分割的有效性时,通常使用高重合度(HD)来表示预测分割与真实分割的准确性。HD的值反映了预测轮廓与分割目标真实轮廓的相似程度。高重合度的计算公式如下:

准确率表示正确预测的样本数量占总样本数量的比例。

回忆率1(灵敏度)

回忆一下,这同样被称为敏感性,它缩小了样本比例的范围,仅计算正样本的比率,并将正确预测的样本数与实际样本数之比。在医疗诊断应用中,对假阴性风险的敏感性至关重要,因此召回率是一个关键的评估指标。召回率定义为:

  1. 挑战与解决方案

5.1 医疗数据集的局限性

大多数针对医学数据集的分割方法依赖于监督式深度神经网络模型,而高质量的医学图像分割标注需要专家级知识,这需要大量的时间和高昂的成本。此外,人工标注难以避免主观错误。基于ViT架构的模型需要足够的样本来建立全局关系,而大多数医学图像数据集的规模都无法满足预训练需求。

通常,这一问题通过数据增强方法来解决,例如Ronneberger等人设计的弹性变形[10],它通过随机位移向量生成原始图像的平滑变形;Beji等人提出了Seg2GAN[44],用于合成数据增强的数据分布;Milletari等人提出了V-Net[3],可以将任意变换的非线性图像输入到密集变形场中;Wu等人提出了D-former[45]扩展概念,其中自注意力机制捕捉特征信息,即使样本量较小也能提取全局信息。

5.2 模型泛化不足。

在医学图像分割中,感兴趣区域与整个图像的比例通常非常小,这体现在正负样本之间的极端不平衡。一般来说,很难维持同一网络模型在不同医学图像数据集分割中的稳定性能。通过微调预训练模型的某些参数,可以执行迁移学习以适应其他数据集,但 Token 数据是不可避免的。因此,从新的领域收集大量数据以重新训练网络会带来显著的成本。

Yan等人提出,Unet-GAN[46]通过外部访问Cycle-GAN网络,改变当前数据中的特征分布,以适应原始域的分布,从而确保跨数据集的分割精度;Huang等人提出,3D U2-Net[47]在编解码器内部应用域 Adapter ,进行深度可分离卷积,以适应不同的数据集,实现多器官分割;Isensee等人提出nnU-Net[7],它收集目标数据集的特征来设计分割算法,调整各种超参数,并提高模型泛化性能。应用于医学图像数据集分割领域的无监督学习方法可以分为两类:域适应和域泛化。这些方法在源域和目标域的特征空间和类别空间中实现一致性,同时确保特征的分布一致。由于这两种方法仍然需要大规模数据标注,因此开发少量数据标注的无监督学习模型已成为医学图像分割模型的重要未来方向。

5.3 弱鲁棒性和较差的稳定性。

在医学图像分割领域,分割模型需要保持良好的性能,并有效提高面对模糊、低对比度和阴影等医学图像的鲁棒性和稳定性。一个稳定且鲁棒的模型可以提供更准确的分割结果,并支持医生制定更准确的诊断和治疗计划,从而提高患者护理的质量与安全性。提升U-Net模型的稳定性和鲁棒性,可以从以下三个方面着手。

5.3.1 正则化

正则化:通过向损失函数中添加一个权重惩罚项来避免模型过拟合。dropout:通过随机丢弃一部分神经元,削弱神经元间的相互依赖,从而提高模型的一般化能力。

5.3.2 损失函数优化

骰子损失:在分割任务中,骰子损失能更好地处理前景和背景不平衡的情况,从而提高分割精度。Focal Loss:基于交叉熵,对难以分类的样本赋予更高的权重,以帮助模型专注于学习这些困难样本。

5.3.3 训练策略

学习率调度:通过动态调整学习率,如余弦退火和指数衰减,以促进模型的稳定收敛。早停法:在验证数据集时,实时监控模型性能曲线,当曲线趋于平坦时终止训练,避免过拟合。

本研究提出的解决方案结合了对医疗图像标注数据稀缺问题的研究,并未完全消除这一基本缺陷,可能限制了深度网络模型的发展。然而,许多学者的改进可以在有限数据的情况下提升模型性能。表4至6对比了每个网络结构改进工作的优缺点。

picture.image

结论

医学图像分析和处理领域最大的挑战一直是图像分割。准确的医学图像分割是病理组织三维可视化、手术模拟和图像引导手术的基础。这是实现准确诊断和制定最佳治疗方案的最关键环节。

本研究全面回顾了U-Net模型及其四个主要变体,评估了它们在各种医学成像模态和数据集上的性能。

此外,它深入探讨了这些基于U-Net的变体的应用场景、架构组成以及性能提升,有助于全面理解U-Net模型的发展方向和改进策略。

尽管图像分析领域仍面临挑战,但U-Net架构在医学数据集的分析和处理中具有显著的创新潜力和价值。基于U-Net框架的网络设计进步有望在未来显著提升性能。

参考

[1]. A Comprehensive Review of U-Net and Its Variants: Advances and Applications in Medical Image Segmentation .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论