基于 CNN 的 DoubleU-Net 模型,在分割任务中,性能全面超越 Transformer、Mamba 等新兴架构 !

机器学习算法图像处理

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

全景X光片龋病的精准识别与分割是实现早期诊断和制定有效治疗方案的关键。由于龋损病灶对比度低、形态多变且标注数据有限,自动化分割任务仍面临诸多挑战。本研究基于DC1000数据集,首次对卷积神经网络、视觉Transformer以及状态空间Mamba架构在全景X光片龋病自动分割任务中开展了全面的性能基准测试。研究选取12种前沿网络架构(包括VMUnet、MambaUNet、VMUNetv2、RMAMambaS、TransNetR、PVTFormer、DoubleU-Net和ResUNet++等),并在完全一致的实验配置下完成训练。实验结果表明,与当前日益倾向复杂注意力机制架构的趋势相反,基于卷积神经网络的DoubleU-Net模型取得最优性能,其骰子系数(Dice Coefficient)达0.7345、平均交并比(mIoU)为0.5978、精确率为0.8145,性能超越所有Transformer及Mamba变体模型。在所有性能指标的排名中,前三名均由卷积神经网络架构占据。尽管Mamba与Transformer类方法在全局上下文建模方面具备理论优势,但受限于数据量规模与较弱的空间先验信息,其性能表现欠佳。

上述研究结果表明,在特定领域的医学图像分割任务中,架构-任务适配性 比模型复杂度更为关键。本研究代码开源地址:https://github.com/JunZengz/dental-caries-segmentation。

{ "Head": "picture.image" }

引言

龋病是全球范围内最常见的慢性疾病之一(Abdalla, Elsayed & Ahmed, 2022;Lee, Kim & Jeong, 2021)。尽管龋病具备较强的可预防性,但它仍是导致牙齿缺失和口腔不适的主要诱因(Hirata et al., 2023)。流行病学数据显示,全球超过三分之一的人口受到未治疗龋病的影响。在儿童群体中,龋齿是最常见的慢性口腔疾病,全球受累人数约达5.14亿(2017年全球疾病负担研究·疾病与损伤发病率及患病率协作组, 2018)。因此,实现龋病病灶的早期精准检测至关重要。

传统诊断方法包括视触诊、口内X光检查、邻面牙分离术、龋病检测染色法、光纤透照法(FOTI)以及龋失补指数(DMFT)等,这些方法在临床中应用广泛。然而,它们存在诸多局限性:诊断结果依赖主观判读、不同检查者间诊断一致性差、对早期牙釉质龋损敏感性低、易出现染色假阳性,且难以检测早期或重叠部位的龋损病灶(Abdalla, Elsayed & Ahmed, 2022;Srilatha et al., 2019;Abdelaziz, 2023)。

近年来,深度神经网络推动了医学影像分析领域的变革。卷积神经网络(CNNs)在分割任务中表现尤为出色(如U-Net(Ronneberger, Fischer & Brox, 2015)及其变体模型),这得益于其从图像中学习丰富层级特征的能力。

近年来,基于自注意力机制的视觉Transformer(ViTs)(Dosovitskiy et al., 2021;Chen et al., 2021)应运而生,这类模型在捕捉全局上下文依赖关系、提升长程推理能力方面展现出巨大潜力。与此同时,一类新型状态空间模型逐渐兴起,其面向医学领域的改进模型(如VM-UNet(Ruan, Li & Xiang, 2024a)、VM-UNetV2(Zhang et al., 2024)和Rmamba-s(Zeng et al., 2025))通过选择性状态空间循环机制,实现了效率与全局建模能力的平衡。

已有多项研究证实了深度学习模型在龋病检测中的优异性能,但这些研究大多仅采用卷积神经网络,并未与Transformer及Mamba类模型展开系统性对比。在口腔医学影像领域,模型复杂度是否真的能转化为更优的任务性能这一问题,目前尚无明确答案。

为探究这一问题,本研究基于DC1000数据集开展全面的性能基准测试,在完全相同的实验条件下对不同分割架构进行严谨验证。图1展示了该数据集的图像结构多样性,涵盖全口牙列、牙齿缺失以及佩戴正畸矫治器等多种临床场景。这些案例凸显了全景X光片分析的实际挑战——解剖结构变异、金属伪影以及对比度不均等问题,为自动化龋病检测带来了极大困难。

本研究的主要贡献如下:

缩略词 :FSAA——全尺度轴向注意力机制;GT——金标准

  1. 全面性能基准测试 :基于DC1000全景X光片数据集,本研究对12种分割架构(涵盖卷积神经网络、Transformer及Mamba类模型)进行了全面的基准性能评估,验证其在龋病自动分割任务中的表现。
  2. 实验结果 :分析结果呈现出与预期相反的结论——在骰子系数、平均交并比、精确率及推理速度等指标上,卷积神经网络的性能持续优于Transformer和Mamba类模型。其中,DoubleU-Net模型取得最优成绩,骰子系数达0.7345、平均交并比为0.5978;Mamba类模型RMAMamba-S的平均骰子系数为0.6583,Transformer类模型PVTFormer的平均骰子系数为0.6733。本研究为龋病分割任务建立了全面的性能基准。相较于其他模型,DoubleU-Net的平均骰子系数提升9%,同时参数规模显著减少、推理速度更快,这一结果凸显了在数据受限的医学影像任务中, 空间归纳先验信息 的重要性。
  3. 临床价值与转化潜力 :本研究强调了该课题在口腔计算机辅助诊断领域的应用价值与转化潜力。通过定性与定量分析,明确了现有算法的优势与局限性,为临床医生在引入人工智能诊断系统时提供了关键参考依据。
相关研究

深度学习是实现口腔影像自动化诊断的核心技术之一,尤其在全景X光片龋病分割任务中发挥着重要作用。该领域早期研究主要聚焦于卷积架构,例如U-Net(Ronneberger, Fischer & Brox, 2015)及其变体模型。

Park等人(2022)采用U-Net从口内照片中分割牙齿表面区域,随后将分割结果输入ResNet-18(He et al., 2015)进行龋病图像分类,并结合Faster R-CNN(Ren et al., 2015)实现龋损病灶定位,最终将诊断准确率从0.758提升至0.813,曲线下面积(AUC)从0.731提升至0.837。

与之类似,Asci等人(2024)基于6000余张儿童X光片训练U-Net模型,验证了该模型在乳牙列、混合牙列及恒牙列中的稳定性能。

此外,为解决全景X光片自动化诊断的难题,Hamamci等人(2023)构建了DENTEX基准数据集,这是首个面向全景X光片牙齿异常检测的公开分层标注数据集。但该研究并未聚焦于分割任务,且采用平均精度(AP)/平均召回率(AR)等指标进行评估,这类指标在医学场景中存在固有缺陷,如对类别不平衡敏感、可解释性差等。

近年来,注意力机制与Transformer架构被引入该领域,旨在提升小尺寸、低对比度龋损病灶的识别能力。Zhu等人(2023)提出了CariesNet模型,这是一种集成全尺度轴向注意力机制的U型网络,在多阶段龋病分割任务中的性能优于传统卷积神经网络。

Hao等人(2024)提出了一种半监督Transformer模型SemiTNet,该模型利用未标注全景X光片数据进行训练,最终取得了最优的交并比和骰子系数。上述研究表明,口腔影像分割方法正逐步从传统卷积神经网络向注意力驱动及混合架构方向转变。

2025年,Lim等人将Faster R-CNN(Ren et al., 2015)与U-Net进行集成,有效提升了病灶级召回率。与此同时,Pornprasertsuk-Damrongsri等人(2025)设计了一种两阶段算法流水线,将YOLOv5

与注意力U-Net相结合,并基于翼片X光验证数据进行模型优化,最终实现了后牙病灶的高召回率检测。

方法

当前大多数医学图像分割方法仍以卷积神经网络为核心基础。通过堆叠多层卷积层并逐步降低特征图的空间分辨率,模型能够有效提取图像的局部与全局信息。

采用编码器-解码器结构的模型(如U-Net(Ronneberger, Fischer & Brox, 2015)、ResUNet++(Jha et al., 2019)、DoubleU-Net(Jha et al., 2020)和ColonSegNet(Jha et al., 2021))引入了跳跃连接机制,从而实现精细细节的重构,同时增强了抽象语义特征的学习能力。这类模型的优势在于训练过程稳定、对异构数据适应性强、能够保留高分辨率空间信息,因此在小尺寸、低对比度龋损病灶检测任务中具备显著优势。

Transformer类模型以自注意力机制取代了局部卷积运算,使网络能够学习图像长距离特征间的交互关系。经典模型包括TransNetR、TransRUPNet、RSAFormer和PVTFormer等,这类模型将图像划分为若干小尺寸图像块并将其转化为特征令牌,通过堆叠多层注意力层实现层级化特征构建(Jha et al., 2024c,a;Yin et al., 2024;Jha et al., 2024b)。

Transformer模型在全局上下文建模方面表现优异,但通常需要大规模训练数据和较高的计算资源支持。因此,在以精细尺度信息为主导的小样本医学影像任务中,这类模型往往难以充分发挥其理论性能优势。

近年来新兴的Mamba类架构(如VMUNet(Ruan, Li & Xiang, 2024b)、VMUNetV2(Zhang et al., 2024)、MambaUNet(Wang et al., 2024)和RMAMamba-S(Zeng et al., 2025))提出了一种全新的视觉处理范式,其核心是利用状态空间建模机制。这类模型摒弃了注意力机制,转而将信息处理转化为序列化的状态转移过程,从而在更低的计算成本下高效处理长距离依赖关系。

本研究将视觉状态空间Mamba模型作为Transformer架构的轻量化替代方案进行测试。尽管该模型具备一定的性能扩展潜力,但在全景口腔影像任务中的表现受限于数据集规模较小及龋损区域纹理变化细微等问题,这也凸显了模型进行领域适配优化的必要性。

实验设置

数据集

本研究采用DC1000数据集,该数据集包含597张高分辨率全景X光片,所有图像均由经验丰富的牙医完成龋病病灶的像素级分割标注(Wang et al., 2023)。数据集影像均来源于临床场景,确保了数据的可靠性与质量(Lee, Kim & Jeong, 2021)。

此外,该数据集的样本涵盖了广泛的人群分布,龋损病灶在尺寸、密度及位置上具有多样性,非常适用于分割任务的模型训练与验证(Ma et al., 2021)。

DC1000数据集划分为497张训练图像与100张测试图像,其中4张训练图像无对应标注掩码。该数据集未提供官方验证集划分,因此本研究基于现有训练集,按照8:2的比例进一步划分出训练子集与验证子集,以保证数据分布的均衡性。

数据集图像均为8位灰度格式,对应的标注掩码为二值图像,其中像素值0代表背景区域,像素值1代表龋损病灶区域。

实验配置

为保证实验的运行时间、吞吐量及可重复性,所有模型均基于PyTorch框架进行训练,实验硬件为单块32GB显存的NVIDIA V100显卡。

模型性能评估采用医学影像分割领域的标准指标,包括平均交并比(mIoU)骰子系数(mDSC)精确率召回率F2分数 。为确保不同架构间的公平对比,所有模型均在统一的实验配置下完成训练与评估,采用完全相同的数据划分、数据增强策略及优化器参数。实验全程遵循一致的训练流程,以保障模型性能对比的客观性。

数据增强与预处理

数据增强策略包括水平翻转随机平移旋转变换轻度缩放对比度受限自适应直方图均衡化亮度-对比度调整 。验证集图像仅进行尺寸调整与归一化处理。

模型在每个训练轮次(Epoch)结束后进行性能评估,选取验证集交并比最高的模型权重作为最优模型,以避免过拟合现象。实验过程中记录所有评估指标及损失函数值,用于后续定量分析,并通过绘图方式可视化不同架构模型的训练收敛趋势。

训练配置详情如下:

  • 优化器 :Adam
  • 损失函数 :带对数的二元交叉熵损失(正样本权重=18.0)与焦点损失(

),两者权重占比为0.5:0.5

  • 学习率 :初始学习率

,采用学习率动态调整策略(ReduceLROnPlateau),容忍度为5个训练轮次

  • 训练轮次 :最大训练轮次500,基于验证集骰子系数实施早停策略,容忍度为50个训练轮次
  • 批次大小 :4
  • 输入尺寸

(输入图像为3通道RGB格式全景X光片)

  • 数据增强操作
  1. 图像尺寸调整为
  2. 随机水平翻转(概率

) 3. 平移、缩放与旋转变换(平移范围

,缩放范围

,旋转角度

,边界填充方式为常数填充,概率

) 4. 随机亮度与对比度调整(概率

结果与讨论

定量结果

如表2所示,DoubleU-Net模型在所有模型中表现最优,其平均交并比达0.5978、平均骰子系数为0.7345、召回率为0.7009、精确率为0.8145。这一结果表明该模型在像素级重叠度与病灶边界刻画方面具有出色的一致性,凸显了其双解码器结构在捕捉微小龋损区域的优势。

尽管DoubleU-Net是2020年提出的卷积神经网络架构,但其性能优于近年来提出的Transformer类模型,这说明高效的多尺度特征融合机制 在龋病分割任务中具有极强的竞争力。

此外,U-Net模型整体性能排名第二,平均交并比为0.5836、平均骰子系数为0.7236,召回率(0.7159)与精确率(0.7649)均衡,同时边界误差较低,豪斯多夫距离(HD)为2.0022。该模型的性能均衡性使其非常适用于实时或近实时临床诊断场景。

与之相比,ColonSegNet模型的平均交并比为0.5669、召回率为0.6819,整体排名第三,同时其边界偏差较小,豪斯多夫距离为2.0945,这一结果反映出模型在分割精度与轮廓精细度之间存在权衡关系。

龋损区域在全景X光片中占比极小,这一特点放大了像素级漏检对平均交并比与骰子系数的负面影响。在一定程度上,病灶的稀疏性可以解释不同模型间召回率与精确率的差异,同时也凸显了豪斯多夫距离等边界度量指标的敏感性。

在Transformer类模型中,PVTFormer的性能最优,平均交并比为0.5291、平均骰子系数为0.6733;TransRUPNet紧随其后,平均交并比为0.5278、平均骰子系数为0.6723;而RSAFormer的性能相对较差,平均交并比仅为0.4465,且豪斯多夫距离最大,达2.3834。

在状态空间模型中,RMAMamba在Mamba类模型中表现最优,平均交并比为0.5124,精确率与召回率表现较好,且边界误差最小,豪斯多夫距离为2.2225。

综上,卷积神经网络模型当前在龋病分割任务中性能表现更优 ;Transformer类模型在全局上下文推理方面具有优势,性能表现较为均衡;Mamba类模型则在精度与效率之间取得了一定的折中。这一结果充分展现了三类模型各自的优势与权衡关系。

定性结果

(原文未提供具体内容)

计算效率分析

U-Net模型的推理速度最快,帧率达40.83 FPS;ResUNet++与DoubleU-Net模型分别以34.22 FPS和33.09 FPS的帧率位列第二、第三。由此可见,卷积神经网络架构具有极高的计算效率 ,非常适用于实时临床工作流程。

总体而言,效率分析结果进一步证实,相较于Transformer和Mamba类模型,卷积神经网络在精度与计算成本之间实现了更优的平衡

受试者工作特征曲线(ROC)分析

然而,较高的曲线下面积(AUC)并不能保证分割结果的准确性,因为分割质量不仅取决于模型的判别能力,还依赖于其生成符合解剖结构的掩码的能力。这一区别在医学影像领域至关重要,同时也解释了为何Mamba与Transformer模型尽管能取得较高的曲线下面积,但在平均骰子系数与平均交并比指标上表现欠佳。

定性分析表明,与卷积神经网络模型相比,Mamba与Transformer模型的预测结果常出现过分割现象,且难以精准捕捉病灶边界。而DoubleU-Net与U-Net模型能够将其优异的判别能力转化为更清晰、更符合临床实际的掩码边界,在空间维度上实现了真阳性与假阳性的良好平衡。

研究局限性

尽管本研究基于DC1000数据集开展了详尽的性能基准测试,但仍存在一定的局限性。首先,尽管全景X光片样本具有多样性,但相较于自然图像基准数据集,其规模仍然偏小,这可能是导致Transformer与Mamba类模型性能不佳的原因之一。其次,数据集存在类别不平衡问题,且包含大量低对比度或细微龋损病灶,这些因素均对模型性能造成了限制。

结论

本研究基于DC1000全景X光片数据集,对12种前沿的卷积神经网络、Transformer及Mamba类架构在龋病分割任务中的性能进行了全面分析。实验结果表明,基于卷积神经网络的DoubleU-Net模型取得最优综合性能,平均骰子系数达0.7345、平均交并比为0.5978、精确率为0.8145。

相比之下,尽管Transformer与Mamba类模型在判别能力上表现优异(体现为较高的曲线下面积),但往往难以将这种能力转化为精准的边界定位。上述结果表明,在医学影像任务中,模型的成功与否并不取决于复杂度高低,而更多依赖于空间归纳先验信息、数据规模以及捕捉精细纹理特征的能力

计算效率分析进一步验证了卷积神经网络的实用性,相较于Transformer和Mamba类模型,卷积神经网络实现了更优的性能-成本权衡。未来研究方向包括:通过多中心数据采集构建更大规模的口腔影像数据集;拓展分割任务的类别范围,将阻生牙、根尖

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论