点击下方卡片,关注「集智书童」公众号
导读
物联网(IoT)技术在肺结节检测中的应用显著提升了检测系统的智能化和实时性。目前,肺结节检测主要关注实性结节的识别,但不同类型的肺结节对应着各种形式的肺癌。多类型检测有助于提高整体肺癌检测率和治愈率。
为了在结节检测中实现高灵敏度,对YOLOv8模型进行了针对性的改进。首先,引入了C2f_RepViTCAMF模块来增强 Backbone 网络中的C2f模块,从而提高了对小肺结节的检测精度,并实现了轻量级模型设计。其次,集成了MSCAF模块来重构模型的特征融合部分,提高了不同尺度肺结节的检测精度。此外,将KAN网络整合到模型中。通过利用KAN网络强大的非线性特征学习能力,进一步提高了对小肺结节的检测精度,并增强了模型的一般化能力。
在LUNA16数据集上进行的测试表明,改进后的模型在各个评估指标上均优于原始模型以及其他主流模型,如YOLOv9和RT-DETR。
- 引言
肺癌是全局恶性肿瘤导致死亡的主要原因。尽管医疗技术在显著进步,但死亡率仍然很高,对全局公共卫生系统造成了巨大压力。早期检测和诊断至关重要,因为及时干预可以显著提高生存率[1-3]。肺结节通常是肺癌的首个迹象。这些结节通常无症状,容易被忽视,但早期检测可以允许进行干预,从而大大提高成功治疗的机会。肺结节在CT扫描上通常表现为圆形或椭圆形阴影,直径从3毫米到30毫米不等。它们形状和大小的变化给临床医生带来了挑战,尤其是当结节较小或不规则时[4, 5]。目前,CT扫描是筛查肺结节最广泛使用的无创诊断工具。然而,由于结节特征的变异和肺环境的复杂性,准确检测小结节和早期结节仍然是一个重大挑战。
物联网(IoT)[6-8]的近期进展为解决早期肺癌检测的局限性提供了有希望的机遇。物联网设备[9-15]允许进行持续的患者监测、实时数据收集以及诊断工具的无缝集成,从而改善整体检测和管理过程,如图1所示。例如,可穿戴传感器可以追踪患者的呼吸模式和生命体征,提供有价值的数据,这些数据可以与CT扫描结合分析,以识别肺部异常的早期迹象。此外,物联网连接的CT扫描仪可以自动将影像数据上传到基于云的平台,其中基于深度学习的先进目标检测算法可以实时处理信息。这种持续的数据流确保了及时获取关键的诊断信息,便于早期干预。
近年来,目标检测技术在自动化医学诊断领域受到了广泛关注。计算机视觉技术利用目标检测算法自动分析医学影像数据,高效地识别和定位可疑区域,从而提高了诊断的准确性和效率[16-22]。这些现代方法优于传统方法,后者依赖于人工标注和临床医生的经验。通过提高诊断准确率,它们能够使治疗决策更加精确。深度学习驱动的目标检测算法在解决医学影像中的许多挑战方面已被证明非常有效。两阶段检测算法,如区域 Proposal 网络(RPN)随后进行细化步骤,已成为该领域的标准方法[23-32]。然而,这些两阶段算法受到高误报率的困扰,尤其是在处理复杂背景或可变结节形状时[33, 34]。这导致误报检测数量过多,降低了诊断效率。此外,这些方法需要大量的计算资源和时间,尤其是在处理高分辨率医学图像时[35-40]。虽然两阶段算法在特定情况下表现出强大的准确性,但在临床应用中它们面临着重大挑战。
物联网(IoT)[41-45]的集成对于克服传统两阶段检测算法的局限性至关重要。物联网设备可以收集大量的患者数据,包括来自可穿戴设备、电子健康记录和环境传感器的数据。这个丰富的数据集使得检测算法的训练更加全面,从而提高了它们在复杂背景下区分良性结节和恶性结节的能力。物联网还实现了分布式计算资源,这有助于高分辨率图像的实时处理和分析。这消除了对集中式、资源密集型基础设施的需求,加速了检测过程,同时增强了可扩展性,使得High-Level诊断工具在多样化的临床环境中更加易于获取。
为了解决两阶段检测算法的不足,研究行人开发了单阶段检测算法[46-53]。这些算法将检测和假阳性抑制步骤结合到一个统一模型中,实现了更快的检测速度。单阶段算法直接使用深度神经网络预测结节类别和位置,消除了传统两阶段方法特有的 Proposal 生成和后处理步骤。这导致计算时间和资源消耗减少。此外,单阶段算法具有高精度,非常适合需要实时处理或大规模数据筛选的应用。然而,单阶段模型仍面临挑战,尤其是在检测小结节或处理高背景噪声干扰时。这些算法往往错过或误检较小的肺结节或被其他组织遮挡的结节,尤其是当结节形状不规则或较小时。在提高单阶段算法对小结节敏感度的同时,最大限度地减少误报,仍然是该领域的一个重大挑战。
将物联网(IoT)集成到单阶段检测框架中对于通过提供实时数据流和支持持续学习来提升模型性能至关重要。物联网基础设施能够实现成像数据的实时收集和传输,这些数据可以立即由运行在边缘设备或云平台上的单阶段算法进行处理。实时处理确保检测模型能够持续更新,以获取最新的患者数据,提高对微小结节检测的敏感性,并减少误报。此外,物联网还实现了环境和生活数据的无缝集成,为进一步细化结节检测算法的准确性提供了宝贵的信息。
YOLOv5是一种领先的单阶段目标检测算法,以其计算效率和在各种计算机视觉任务中的卓越性能而闻名。它特别擅长处理空间信息,并在目标检测方面取得了显著成果。YOLOv5的自适应 Anchor 框计算和增强的特征融合机制提高了结节检测的速度和准确性[54]。其多尺度特征融合增强了模型检测不同尺寸目标的能力,使其在复杂背景下表现良好。尽管性能强大,但在处理复杂背景和微小目标(如肺结节)时,YOLOv5仍存在局限性。肺结节的小尺寸、多样的形状以及频繁的遮挡——尤其是在密集解剖区域内的肺结节——对YOLOv5的特征提取和定位能力构成了挑战。虽然YOLOv5在速度上表现出色,但其准确性和鲁棒性在精细医学成像任务中仍需进一步提高。因此,研究行人正在探索将先进技术(如Transformer)集成到YOLOv5中,以克服其在捕捉细节和识别微小目标方面的不足。
本文介绍了CPLOYO,一种旨在快速准确地检测医学影像中小型肺结节的创新目标检测方法。CPLOYO的架构集成了先进的技巧,旨在提升检测的准确性和效率。它具有以下特点:在主干网络中采用像素级空间注意力(PSA)机制以提升像素级特征提取,以及在 Neck 采用卷积块注意力模块(CBAM)以增强特征融合。该模型引入了一个轻量级且功能强大的检测模块C2f_RepViTCAMF,它结合了RepViT和上下文注意力以及多尺度特征融合(CAMF)的优势,有效地检测小型且复杂的目标,如肺结节。此外,CPLOYO还使用了特征金字塔网络(FPN)和路径聚合网络(PAN)以及CBAM模块。CPLOYO的关键创新是KAN-Bottleneck层,它用一种新颖的学习型激活机制取代了传统的多层感知器(MLP)结构。
这项创新确保了即使在最具有挑战性的检测任务中,网络性能也能达到最优。
-
- 基于PSA和CBAM的增强特征提取:通过整合像素级空间注意力(PSA)和卷积块注意力模块(CBAM),CPLOYO在多个层面——空间和通道层面——增强了特征提取过程,从而提高了对肺结节等小型和复杂物体的检测能力。
-
- 基于C2f_RepViTCAMF的轻量级快速检测:引入RepViT模块,通过结构重参化和多尺度上下文捕获进行优化,增强了模型检测小肺结节的能力,同时保持了快速训练和推理速度。
-
- 创新的KAN Bottleneck 结构以提高表达能力:KAN Bottleneck 结构用灵活、可学习的激活函数替换了传统的MLP层,使网络能够捕捉高维数据中的更复杂关系,从而提高检测准确性和在复杂任务中的性能。
-
相关工作
2.1 传统机器学习
肺结节检测算法中的一个关键挑战是准确定位结节的位置。
传统方法通常涉及手动特征提取,然后将这些特征输入到分类器中,以检测和分类CT图像中的肺结节。Croisille等人证明了从CT图像中提取肺血管并进行自动分割可以显著提高肺结节的检测效果[55]。Kostis采用了一种三维方法来检测CT成像中的肺结节,讨论了各向异性CT数据的各向同性重采样技术和基于三维强度和形态特征的分割算法。他开发了一种新的模型来表征纵向CT研究中的体积增长[56]。Massoptier等人使用通过阈值和形态学技术生成的肺实质 Mask ,尽管他们在某些图像中仍然遇到了过度分割和不足分割的挑战[57]。Messay及其团队利用了各种肺结节特征信息,结合强度阈值和形态学处理,在肺结节检测中取得了良好的效果[58]。Kumar等人提出了一种基于达尔文粒子群优化(DPSO)和分数阶达尔文粒子群优化(FODPSO)的二维Otsu算法,用于从CT图像中分割肺实质[59]。
此外,传统的机器学习方法也广泛应用于肺结节检测。叶等人使用模糊阈值法进行肺实质分割,随后利用体积形状指数图和点图增强肺结节的物体表示。接着,采用基于规则的方法消除易于移除的结节候选者,并使用支持向量机(SVM)进行分类,以减少误报率[60]。张静等人引入了SVM和基于规则的方法用于肺结节识别。在网络操作中,首先排除无关的候选目标,然后筛选出潜在的肺结节目标,并使用SVM进行目标分类,最终得到识别结果。卡恩等人[61]对图像进行了对比度增强、分割和特征提取处理,随后使用预选分类器对提取的特征进行训练和测试。实验结果表明,该方法在降低误报率(FPRs)方面非常有效,并显示出高灵敏度。梅塞等人结合强度阈值和形态处理来检测和分割候选结节,并使用顺序前向选择确定两种不同分类器的最佳特征子集,实现了更高的检测率。李等人利用费舍尔线性判别分析(LDA)对结节进行最终分类;然而,这种方法可能会导致网络泛化性能下降[62]。墨菲及其团队提出了一种胸部CT扫描中结节自动检测方案,并进行了广泛的评估。他们结合了肺体积中候选结构的形状和局部图像特征,使用两个连续的K-最近邻(K-NN)分类器来降低误报率[63]。托加卡尔等人通过结合AlexNet和K-NN分类器实现了最高的分类精度。他们在深度特征集上应用最小冗余最大相关(mRMR)特征选择方法来选择最有效的特征,然后用于K-NN分类,从而提高了精度[64]。霍金斯等人使用随机森林分类器和23个稳定特征实现了最佳模型,优于肺图像数据库联盟(LIDC)和形态学方法[65]。李及其团队提出了一种创新的集群辅助集成分类方法,利用随机森林算法和集群辅助构建基于混合随机森林的肺结节分类结构,以实现卓越的分类性能[66]。
尽管传统的肺结节检测方法在满足计算机辅助诊断系统对检测效果的要求方面取得了一些成就,但这些方法由于基于经验设计特征,存在明显的缺陷。因此,为了提高肺结节检测的准确性,检测模型必须进行优化。
2.2 深度学习方法
随着深度学习技术的发展,尤其是卷积神经网络(CNNs)的进步,一种更有效的肺结节检测方法应运而生。CNNs能够在训练过程中自动学习关键特征,解决手动设计特征的局限性,并增强网络的特征提取能力[67-69]。目前,基于深度学习的肺结节检测算法主要分为两大类。一类采用单阶段算法,直接通过网络模型对输入数据进行分类和回归,利用 Anchor 框概念进行肺结节检测。另一类使用两阶段检测算法,首先生成候选区域,然后进行检测。Lo等人开发了用于肺结节检测的双匹配方法和人工视觉神经网络技术。他们首先使用球形模板双匹配技术进行高灵敏度圆形物体初始结核病搜索,人工CNN作为最终分类器确定可疑图像是否包含肺结节,该方法的总体处理时间约为15秒[70]。U-Net因其卓越的医疗图像分割性能而受到广泛关注。其架构基于全卷积网络,但通过引入 Shortcut 进行了优化[71]。这些 Shortcut 允许网络在不同层合并Low-Level和High-Level特征,有助于保留更多空间信息。周等人提出了一种更稳健的医疗图像分割架构
,该架构引入了嵌套密集 Shortcut ,使编码器和解码器子网络之间的协作更加紧密,为医疗图像分割任务提供了更优的性能[72]。张等人提出了一种基于注意力机制和特征金字塔的肺结节检测算法。通过使用ResNet Backbone 网络结合通道-空间注意力机制,网络提取了更多的语义和位置信息。在预测阶段,使用特征金字塔网络融合多尺度特征,提高了对小结节和血管附近结节的检测性能。鉴于肺结节通常尺寸较小,通常在3-6毫米之间,图像分割可能会面临如漏检和模糊边界等挑战。因此,许多肺结节检测领域的专家和研究行人一直在努力解决这些问题。
Faster R-CNN采用两阶段检测方法[73]。首先,区域 Proposal 网络(RPN)提取候选边界框,然后使用区域兴趣(Rol)池化将其映射到固定大小的特征图。最后,这些特征通过分类器和边界框回归器进行处理,以执行目标分类和定位细化。通过整合RPN并采用两阶段检测策略,Faster R-CNN显著提高了目标检测的准确性和效率,成为该领域的经典模型之一。El等人[74]在第二阶段使用Faster R-CNN和SSD,以Inception-V2作为 Backbone 网络,在LUNA16数据集上实现了96.4%的灵敏度。Tong等人将迭代自组织数据分析技术引入Faster R-CNN模型,通过利用3D卷积神经网络来利用CT图像的3D特性,并使用Focal Loss来解决类别不平衡,从而降低了误报[75]。Setio等人提出了一种多视图卷积网络,结合了从三个针对实性、亚实性和大结节设计的专用结节检测器获得的候选者。该网络在每扫描1个和4个误报的情况下分别实现了85.4%和90.1%的高检测灵敏度[76]。
与传统2D方法相比,3D卷积神经网络(CNNs)利用其专为3D样本设计的层次结构,这使得它们能够更有效地捕获丰富的空间信息。这增强了模型感知和理解数据的能力,从而获取更具代表性的特征。针对肺结节在广泛变异和复杂模拟中带来的挑战,Dou等人[77]提出了一种简单而有效的策略来捕获多级上下文信息。Zhu等人[78]考虑到CT数据的3D特性和双路径网络的特点,提出了两个用于结节检测和分类的深度3D双路径网络。在LIDC-IDRI数据集上的验证表明,他们的方法在结节和患者水平上的诊断性能与经验丰富的医生相当。Zhao提出了一种基于3D CNN的肺结节检测算法,该算法具有多尺度注意力机制,可以从空间和通道两个角度探索特征之间的关系。这加强了特征,使其更有利于目标定位和边界框回归。
肺结节检测的准确性和可靠性在很大程度上受到数据处理方法的影响,尤其是在图像预处理和特征提取阶段。Worku J引入了一种“先降噪”的双路径卷积神经网络(CNN)用于CT图像降噪,在实验中取得了有希望的结果[79]。Wang等人对超分辨率生成对抗网络(SRGAN)的核心组件进行了深入研究,包括网络架构、对抗损失和感知损失,并提出了对这些组件的改进。他们引入了增强超分辨率生成对抗网络(ESRGAN),旨在实现更高的视觉质量,使生成的图像在纹理上看起来更加真实和自然[80]。卷积神经网络在医学图像处理方面取得了显著进展,为疾病诊断和分析提供了有效的工具。
- 方法
作者提出了一种名为CPLOYO的目标检测器。在主干网络中,作者引入了像素级空间注意力(PSA)机制,该机制增强了模型在训练过程中提取目标特征的能力,从而提高了目标检测的性能。在 Neck 网络中,作者引入了卷积块注意力模块(CBAM),该模块进一步提升了特征融合和信息传播,从而提升了模型的整体性能。
图2展示了CPLOYO的架构。C2f_RepViTCAMF模块通过结合RepViT架构和多尺度上下文增强,利用深度可分离卷积降低计算复杂度,并通过多尺度上下文捕获增强局部和全局信息的融合,从而提高了模型检测小肺结节的能力。CPYOLO Neck 模块集成了特征金字塔网络(FPN)和KAN瓶 Neck ,以实现有效的多尺度特征提取,优化特征学习过程,而CBAM模块通过通道和空间注意力机制进一步强化了模型对关键信息的关注。这两个模块的创新设计显著提升了模型在医学图像中小目标检测的准确性和效率。
3.1. C2f_RepViTCAMF
C2f_RepViTCAMF模块旨在提高模型检测小肺结节的准确性和效率。在医学影像中,尤其是在检测肺结节时,小尺寸和细粒度特征往往难以捕捉。该模块通过改进特征提取和上下文融合过程来应对这些挑战,使模型能够准确检测小目标,同时保持计算效率。它利用改进的RepViT模块并引入了上下文注意力与多尺度特征融合(CAMF)模块。这些进步对于实现实时医学图像分析的高性能至关重要,使模型能够高效地捕捉细粒度特征,整合多尺度信息,并快速处理医学图像。改进的网络架构如图3所示。
RepViT模块的设计目标是实现一个轻量级架构,同时不牺牲性能。它解决了计算和内存开销过大的问题,尤其是在医学图像分析任务中,高精度和效率至关重要。为了实现这一目标,RepViT采用了结构重参化方法,在训练阶段学习 Shortcut ,而在推理阶段去除,从而降低计算负载。此外,RepViT模块通过两个不同的混合器分别处理空间和通道信息,增强了模型高效处理这两种类型信息的能力。然而,当处理小而复杂的目标,如肺结节时,RepViT仍面临挑战,因为这些结节通常位于肺部的细粒度区域。这正是RepViTCAMF模块发挥作用的地方。
RepViTCAMF模块的引入显著改进了原始的RepViT,通过引入多尺度上下文增强操作。这些操作解决了在复杂医学图像中检测小型、分散目标的问题。该模块利用深度可分离卷积,通过解耦空间和通道卷积来降低计算复杂度,同时仍保持有效的特征提取能力。这使得模型能够专注于小型物体,而不会因过度的计算而超载系统。此外,RepViTCAMF中的多尺度上下文捕获模块增强了模型同时捕获局部和全局特征的能力。这对于小肺结节尤为重要,因为模型需要整合来自局部图像细节和更广泛上下文模式的信
C2f_RepViTCAMF架构中的每个模块都对整体模型的检测能力提升做出了贡献。RepViT模块作为基础,提供了一个轻量级且优化了效率的设计。其结构重参化和空间与通道信息处理的分离确保了模型在保持性能的同时保持计算效率。RepViTCAMF模块在此基础上引入了上下文感知操作,增强了模型处理小肺结的能力。深度可分离卷积减少了不必要的计算开销,使模型能够专注于细粒度特征提取。多尺度上下文捕获模块使模型能够在不同尺度上运行,提供全面的图像视图,并提高其识别小物体的能力。此外,RepViTCAMF中的上下文融合操作将通道和空间信息合并,创建了一个更全面的特征表示。这种融合增强了模型检测小而分散目标的能力,提高了定位和分类的准确性。通过改进特征提取、增强上下文感知并保持轻量级设计,C2f_RepViTCAMF架构显著提高了模型以高精度检测小肺结节的能力,使其非常适合快速准确的实时医学影像分析。
3.2. CPYOLO Neck 网络
CPYOLO Neck 模块旨在克服在不同尺度上检测物体的困难,并提高多尺度特征的融合。在肺结节检测的背景下,小物体通常缺乏清晰、明显的特征,且周围环境复杂,这使得它们难以识别。为了解决这个问题, Neck 模块专注于有效的特征提取和多尺度特征融合。特征金字塔网络(FPN)的集成使得模型能够处理不同分辨率的特征,确保小物体和大物体都能被准确检测。此外,KAN Bottleneck 的引入进一步优化了特征提取过程,尤其是在低对比度或不平衡的数据集中,使得模型能够更好地处理如肺结节等小目标的检测。
除了FPN之外,CPYOLO还集成了KANBottleneck以改进特征提取过程,如图4所示。瓶 Neck 对于降低特征图维度并随后恢复它们至关重要,这减少了计算成本同时增加了网络深度。KAN-Bottleneck用KAN网络替换了传统的卷积层,避免了输入的线性组合,并直接对输入数据应用非线性激活函数。这种设计增强了模型学习复杂特征映射的能力,尤其是在处理如肺结节等小目标时。
KAN网络的设计通过其可学习的单变量激活函数和外部函数求和,实现了更好的特征学习。这提高了其灵活性和效率,尤其是在训练样本有限或数据集不平衡的情况下。KAN网络的数学表达式如下:
(
内
部
函
数
之
和
)
表示可学习的内部函数,外部函数的和由以下公式给出:
(
外
部
函
数
之
和
)
通过引入KAN-Bottleneck,CPYOLO模型增强了精细特征的提取,提高了对小肺结节的检测精度。
此外,CPYOLO在Neck模块中集成了两个卷积块注意力模块(CBAM),以进一步增强特征提取。CBAM模块在通道和空间维度上应用注意力机制,关注最相关的特征。通道注意力机制根据通道的重要性分配权重,而空间注意力机制突出输入特征图中的关键区域。这些注意力机制使模型能够优先考虑重要特征并抑制无关特征。
CBAM模块由两个子模块组成:通道注意力机制和空间注意力机制。通道注意力机制通过将全局平均池化(GAP)和全局最大池化(GMP)应用于输入特征图
,生成两个空间表示向量。这些向量经过多层感知器(MLP)处理,生成最终的通道注意力权重。通道注意力机制的数学表达式如下:
其中,
表示输入特征图,
代表全局平均池化,MaxPool
代表全局最大池化,MLP 表示多层感知器,
是 Sigmoid 激活函数。
空间注意力机制突出了输入特征图中的重要空间区域。它首先沿着通道维度应用全局平均池化(GAP)和全局最大池化(GMP)来生成两个独立特征图。这两个图被连接起来,并通过一个具有
核的卷积层来生成空间注意力图。然后,该图通过Sigmoid激活函数处理,以生成最终的空间注意力特征图。空间注意力机制的数学表达式如下:
在此方程中,
和
分别代表全局平均池化和全局最大池化操作,而
是应用于拼接后的池化特征的卷积核。
通过结合KAN-Bottleneck和CBAM模块,CPYOLO有效地增强了其聚焦于重要特征并抑制无关特征的能力,从而提升了检测性能,尤其是在肺结节检测等任务中。
3.3 转移学习
在肺结节检测中,确保模型的泛化性和稳定性至关重要,这需要大量的多样化训练数据。然而,在现实场景中的数据获取具有挑战性,且人工标注既耗时又费力。迁移学习允许将一个领域的预训练模型应用于另一个领域,从而降低数据获取和标注的成本。迁移学习的核心思想是利用源域的有标签数据,并通过算法开发,最大限度地利用这一知识。这个过程涉及识别源域和目标域之间的相似性,以有效地将源域的知识迁移到目标域[81]。
为了提高迁移学习的效果,本研究针对源域和目标域都提出了改进措施。对于源域,选择了MS COCO数据集,与PASCAL VOC [82]等数据集不同,它包含了80个不同类别的多样化内容。使用MS COCO作为源域使得模型能够学习通用的、低层次的特征,这些特征可以应用于不同的领域。因此,使用源域模型微调目标域模型,可以有效地迁移低层次特征,从而增强模型泛化的能力。对于目标域,首先将低对比度或夜间条件下拍摄的肺结节图像通过图像增强模型,如Zero-DCE,进行处理,以增加其与正常或白天肺结节图像的相似性,从而促进正迁移。然后,在源域模型上进行微调,最大化地利用源域模型中包含的知识。
- 实验
4.1 数据集
本研究使用的LUNA16数据集是一个公开的肺CT影像数据集,来源于LIDCIDRI数据集。它最初是2016年LUNA16挑战赛的一部分,该挑战赛专注于肺结节的检测。该数据集包含888个病例,共计36,378个结节,其中只有那些大于3毫米的结节被选用于进一步分析。在这些结节中,有1,186个被标注为阳性(有效)结节。结节的位置和相关信息由四位放射科医生团队细致标注。为了本研究的需要,三维CT数据被转换为二维切片,以方便对肺结节的进行分析。
LIDC-IDRI数据集是由美国国家癌症研究所(NCI)和国家卫生研究院(NIH)联合发布的公开肺部影像数据库。该数据集包含1,010个病例,共计1,018个完整的肺部CT扫描序列。每个扫描集包含200至500张CT图像。四位放射科医生采用“双读法”对肺结节进行标注。首先,每位放射科医生独立审查CT图像并 Token 结节位置。然后,其他三位放射科医生重新评估每位放射科医生的标注,以确保结节标注尽可能准确。标注存储在相应的XML文件中,对于直径大于3mm的肺结节,放射科医生标注了结节的轮廓坐标,并提供了主观语义特征评分。这些评分主要包括叶裂程度、钙化程度、毛刺、恶性和其他特征。
4.2 数据预处理
作者提出了一种结合阈值分割和形态学操作的方法,用于精确提取肺组织。该方法在肺实质分割过程中最小化了来自非肺区域(如骨骼和血管)的干扰。首先,作者使用Otsu方法自动对原始肺CT图像进行二值化,该方法根据图像的强度分布计算最佳阈值,从而有效地将肺实质与周围组织分离。接下来,作者执行区域开操作,以去除分割肺实质内的微小噪声或气泡状区域。然后,作者再次执行区域开操作,以消除任何剩余的小连通组件。这进一步细化了分割。最后,作者在肺实质 Mask 和原始CT图像上进行像素级的AND操作。此操作确保仅保留肺组织,排除所有其他区域。该方法保证了高精度分割,确保了后续医学分析的可信数据,并减少了外部干扰。
4.3 实施细节
作者在配备高性能硬件的Ubuntu 22.04 LTS系统上进行了实验,以实现高效的深度学习。该配置包括一个拥有24个核心和32个线程的Intel Core i9-13900K处理器,为大规模计算提供强大的并行处理能力。128GB的RAM确保了处理大量数据集的流畅性,尤其是涉及图像和视频处理的数据集。配备24GB VRAM的NVIDIA RTX 4090提供了无与伦比的计算能力,这对于训练复杂的模型如卷积神经网络(CNNs)至关重要。1TB的NVMe SSD确保了快速的数据读写速度,减少了训练过程中的I/O Bottleneck 。在软件方面,选择了Python 3.8或3.9以保持与深度学习库的兼容性。出于同样的原因,选择了PyTorch 1.13或2.0。使用CUDA 11.7工具包来利用并行计算资源,加速模型训练。训练过程在100到150个epoch之间执行,批大小为16或32以优化GPU资源使用。学习率设置为0.001或0.0005以防止梯度更新不稳定。作者使用了Adam或Adam W优化器以实现更快的收敛。将权重衰减设置为0.0001以减轻过拟合并提高模型鲁棒性。
4.4 结果
为了展示所提出算法在肺结节检测任务中的优越性,作者不仅将其与经典的目标检测模型进行了比较,还与更现代的模型进行了比较。在LUNA16数据集上的实验结果如表1所示,在LIDC-IDRI数据集上的实验结果如表2所示。在整体检测性能方面,所提出算法在三个关键指标(精确率、召回率和平均精度均值(mAP))上均优于对比模型。值得注意的是,SSD(单次多框检测器)和YOLOv7在这些指标上表现相对较差,排名最低。这表明所提出算法不仅提高了检测精度,还在复杂任务中展现了高度的鲁棒性。
本文提出的算法在每秒帧数(FPS)方面表现出色,展示了在推理速度方面的显著优势。此外,该算法的模型权重更小,这对于实际应用至关重要。较小的模型权重不仅减少了存储和计算开销,还加速了推理过程。与 Baseline 模型相比,提出的算法在FPS上实现了显著提升,反映了推理效率的实质性优化。这种优化主要归因于模型中改进的RepViT模块,该模块通过高效的特徵提取和减少冗余计算来提高检测速度,确保了高精度而不牺牲推理效率。
尽管YOLOv9在检测精度上优于YOLOv8,但其权重达到了23.2M,是YOLOv8的数倍,且其模型结构更为复杂。虽然YOLOv9提升了检测性能,但其复杂性并未在肺结节检测任务中带来显著的性能提升。这一实验结果明确指出,在如肺结节检测等医学检测任务中,单纯追求模型复杂度并不能显著提高检测性能。实际上,针对特定任务优化网络结构和训练方法可以更好地提升模型性能。在肺结节检测中,模型不仅需要高检测精度,还需要强大的速度和效率以满足医学应用中快速推理和高效计算的需求。因此,不考虑任务特性而单纯依赖复杂模型设计不会导致最优的检测性能。
在特征提取能力方面,与本文提出的改进模型相比,经典模型如Faster R-CNN、SSD和YOLOv5表现出相对较弱的特征提取能力。例如,在Faster RCNN中,由于多个池化层,基本卷积神经网络(例如VGG-16)会丢失一些空间信息,导致分辨率降低,无法有效捕捉小物体。SSD模型直接在不同层级的特征图上进行预测,但其High-Level特征图在多次下采样操作后分辨率降低,导致对小物体的检测性能较差。尽管YOLOv5通过特征金字塔网络(FPN)进行了优化,但与更复杂的多阶段网络相比,它仍然相对简单。因此,它在多尺度特征融合和捕捉细节方面存在困难,进一步影响了小目标检测性能。
相比之下,YOLOv8和YOLOv9等较新的模型采用了更深层的网络层和强大的注意力机制,增强了特征提取能力。然而,这种复杂性增加了计算开销并降低了推理速度。在医疗应用中,尤其是在肺结节检测等任务中,计算复杂度和推理速度成为实际部署的关键因素。尽管YOLOv8和YOLOv9在准确性方面有所提升,但它们更高的计算复杂度和更大的模型尺寸使得它们在资源受限的设备上效率较低。因此,尽管YOLOv8和YOLOv9在准确性方面有所提高,但它们更高的计算复杂度和更大的模型尺寸使得它们在资源有限的环境中部署效率较低。
表2中的实验结果展示了各种检测模型在LIDCIDRI数据集上的性能,包括精确率、召回率、mAP50、mAP50-95、FPS和模型权重等方面的比较。CPYOLO在各项指标上均优于其他模型,实现了最高的精确率(95.8%)和召回率(94.8%),表明其在检测肺结节方面具有强大的准确性,同时保持了高水平的真阳性检测。它在mAP50(97.7%)和mAP50-95(55.6%)方面也处于领先地位,展示了其在多个IoU阈值下的有效性。此外,CPYOLO的FPS(137.4f/s)最高,这对于医疗应用中的实时推理至关重要。然而,其相对较大的模型大小(3.19MB)可能对存储空间有限的设备构成担忧。YOLOv9在检测精度上具有竞争力,mAP50达到95.8%,mAP50-95达到54.1%,但其FPS较低(73.1 f/s),这可能会影响其在时间敏感环境中的实际部署。YOLOv5等模型在速度和模型大小之间取得了良好的平衡,具有最小的权重(3.15MB),但其精度略低于更复杂的模型。同时,YOLOv8在良好的精度(93.3% mAP50)和推理速度(123.2f/s)之间取得了平衡,使其成为实时任务的可行选择。总体而言,结果表明,在如肺结节检测等医疗检测任务中,优化检测精度和推理速度是关键,CPYOLO等模型在效率和性能之间提供了最佳权衡,而YOLOv8和YOLOv5等模型更适合资源受限的环境。
CPYOLO通过整合C2f_RepViTCAMF、MSCAF和KAN模块,增强了特征提取能力并提高了肺结节检测任务的推理速度。C2f_RepViTCAMF模块有效地捕捉了长距离像素上下文关系,提高了小目标的特征提取效率和速度。MSCAF模块通过充分利用通道和空间信息进一步强化了特征提取,从而提高了整体检测精度。KAN模块使模型能够根据数据特征自适应调整激活函数,捕捉更复杂的数据模式和细微差异,从而增强特征提取。这些模块的协同作用不仅优化了模型的训练和推理速度,还确保了高检测性能,尤其是在实时检测任务中表现出卓越的效率。在LIDC-IDRI数据集上的实验表明,所提出的模型与大多数 Baseline 模型相比,实现了更高的FPS,反映了其实际应用中的效率。较小的模型权重和优化的特征提取机制确保了高检测性能,同时避免了显著的计算开销,使算法特别适合在资源受限的环境中部署,这对于现实世界的医疗应用至关重要。尽管YOLOv9在检测精度上优于YOLOv8,鉴于该模型主要用于医疗场景,尤其是肺结节检测,作者强调优化速度、效率和计算资源同样重要。因此,模型评估不应仅依赖于检测精度,还应考虑训练和推理速度以及计算效率。YOLOv9的权重是YOLOv8的21倍,具有更高的参数数量和计算复杂度,使其不适合资源受限的设备。相比之下,具有较低计算复杂度和更好稳定性的YOLOv8更适合在实际医疗应用中部署。最终,基于YOLOv8的改进模型不仅提高了检测精度,还降低了计算复杂度,显著提高了效率和实用性。
4.5 消融研究
如表2所示,通过一系列针对性优化,本文提出的改进模型在所有评估指标上均取得了显著提升。首先,对RepViT模块进行了特别修改,并将其与C2f模块集成。优化后的模型极大地增强了其特征提取和表示能力,使其能够更准确地捕捉肺结节的细微特征,从而提高了精确率和召回率等关键指标。此外,模型中的Neck部分也得到了改进,替换了原有的特征融合组件。新的Neck设计更有效地处理多尺度特征,表现出更强的检测不同尺寸结节的能力,这导致了检测性能大约提升了3%。值得注意的是,MSCAF模块通过引入多尺度特征和通道注意力机制,成功解决了肺结节尺度变化的问题,提高了各种尺寸结节的检测精度。
改进后的模型在性能上显著优于原始模型。它实现了精确度提高4.5%±0.13%,召回率提高7.0%±0.09%,mAP50提升4.4%±0.14%,以及mAP50-95提高5.7%±0.15%。这些显著的改进表明,该模型在提高检测准确性和敏感性的同时,保持了高推理效率和低计算复杂度,展现出卓越的性能。改进后的模型在肺结节检测任务中尤其有用。
4.6 可视化
肺实质分割显著提高了检测精度,通过去除背景噪声实现。该过程包括图像归一化,随后应用K-means聚类算法区分肺组织与背景。此外,还采用形态学操作如腐蚀和膨胀来细化肺 Mask 。如图5所示,分割后的图像与原始数据相比,性能有显著提升。在多个结节检测中,分割方法实现了98%的准确率,有效降低了误报和漏报。总体而言,在所有模型中应用肺实质分割显著提高了检测精度,突显了其在复杂图像分析中的关键作用。
- 结论
物联网(IoT)与医学影像系统的集成,为提升实时诊断和患者监护提供了变革性的机遇。在此基础上,作者提出了CPYOLO,这是一种针对CT图像中肺结节检测的新方法,特别设计用于解决多尺度结节检测的挑战并确保准确识别。通过在主干网络中通过C2f_RepViTCAMF模块优化C2f(级联特征融合)模块,CPLOYO显著提高了小肺结节的检测精度,同时保持了轻量级设计。这种改进提升了特征表达能力,使模型能够更有效地捕捉小结节的细微特征。此外,作者的优化特征融合模块能够巧妙地处理不同病例中肺结节的大规模变化,克服了固定尺度检测的局限性,从而提高了模型对多尺度结节的准确性。引入核化注意力网络(KAN)利用自适应注意力机制,进一步增强了模型提取小结节的细微特征和整体检测精度的能力。实证结果表明,CPYOLO不仅在复杂背景下检测小结节方面表现出色,而且在公共LUNA16数据集上也超越了现有基准。
尽管取得了这些进展,所提出的算法在处理具有高背景噪声的肺CT图像时仍存在局限性,其中对小或模糊结节的检测精度会降低。未来的研究将致力于通过引入具有更深网络结构和更多参数的大规模模型来增强模型的抗噪能力,从而提高噪声抑制能力。此外,整合多模态数据,例如将临床医学报告与肺CT图像相结合,将进一步提升模型的表现。这种多模态融合[83]将实现更稳健的特征提取,并减少噪声对检测性能的影响,确保在临床环境中具有更高的稳定性和精度。总之,CPYOLO代表了医学图像检测的重大进步,尤其是在肺结节检测方面,其与物联网驱动的医疗系统的集成有望彻底改变未来的医学图像处理任务,引领医疗保健领域更准确、更高效的诊断工具的发展。
in未来研究中,作者计划通过整合多模态数据,如患者病历、临床报告以及其他成像方式,如MRI和PET扫描,以及肺CT图像,来增强CPYOLO的应用性。这种不同数据源的融合可以显著提高模型的鲁棒性和诊断准确性。通过整合临床数据,模型获得了有价值的上下文洞察,例如既往病史、合并症和治疗史,这些可以帮助区分良性结节和恶性结节,或识别影像学单独可能遗漏的不典型模式。此外,结合不同的成像方式提供了互补信息,有助于克服个别方法的局限性。例如,MRI和PET扫描提供更好的组织特征描述,当与CT扫描结合时,可以提供更全面的结节特征和组织边界视图。这种多模态方法将增强模型在嘈杂环境中检测小或模糊结节的能力,从而提高整体准确性并减少假阴性。最终,整合多模态数据将加强特征提取,提高模型在各种临床场景中的适应性,并确保CPYOLO提供更精确和个性化的诊断支持,使其成为实时诊断系统中的宝贵工具,尤其是那些由物联网驱动的系统。
参考
[1]. CPLOYO: A Pulmonary Nodule Detection Model with Multi-Scale Feature Fusion and Nonlinear Feature Learning
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)