YOLO系列最新的版本YOLOv9的推出,已经在各种场景中得到广泛应用。本文首次将YOLOv9算法模型应用于骨折检测任务中,作为计算机辅助诊断(CAD),以帮助放射科医生和外科医生解读X光图像。具体来说,本研究在GRAZPEDWRI-DX数据集上训练了该模型,并通过数据增强技术扩展了训练集,以提高模型性能。
实验结果表明,与当前最先进(SOTA)模型的mAP 50-95相比,YOLOv9模型将值从42.16%提升到了43.73%,提高了3.7%。
1 简介
计算机辅助诊断(CAD)帮助放射科医生和外科医生等专家解读包括磁共振成像(MRI)、计算机断层扫描(CT)和X射线图像在内的医疗影像。将深度学习技术应用于医疗影像[1, 2, 3, 4]已取得了越来越令人满意的结果,使其成为一个流行的研究焦点,特别是在骨折检测[5, 6, 7]方面。
YOLO系列[8, 9, 10, 11, 12, 13, 14, 15, 16]是实时目标检测任务的主要神经网络,广泛应用于骨折检测[17, 18, 19]。儿童手腕骨折是更常见的病例,GRAZPEDWRI-DX数据集[20]提供了20,327张儿童手腕创伤的X光图像,可用于骨折检测任务。研究[21]首次在这个数据集上使用YOLOv9[16]模型进行骨折检测。由于注意力机制[22, 23, 24, 25]在提高神经网络模型性能方面有出色的结果,Chien等人通过将不同的注意力机制融入YOLOv8模型,实现了最先进(SOTA)的性能。
随着YOLOv9[26]的提出,该模型在MS COCO 2017[27]基准数据集上取得了卓越的性能,本文首先在GRAZPEDWRI-DX数据集上训练了YOLOv9模型,并获得了如图1所示的SOTA性能。
本文的主要贡献如下:
本文首次将YOLOv9应用于骨折检测任务,表明该模型不仅在现实场景中的实时目标检测方面表现出色,同时在医学图像识别中也取得了良好的效果。
本文通过采用YOLOv9算法来解决X射线图像骨折检测中的信息丢失问题,旨在在低特征X射线图像的模型训练过程中保留更多信息,提高模型的性能。
YOLOv9模型在GRAZPEDWRI-DX数据集上训练的mAP 50-95显著提高,达到了SOTA水平。
2 相关研究
在目标检测任务领域,检测器通常会采用一阶段或两阶段的算法。与两阶段目标检测器相比,YOLO系列模型在准确性和推理速度之间提供了更平衡的组合,使它们适合部署在移动计算平台上进行医学图像识别。Son等人[28]利用YOLOv4[9]和U-Net[29]作为辅助诊断工具,帮助牙医识别下颌骨折,而无需借助锥束计算机断层扫描(CBCT)。Jeon等人[30]采用YOLOv4[9]帮助外科医生通过检测骨折并将其映射到三维重建的骨骼图像上进行创伤诊断,通过在三维骨骼图像上叠加红色 Mask ,清晰地显示骨折区域。Hrzic等人[18]在GRAZPEDWRI-DX数据集[20]上使用YOLOv4[9]模型进行骨折检测,这是首次证明YOLO系列模型可以帮助放射科医生在X射线图像上更准确地预测儿童的腕部损伤。Ahmed等人[31]通过分别使用YOLOv5[12]、YOLOv6[13]、YOLOv7[15]和YOLOv8[16]模型进行腕部异常检测,展示了单阶段算法模型提高儿童腕部X射线图像诊断准确性的潜力。Warin等人[32]利用YOLOv5[12]模型在全景X射线图像中检测下颌骨折,证明YOLOv5模型能够以专家 Level 识别下颌骨折。Gaikuad等人[33]应用YOLOv5[12]模型检测C1至C7脊椎的主要和次要骨折,达到89%的准确率。Zou等人[34]研究了全身各种骨折形态,包括角度骨折、正常骨折、线状骨折和方向不正的角度骨折。他们将YOLOv7[15]模型与注意力机制[35]相结合,在FracAtlas[36]数据集上实现了卓越的性能。Samothai等人[17]通过检测器 Head 分离、 Anchor-Free 点以及增强策略等方法,展示了YOLOX[10]模型相较于YOLOR[11]具有更快的收敛速度和更高的准确性。他们还表明YOLOX甚至可以在特征较低的X射线图像中定位骨折。Moon等人[37]提出了一种基于YOLOx模型的计算机辅助面部骨骼骨折诊断(CA-FBPF)系统,有效减轻了医生在面部CT扫描中诊断面部骨折的工作量。虽然将YOLO系列模型应用于医学图像识别是一个热门的研究课题,但迄今为止,尚未有人利用YOLOv9[26]进行骨折检测。
3 YOLOv9
神经网络通常面临信息丢失的挑战,因为输入数据经过多层特征提取和空间变换,导致原始信息的丢失。这个问题在X射线图像中尤为明显,其中低特征的存在使得骨折检测任务极具挑战性。特别是,在这样低特征的图像上训练的模型往往表现不佳,解决信息丢失问题可以显著提高模型预测的准确性。为此,作者采用了YOLOv9算法,它利用可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)来更有效地提取关键特征。
3.1 可编程梯度信息
可编程梯度信息(PGI)是一种辅助监督框架,旨在管理跨不同语义层次上梯度信息的传播。
为了提高模型的检测能力,PGI包括三个主要组成部分:主分支、辅助可逆分支以及多级辅助信息。在推理过程中,它只使用主分支,主分支负责前向和反向传播。随着网络的加深,可能会出现信息瓶颈,导致损失函数无法产生有用的梯度。在这种情况下,辅助可逆分支采用可逆函数来保持信息完整性,并减轻主分支中的信息损失。此外,多级辅助信息解决了深度监督机制中的错误累积问题,通过在各个 Level 引入补充信息,提高了模型的学习能力。值得注意的是,研究[26]强调了PGI在训练期间保持信息效率的有效性,尤其是在特征有限的情况下。这为YOLOv9模型在骨折检测任务中具有优异性能提供了理论基础。
3.2. Generalized Efficient Layer Aggregation Network
为了在模型训练中提高信息整合和传播效率,YOLOv9引入了一种新颖的轻量级网络架构,名为广义高效层聚合网络(GELAN)。GELAN融合了CSPNet [39]和ELAN [40],以高效地聚合网络信息,减少传播中的信息损失,并增强层间信息交互。这种架构由于其较低的参数和计算复杂度,特别适合于在计算资源有限的环境中用于裂缝检测。
3.3 Data Processing and Augmentation
图2展示了本研究中进行实验的流程图。由于GRAFZEDWRI-DX [20]数据集的发布者没有提供预定义的训练、验证和测试集,作者在数据处理过程中随机分配了70%作为训练集,20%作为验证集,10%作为测试集。此外,由于低特征X射线图像的亮度多样性有限,仅在这些图像上训练的模型可能无法很好地泛化到其他环境中的X射线图像。为了增强模型的鲁棒性,作者采用了数据增强技术来扩展训练集。具体来说,作者使用OpenCV库中的addWeighted函数来微调X射线图像的对比度和亮度。
3.4 Experiment
数据集:GRAZPEDWRI-DX [20] 是由格拉茨医科大学提供的一个公开数据集,包含了20,327张儿童腕部创伤的X射线图像。这些X射线图像由格拉茨大学医院的一组儿童放射科医生在2008年至2018年期间收集。该数据集包括6,091名患者和10,643项研究,总计74,459张标注图像,代表了67,771个标注目标。
3.5 Experiment setup
本文的实验采用了一块NVIDIA GeForce RTX 3090 GPU,使用Python和PyTorch框架。在训练作者的模型之前,作者使用了在MS COCO 2017 [27] 数据集上预训练的YOLOv9模型权重。在训练过程中,作者使用SGD [41] 优化器训练模型,权重衰减率设置为5e-4,动量为0.937。作者参考了研究[21]将初始学习率设置为1e-2,迭代次数设置为100。由于单一GPU资源限制(24GB内存),训练模型时采用了批大小为16。
3.6 Experimental Results
为了评估YOLOv9和其他最先进模型在真实诊断场景中的性能,本研究比较了模型大小(参数和每秒浮点运算),准确度(FI场景,50%的平均精度均值(mAP 50),以及从50%到95%的平均精度均值(mAP 50-95))以及推理时间。众所周知,使用更大的输入图像尺寸可以提高预测准确性,但也需要更多的计算资源。因此,作者针对各种场景进行了两次实验,输入图像尺寸分别为640和1024,结果展示在表1和表2中。在640的输入尺寸下,YOLOv9-C(紧凑型)和YOLOv9-E(扩展型)都显著提高了mAP,同时保持了合理的推理速度。特别是YOLOv9-E实现的mAP。
注意:所有YOLOv8及其变体的模型大小都较大。当输入图像大小为1024时,YOLOv9-E的mAP 50-95达到43.32%,这比当前的最先进模型YOLOv8+SA所达到的41.49%高了4.4%。此外,YOLOv9-E在输入图像大小为1024时,mAP 50-95达到了43.73%,也获得了最先进的表现。然而,由于推理时间的增加,它更适合部署在计算资源高的设备上。
Conclusion
YOLO系列模型可作为CAD辅助放射科医生和外科医生解读X射线图像。然而,由于X射线图像的特征较低,先前模型的预测往往不尽如人意。本文首次介绍了将YOLOv9应用于骨折检测,通过采用新提出的PGI和GELAN来解决模型训练过程中的信息丢失问题。实验结果表明,YOLOv9模型在GRAZPEDWRI-DX数据集上达到了SOTA性能,证明了这种方法的有效性。
参考
[1].YOLOv9 for Fracture Detection in Pediatric.