Many - MobileNet来袭!训练多模型突破视网膜疾病分类瓶颈,平衡效率与能力,代码开源速戳!

大模型向量数据库机器学习

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

在本文中,作者提出了一种高效的模型融合策略——Many-MobileNet,用于使用轻量级CNN架构对视网膜疾病进行分类。

作者的方法通过训练具有不同数据增强策略和不同模型复杂度的多个模型来解决过拟合和数据集多样性的限制。

通过这种融合技术,作者在数据稀缺领域实现了稳健的一般化能力,并在计算效率与特征提取能力之间达到了平衡。

作者的软件包可在 https://github.com/Retinal-Research/NN-MOBILENET获得。

unset

unset

1 Introduction

unset

unset

视网膜疾病(RD)是全球导致视力减退和失明的主要原因,尤其是在病理性近视引起的视网膜病变情况下,这对临床诊断构成了重大挑战 。具体来说,糖尿病性视网膜病变(DR)是全球工作年龄成人中导致失明的主要原因之一 。

早期检测和精确分级DR对于及时干预至关重要,这可以防止严重的视力丧失 。

在临床实践中,根据视网膜图像对DR进行分级对于确定疾病的进展并指导治疗决策至关重要 。

基于深度学习的自动化诊断工具在辅助临床医生进行RD检测和监控方面展现出了巨大的潜力。多年来,卷积神经网络(CNNs)以及最近出现的视觉 Transformer (ViT)[24]逐渐成为医学图像分析的主要技术手段,这得益于它们能够从视网膜图像中提取和分析关键特征的能力。尽管视觉 Transformer 因其捕获长距离依赖性而受到青睐,但它们通常需要大量数据集,并伴随着模型复杂性的增加,使得它们在数据稀缺的医学图像任务中容易发生过拟合。

相比之下,由于其简单的架构,CNNs仍然对像视网膜疾病分类这样的任务非常有效,尤其是在需要局部特征提取以实现准确诊断的情况下。出于这些原因,基于CNN的架构继续广泛应用于既要求效率又要求准确性的任务。

在本文中,作者应用了轻量级CNN架构nnMobileNet [6],用于视网膜图像质量分类任务 [29]。为了解决过拟合和数据集变异性有限等挑战,作者提出了一种模型融合策略。

该策略结合了多个使用相同架构但具有不同复杂度 Level 的轻量级nnMobileNet模型,并且每个模型都使用不同的数据增强技术进行训练。通过融合这些模型,作者提高了泛化能力,并确保最终的预测在各种条件下都是稳健的,即使在数据稀缺的环境中也是如此。

unset

unset

2 Methods

unset

unset

为了优化nnMobileNet在视网膜图像质量分类任务中的性能,作者采用了一种综合方法,涉及多项超参数调整和模型增强。此外,作者还探索了模型宽度缩放,并进行了大量的测试。结合模型融合策略,这些改进对于平衡计算效率与稳健特征提取能力至关重要。下面,作者将讨论每项修改及其对模型整体性能和泛化能力的影响。

2.1 ModelArchitecture

在本工作中,作者利用nnMobileNet平衡模型效率与准确性的trade-off,并在处理小型和不平衡的医疗数据集时保持对过拟合的鲁棒性[29]。由于其轻量级的CNN架构,nnMobileNet结合了深度可分离卷积和线性 Bottleneck 层,这在保留高表示能力的同时,最小化了计算成本[6]。作者版本中的关键改进包括集成先进的通道级注意力机制[31],特别是Squeeze-and-Excitation (SE) 块[33],该机制重新校准特征图并提高对相关视网膜特征的关注度。

这一设计使作者的模型能够高效地处理高分辨率的眼底图像,无需使用过于复杂或深厚的网络结构。具体而言,特征层的数量可以通过通道乘法因子进行调控。在本工作中,作者构建了一个简单且高效的架构——Many-MobileNet,它通过将同一数据集上不同模型设置训练得到的多个nnMobileNet融合,来增强在新样本推理过程中的鲁棒性,如图1所示。

picture.image

2.2 Data Augmentation Strategy

鉴于作者数据集的数量有限且具有统一性,仅利用现有数据训练高性能模型是不够的。数据集缺乏多样性使得单一模型难以在各种情况下很好地泛化。通过将不同的数据增强技术应用于不同的模型[34, 35],可以增强训练数据,并在推理阶段提高组合模型的整体鲁棒性和泛化能力。

数据增强策略的关键区别在于使用了不同的归一化技术。在通用数据集中如ImageNet上训练的模型使用了定制化的归一化值[36],而用于医学图像分类任务的模型则采用了不同的归一化参数。这些归一化方法的不同导致了在训练和推理过程中模型性能的差异,因为模型已经针对各自的数据集进行了调整。

2.3 Training Strategy

之前的研究所表明,过度的数据增强可能会损害眼底图像的一致性,因此在实际应用中通常仅使用有限的数据增强方法,例如空间变换和亮度调整。H. Wang等人

在视网膜底片图像任务中。然而,根据作者的实验发现,这些基本的数据增强方法不足以消除RD任务中的过拟合现象。为此,作者进行了探索性实验,测试了各种数据增强组合,以防止过拟合并提高模型的稳健性。

本次实验中的训练策略涉及对多个超参数的系统性探索,以优化模型性能。作者尝试了不同的归一化设置,并测试了从0到0.10的多种Dropout率,以实现模型正则化并防止过拟合。此外,还评估了批量大小分别为8、16和32的设置,以考察其对模型收敛性和泛化能力的影响。测试的学习率包括

,每种学习率都使用余弦衰减学习率调度器,以确保在整个训练过程中实现平滑收敛。作者还通过调整宽度乘数来探索不同模型宽度,对比了通道乘数为1.0的轻量级模型与通道乘数为3.0的中型模型。这让作者能够在模型复杂度和性能之间找到平衡;轻量级模型侧重于计算效率,而中型模型则能够捕捉更复杂的特征。详细的训练设置见表1。通过这种全面的超参数探索,作者确定了优化此次视网膜图像分类任务模型性能的最佳配置。

picture.image

2.4 ImplementationDetails

在本实验中,作者使用了多个NVIDIA V1oo GPU进行训练。所有模型均基于PyTorch框架进行训练,并且输入图像的标准尺寸为

,如表1所示,在整个训练过程中应用了0.005的权重衰减以防止过拟合,尤其是在网络的深层结构中。模型总共训练了500个周期以确保完全收敛。作者采用了AdamP优化器,因其在增强泛化能力和稳定训练过程方面表现出色[38]。此外,作者还应用了介于0.00到0.10之间的dropout率以正则化模型并防止过拟合。

测试了模型宽度(通道倍增因子)分别为1.0(轻量级)和3.0(中型),以评估模型容量与计算效率之间的权衡。在整个训练过程中,通过关键指标对模型进行了评估,包括准确率(acc),用于衡量正确分类实例的比例;曲线下面积(AUC),用于评估模型区分不同类别的能力;以及平均综合指标,用以全面评估模型的整体性能。

对于所有模型,作者都使用交叉熵损失函数以确保在分类任务中的稳健性能。

2.5 Model Fusion

在作者的方法中,模型融合在克服数据集一致性限制和小样本量问题上发挥着关键作用。通过融合多种在不同条件下训练且采用不同数据增强策略的模型,可以显著提高模型的鲁棒性和整体性能。这种融合技术确保每个模型都能贡献互补的优势,从而实现更准确可靠的预测。

在本研究中,模型宽度(信道倍率)在确定网络容量和资源需求方面发挥着关键作用。模型宽度会缩放每一层的信道数量,这显著影响了模型的参数量和大小。例如,当模型宽度等于1.0时,模型保持基本的信道数量(如32、64、128等),从而得到一个大约为13MB大小的小型模型。然而,当模型宽度为3.0时,每一层的信道数量会增加三倍,导致参数量显著增加,从而使模型规模扩大。

模型大小约为120MB。这使得模型宽度成为在计算效率和捕捉复杂特征能力之间平衡的关键因素。

作者的模型融合涉及多种 nnMobileNet 模型的结合,每种模型使用不同的通道乘数部署。作者采用两个轻量级模型,通道乘数为1,以提高效率;一个中型模型,通道乘数为3,旨在进行更复杂的特征提取。这种架构多样性确保了轻量级模型能够提供速度和计算效率,而较大的模型则有能力捕捉视网膜图像中的更多精细细节。每个模型都使用不同的数据增强策略进行训练,以进一步增加学习到的特征多样性,并确保每个模型学习到视网膜特征的独特表示,捕获图像的不同方面。在推理过程中,这种融合可以降低模型过度拟合特定增强或数据模式的风险。

在推理过程中,作者采用预测投票方法来结合每个模型的预测结果。最终决策通过两轻量级模型和中型模型的最大值或平均值输出计算得出,某些模型可能会给出比其他模型更为确定的结果,如图2所示。这种方法提供了冗余性,确保最终预测能够受益于所有模型的优势。

picture.image

unset

unset

3 UWF4DR - Quality assessment for ultra-widefield fundus images

unset

unset

3.1Dataset and Evaluation Metrics

本研究中使用的图像来自糖尿病视网膜病变(DR)的超广域(UWF)眼底成像数据集,旨在通过超广域眼底图像实现自动DR分析。该数据集包含具有200度视场的眼底图像,这使得可以识别出在DR患者中有一定比例出现的主要为周边病灶(PPL)。图像根据国际临床糖尿病视网膜病变(ICDR)严重程度分级,从无明显视网膜病变到增殖性糖尿病视网膜病变(PDR),包括糖尿病黄斑水肿(DME)等不同DR阶段进行了分类。数据集被划分为三个任务:图像质量评估、DR分类和DME分类。

本研究特别关注超宽场眼底图像的质量评估。该任务的数据集包含总共434个样本,其中包括205个无法评估的样本和229个可评估的样本,它们之间的差异在图3中有所说明。该全面的数据集为开发辅助算法奠定了基础。H. 王等人

picture.image

及时诊断和管理糖尿病视网膜病变患者,特别是通过减少对广角眼底图像分级所需的手动努力。

3.2 Experimental Results

在本实验中,作者通过提交多个使用不同参数配置训练的模型进行了全面评估。作者研究了几种不同的模型,以分析不同超参数设置的影响。这些模型还根据三个关键指标:AUC、准确率和平均指标进行了评估。如图4所示,作者测试了两种通道倍乘设置,结果显示轻量级模型在验证集上的表现更好。此外,批量大小为8时达到最高准确率,而批量大小为16和32时则性能略有下降。最后,作者测试了学习率1e-3、1e-4、1e-5和1e-6。学习率为1e-5时表现最佳。

picture.image

取得了最佳准确率,紧随其后的是学习率为1e-4。较高的学习率,如1e-3,以及较低的学习率1e-6分别表现较差。

从这些模型中,作者根据它们在验证集上的表现,选择了前三名模型,主要关注AUROC(受试者操作特征曲线下的面积)指标。然后对这些表现最佳的模型进行了进一步分析,以了解它们的优势和劣势。如表2所示,学习率较低的模型表现出更稳定的性能。其次,批量大小也影响了模型的结果。较小的批量(例如,8)提高了灵敏度,帮助模型更好地识别正样本,而较大的批量则增强了特异性,提升了模型分类负样本的能力。同时,较低的dropout值有助于保持模型的泛化能力,而较高的dropout值会导致信息丢失,负面影响在验证数据集上的表现。然而,这对于防止实际测试数据集上的过拟合至关重要。但是,在验证数据集上,模型融合的表现并不理想。这种性能下降可能是由于验证数据量小且可能代表性不足所致。

picture.image

在最终排名中,作者提交了所选的前三名模型的集成模型。如表3所示,作者团队的模型融合策略获得了第3名,具体指标包括AUCROC为0.9525和AUPRC为0.9683,显示出较强的分类性能。

敏感性0.8983和特异性0.925表明该模型具有平衡地识别阳性样本和阴性样本的能力。尽管由于多次推理时间较长,模型的计算时间为0.1098秒,但作者的模型融合策略成功地结合了轻量级和中型模型的优势,在提高计算效率的同时提取复杂特征。最终,这种融合显著提高了模型的泛化能力。

picture.image

unset

unset

参考

unset

unset

[0]. MANY-MOBILENET: MULTI-MODEL AUGMENTATION FOR ROBUST RETINAL DISEASE CLASSIFICATION .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论