点击下方卡片,关注 「AI视界引擎」 公众号
无源域适应(SFDA)减轻了在不访问数据以保护数据隐私的情况下从不同域获取数据之间的域差异。然而,现有的传统SFDA方法在医学领域面临固有的局限性,因为医学数据通常是由多个机构使用不同设备收集的。为了解决这个问题,作者提出了一种简单而有效的方法,名为_Uncertainty-aware Adaptive Distillation_(UAD),用于多源无监督域适应(MSFDA)设置。UAD旨在从(i)模型 Level 进行良好校准的知识蒸馏,以提供协调一致且可靠的基模型初始化,以及(ii)通过高质量伪标签引导的模型适应进行实例 Level ,从而获得高性能的目标域模型。
为了验证其普遍适用性,作者在两个多中心数据集的两个基于图像的诊断基准上评估了UAD,与现有工作相比,作者的方法显示了显著的性能提升。代码将很快提供。
1 Introduction
无监督领域适应(UDA)是弥补分布差异的一条有前景的研究路线。它旨在利用来自一个或多个源域的标记数据中现有的可迁移知识,以识别目标域中的 未标注 数据。UDA在广泛的下游应用中取得了巨大成功,包括通过缓解这种领域偏移来进行分类、分割和目标检测。
尽管在一般的视觉感知任务中具有巨大的潜力,现有的无监督域适应(UDA)方法在医学场景中本质上存在不足,这些场景对数据共享有额外的限制。为了解决医学图像上的问题,源自由域适应方法已经被开发出来,它们只提供预训练的源模型,而不是直接访问源数据,以此来保护隐私问题。
在这项工作中,作者研究了多源自由无监督领域适应(MSFDA),并通过引入多个源领域改进了典型的SFDA设置。因此,它有望成为适用于涉及多个中心的现实世界大规模医学图像分析研究的吸引人的解决方案。
近年来,已有一些初步尝试,采用了自监督聚类伪标签方法,这种方法通常被用于MSFDA。然而,它们往往在医学图像处理方面不是最优的。由于来自多个中心的数据之间的差异很大,那些在来自单个或多个医疗机构的数据集上训练的模型,并未展现出将它们的适用性泛化到外部站点的一致能力。
为了超越上述瓶颈,在本文中,作者提出了一个用于医学图像分析的MSFDA框架。作者的贡献包括:
- 提出了一种名为Uncertainty-aware Adaptive Distillation(UAD)的新算法。UAD算法首先识别与目标领域最相似的基础数据分布的源模型,以实现协同的模型初始化,然后进一步利用源模型之间的互补知识,对目标领域进行精确的蒸馏;
- 为了避免过度自信和自信不足的问题,作者在源模型上应用了温度缩放(TS)方法,以全面校准信心,从而使知识蒸馏过程得到良好调控;
- 作者通过在不同场景下的比较实验和消融研究来证实所提方法的有效性,展示了其在具有临床意义的不同终点上的实际益处。
2 Methods
Problem Setting
在不涉及任何源领域数据来训练最终模型的情况下,作者旨在将一系列在多个源领域上预训练的模型转移到一个新的目标领域,且无需任何人工标注。在这项工作中,作者将考虑-路分类模型的适应问题。作者得到了一个源模型集合,其中包含来自个源领域的个源分类模型。对于第个源模型:
Uncertainty-aware Adaptive Distillation
在所提出的框架中,作者通过将多个源模型的知识转移到目标域,用由适当源模型提炼生成的伪标签来适应目标域。从技术角度讲,作者对源模型集中每个源模型进行整体域 Level 和个体实例 Level 的提炼,学习一系列不确定性(或其对立面,置信度)度量。这评估了某些源模型在目标域数据集上的分布距离以及伪标签的质量。
具体来说,作者引入了margin,定义为预测概率最高的两个类别之间的差异,作为估计置信度度量的指标:
在这段文本中, 表示 Softmax 层的操作,具体为 ,对于 和 。直观地说,如果一个模型 在预测一个实例时有更大的边缘值 ,那么它被认为在提取实例特征方面更加优越,并最终进行分类任务。
为了防止已训练的目标域模型受到与目标任务无关的干扰因素的影响(例如,由于成像协议不一致导致的图像外观差异),或避免局部最小值问题,作者从两个互补的角度提出了不确定性感知自适应蒸馏(UAD):(i)模型 Level 和(ii)实例 Level ,以指导并规范多源模型适配。
作者UAD框架概述在图1中展示。
模型 Level 的域自适应(UAD):在之前关于多源域自适应的相关工作中,通常的做法是在后续的微调阶段以不同的权重引入所有源模型。然而,作者发现如果特定的源模型与目标域之间存在显著的领域差距,可能会发生负面迁移,这会导致有偏的适应。因此,为了以最小的干扰初始化基础目标模型,作者从每个领域收集所有预训练的源模型,并估计每个源模型对预测目标域数据的总体置信度。
具体来说,为了评估源模型 对目标域数据推理结果的置信度,作者按以下方式平均所有为目标域数据每个实例估计的置信度度量:
。
对于目标域具有最大置信度度量(定义为 )的源模型 ,被认为是符合潜在数据分布最接近目标域的模型,可以被视为最优的教师:
作者将源模型 指定为在目标数据上进行SFDA学习的初始模型,以最小化多个源领域与目标领域之间的差距。
实例级UAD:由于目标领域数据未进行标注,作者 Proposal 使用实例级UAD方法在目标数据上进行自监督学习,并通过伪标签生成。具体来说,作者依次估计源模型库中每个模型对于目标领域中的每个实例(对于)的置信度(边际)测量,并选择最自信的源模型来生成伪标签:
其中, 表示源模型预测目标领域实例时的边际值,具体为:
对于实例 ,相应的伪标签是通过源模型预测获得,该源模型的参数为 ,作者将其定义为 :。利用 对目标初始模型 进行微调,通过最小化标准的交叉熵损失:
其中 当参数为真时给出值 。
Temperature Scaling
在某些模型中,源域中的域偏移和有限数据可能会导致对目标域数据预测的过度和不足自信,这可能会潜在地引发模型预测准确性和置信度之间的不匹配。换句话说,当这种现象发生时,置信度度量 将不再是最优的用于提高模型预测准确度的度量。
为了解决这个问题,作者嵌入了温度缩放(TS)方法,该方法作用于预测概率,以在置信度测量之前校准 logits。在作者的方法中,TS能够有效地规范模型预测中不确定性的表示,而在知识蒸馏过程中,更精确且无偏的不确定性表示是更为可取的。参数 就是所谓的温度,它可以通过增大温度来获得更软的概率估计,从而减轻模型过度自信的问题。
对于每一个源模型 ,作者通过设置初始化值 并在目标领域数据 上应用温度缩放来学习 :。具体来说,温度缩放模型通过最小化期望校准误差(ECE),即校准差距来进行调整,这是指给定区间内准确性和置信度之间的差异[20]:
其中 表示作者将预测分组的区间Bin数,而 代表分配在区间 内实例的索引批次。
鉴于从每个源模型获得的逻辑向量 ,通过公式估算校准概率:,其中 是将在第2.2节中使用的校准预软最大化输出(逻辑)。
3 Experiments and Results
Dataset and Implementation Details
数据集:作者在两个系列的数据集上评估了所提出的多源无领域自适应框架在分类任务中的表现。
多中心糖尿病视网膜病变(_DR_)数据集:该多中心DR数据集测量DR分级(无DR、轻度DR、中度DR、重度DR和增殖性DR),由三个公开数据集(领域)APTOS 2019, DDR, 和 IDRiD 组成,分别具有数量 ,,和 。
皮肤癌MNIST_HAM10000:为了研究人体不同部位病变分类为良性或恶性的问题,作者根据皮肤病变的位置将其划分为四个领域,分别是_背部_、_面部_、_下肢_和_上肢_,数量分别为、、和。
在作者的实验过程中,作者首先将数据重新处理,调整大小至,然后裁剪至尺寸;接着,作者依次将一个域指定为目标域,同时将其他域视为源域。
实现细节: 遵循医学图像分类的顶级解决方案,作者采用DenseNet-121作为基础模型。在源模型训练过程中,作者使用平滑标签而不是通常的一热编码标签,以减少过拟合和标签噪声。
对于DR和HAM10000数据集的最大迭代次数都设置为;而在 未标注 自适应蒸馏(UAD)过程中,设置为,并在每个过程开始时更新一系列伪标签。批量大小设置为32。对于每个迭代周期,在领域内有次迭代。作者分别为DR数据集和HAM10000数据集使用和。对于源模型预训练和自适应精馏,作者采用动量为和权重衰减的随机梯度下降法,并在模型学习过程中采用学习率调度方法[3]。
Comparison Experiments
为了进行实验比较,作者纳入了一个现有的SFDA框架AaD及其多源扩展,以及两个MSFDA框架DECISION和CAiDA作为 Baseline 方法。作者按照它们的默认设置重新实现了它们。实验结果报告在表1中。AaD的多源扩展通过一个集成方法实现,该方法将目标数据传递给每个适应源模型,并取Soft预测的平均值以获得测试标签。
通过探索在SFDA过程中对DECISION进行的迭代实验结果,作者注意到,除了在DR中的目标域I和HAM10000中的F之外,随着训练目标模型的迭代次数增加,DECISION模型的性能会下降。这种现象在CAiDA框架中也被观察到,尽管在域适应过程中模型性能的退化不如DECISION框架严重。直观地说,在具有偏见的域和无监督的设置中,模型在针对目标数据训练时会过拟合到噪声标签。这是由于不恰当的源模型参与和生成的低质量伪标签的影响。
与现有框架相比,作者提出的方法有效地减轻了可能潜在降低目标领域模型性能的两个因素:作者识别出最有信心的源模型,排除不适当的模型参与目标模型的训练,并通过最佳源模型生成最可靠的伪标签。表1的最后一行显示,在两个数据集上,通过UAD(作者的方法)进行域适应的平均准确度显著优于所有 Baseline 。
Ablation Study
此外,作者还对域适应过程进行了消融研究:仅模型 Level 的UAD,但不包括训练实施,仅实例 Level 的UAD,但同样不包括训练实施,以及同时进行模型 Level 和实例 Level 的UAD并伴随训练但不进行温度缩放。
在模型 Level 和实例 Level 的UAD上的有效性: 为了避免由与目标领域数据分布偏差较大的源领域数据学习得到的、可能破坏目标领域模型最终性能的不恰当源模型,作者首先提出在训练过程中排除这类破坏性的源模型。取而代之的是,使用模型 Level 的UAD(M-UAD)方法,选择最可靠的源模型——这也是现有模型中的最佳选择——作为训练目标模型过程的初始化。这为模型训练的早期阶段奠定了坚实的基础。表1中消融研究的第一行(M-UAD)展示了仅实施M-UAD相比于 Baseline 结果平均约有5%的提升。
在无监督学习设置中,生成伪标签是驱动最终高性能模型的关键步骤。相反,生成低质量的伪标签会导致目标模型逐渐适应这些噪声标签,从而降低目标模型的最终性能。为了防止这种情况发生,作者提出使用实例级UAD(I-UAD)方法来确定与单个实例最自信的标签作为其伪标签。表1中消融研究(I-UAD)的第二行给出了应用I-UAD方法相比于M-UAD方法,能够使得目标模型获得更高准确性的实验结果。
表1中消融研究的第三行(M-UAD + I-UAD)给出了实验结果,即通过联合应用双层UAD可以进一步改进性能。
温度缩放的有效性: 根据第2.3节,为了减轻某些模型在预测目标领域数据时过度自信和不够自信的问题,TS是一种有效的模型校准方法。表1的最后一行给出了将TS方法应用于作者的组合UAD框架的实验结果,与未应用TS模型校准方法相比,平均准确度有所提高。这种效果在一些准确度相对较低的目标领域尤其明显,例如DR数据集的I领域和HAM10000数据集的F领域。
4 Conclusion
在这项研究中,作者提出了一种称为UAD的两级不确定性感知自适应蒸馏方法,这是一种针对医学成像数据的多源免监督域适配的新颖深度学习方法,并已成功应用于跨越疾病和人类解剖区域的多个数据集。无论是通过识别最佳源模型来初始化目标域训练过程,还是通过利用后校准的源模型库生成可靠的伪标签,作者的方法在医学成像数据上的表现都显著优于现有的框架。总的来说,作者提出的方法能够填补医学图像处理与分析领域中MSFDA设置的空白。
参考
[1].Multi-source-free domain adaptation via uncertainty-aware adaptive distillation.
点击上方卡片,关注 「AI视界引擎」 公众号