点击下方卡片,关注 「AI视界引擎」 公众号
最近,检测Transformer因其固有的最小后处理需求而引起了广泛关注。然而,这种范式依赖于丰富的训练数据,而在跨域自适应的背景下,目标域中的不足标签会加剧类别不平衡和模型性能下降的问题。
为了解决这些挑战,作者提出了一种新颖的类感知跨域检测Transformer,该Transformer基于对抗学习和均值教师框架。
首先,考虑到分类和回归任务之间的不一致性,引入了一个IoU感知预测分支,并利用分类和位置分数的一致性来过滤和重新加权伪标签。
其次,设计了一个动态类别阈值精炼,以自适应地管理模型置信度。
第三,为了缓解类别不平衡,提出了一种基于实例的类感知对比学习模块,以鼓励为每个类别生成判别性特征,尤其是对少数类有利的特征。
跨域自适应场景下的实验结果验证了作者的方法在提高性能和缓解类别不平衡问题的有效性,其性能超过了最先进的基于Transformer的方法。
1 Introduction
近年来,基于Transformer架构的目标检测模型已成为一种非常具有潜力的检测器,因为它具有完整的端到端特性,无需后处理,且具有更好的泛化性能。然而,在存在域间隙的场景中,其性能仍会因不同的数据分布和域转移而显著降低,例如天气变化和风格变化。这激励作者探索基于Transformer检测器的无监督域自适应方法。
无监督域自适应的目标是将一个带有标签的源域检测器与一个无标签的目标域对齐,从而弥合域间隙[2, 30]。在跨域检测中,作者拥有源域的所有训练图像和完整的标签,而目标域只有图像。几乎所有现有的基于Transformer的域自适应检测器都使用对抗学习来提取不同域之间的共同特征。
然而,由于目标域没有实例标签,基于对抗学习的基于方法无法利用目标域的潜在类别信息,仍然表现出与完全监督模型明显的性能差距。受到最近使用自训练方法成功的研究的启发,作者将均值教师机制与对抗学习相结合,为目标域生成伪标签,从而挖掘目标域内部的数据信息。尽管如此,均值教师框架仍然存在一些障碍,阻碍了检测性能的提高。
基于原始均值教师架构的现有工作仅使用统一的静态阈值来过滤伪标签,而忽略了目标检测中分类和回归任务的不一致性,这意味着高置信度分数并不总是保证定位准确性。简单地使用分类分数来过滤伪标签可能会留下不准确的伪框,这必然会导致检测模型引入偏差并导致性能下降。
此外,先前的研究忽视了类别不平衡引入的偏差问题。由于不平衡的数据分布,模型倾向于预测多数类别,同时为少数类别分配较低的置信度分数。如图1所示,以雾都城市风景数据集为例,数据分布存在严重的类别不平衡问题。使用所有类别统一的阈值将会在多数类别的伪标签数量超过 GT 数量时,增加假阳性率,从而导致训练无效和偏见增强,加剧类别不平衡问题。
为克服这些障碍,作者提出了一种自适应类感知对比 Transformer 模型。为了处理伪框的定位不准确,作者引入了一个IoU预测分支,通过利用分类和定位分数来微调和重新加权伪标签。此外,为了解决类别不平衡的问题,作者实现了高斯混合模型(GMM),为每个类别生成自适应阈值,利用每个类别伪框的分数。这个模块不仅使所有类别伪标签在不同训练步骤上的真正阳性样本数量保持稳定,而且为后续类别重新加权提供参数。此外,为了进一步减轻类别不平衡问题,作者引入了一个类感知对比学习模块,通过重新加权来增强同一类别实例之间的特征空间分布相似性,并确保不同类别实例之间具有显著的空间分离,特别是对少数类。
本论文的主要贡献如下:
- 将分类和定位的一致性应用于过滤和重新加权伪标签,从而获得更高质量的伪框进行鲁棒训练。
- 引入了基于GMM的自适应类别阈值模块,可以减少由于数据类不平衡引起的偏见监督,降低假阴性率。
- 设计了一个目标 Level 的类感知对比学习模块,通过重新加权来增强稀有类别特征的分离能力,避免多数类过拟合。
- 所提出的方法在三个代表性的域自适应基准测试中表现出卓越的性能,超过了先前的基于Transformer的方法。
2 Method
如图2所示,受[9]的启发,作者将特征对抗学习和自训练方法结合形成一个多阶段模型训练框架。在第一阶段,作者只使用域对抗学习来训练学生模型以对齐域分布。在第二阶段,作者将第一阶段模型权重初始化为教师-学生模型。教师模型为学生的训练生成伪标签,而学生模型通过指数移动平均(EMA)方法将知识传递给教师模型。这两个阶段的详细损失函数已在第2.5节中概述。
Preliminaries
为了最大限度地发挥自训练的潜力,同时解决由于域转移导致的伪标签质量低的问题,引入了基于SFA的 Query Token 对齐。作者通过在全局和局部 Token 之后添加梯度反转层和域判别器来实现域不变特征的提取。每个域判别器的损失可以用以下公式表示:
其中表示域标签(源域为1,目标域为0)。表示域分类器,而表示输入分类器的 Token 特征。在输入全局 Token 时设置为1,否则等于局部 Token 的数量。总对抗损失如下:
其中是全局 Token 的系数,是局部 Token 的系数。
在基于上述对抗学习的初始模型上,作者使用教师模型来预测弱增强的目标图像,并应用EMA方法更新教师模型。这个过程使作者能够监督学生网络在目标域。学生模型的损失可以写成:
在此处,和分别表示源域图像和标签,是强增强的目标域,是教师模型预测的过滤伪标签。
IoU-guided Pseudo Label Refinement
以前的研究指出了仅使用分类分数进行伪框过滤时的局限性,导致模型性能不理想。大多数现有研究[18, 21]基于两阶段训练或后处理,例如最大值抑制(NMS)来衡量框的不确定性。然而,上述方法很难与端到端和无后处理的Transformer架构相结合。
受到[7]的启发,作者开发了IoU引导的伪标签优化(IPLR)来评估框的准确性,同时过滤和重新加权伪标签与分类置信度分数相结合。
在IPLR中,作者在检测Head中引入了IoU分支,其结构与分类分支相同。使用匈牙利算法分配器后,作者将每个真实框与其预测框相关联,并计算它们之间的IoU。这个值放在类别位置预测中,作为学习目标。在这个分支中,作者使用变焦损失。
在此处,表示IoU分支预测的值,表示预测框与真实框之间的实际IoU。值得注意的是,如果预测框与真实框不匹配,分支预测的标签应设置为0。是权重系数,是聚焦参数。
上述分支预测的IoU值作为定位确定性。作者将分类置信度和定位确定性集成到组合置信度中,该置信度由以下公式表示:
随后,作者利用组合置信度来过滤伪标签。然而,并非所有过滤后的标签具有相等的置信度。为了纠正这一问题,作者根据其组合置信度重新加权它们,以便给置信度更高的标签分配更多的权重。无监督目标域损失,经过重新加权,可以表示为:
此处,和分别表示模型Deformable DETR[29]的分类和回归损失。
Category-aware Adaptive Threshold Generation
以前的工作[24]表明,使用单个静态阈值将降低少数类类的准确性和召回率。受到[19]的启发,作者采用GMM模块来生成自适应的类别特定阈值。作者假设教师网络预测的伪框的置信度分布是正负模式下每个类别的加权平均高斯分布之和。作者的GMM模型可以表示如下:
在此处,表示类别i的组合置信度的概率密度,K设置为2,因为有两个模态。表示第j个高斯分布。
从上述建模中,作者可以估计高斯分布参数并将输入分为正负两段。作者定义类别阈值为正段的最低置信度分数。在模型训练过程中,预测框得分可能会在不同的迭代中改变其分布。GMM模型可以通过学习新的混合组合动态生成阈值。
Class-aware Contrastive Learning Module
为了应对数据不平衡并提高目标 Level 的特征判别能力,作者采用有监督对比学习[27]。这鼓励同一类别内的实例之间的特征分布更接近,同时将不同类别的实例在特征空间中推开。作者采用的对比学习损失函数定义如下:
在此处,表示来自同一预测类的学生模型中的物体,包括与物体来自不同类的所有物体。表示物体的权重。表示从弱增强图像中提取的物体的特征,该特征通过ROIAlign层[26]从Deformable DETR的CNN Backbone 网络生成的多级特征图提取,可以表示如下:
在此处,表示第i个过滤伪框,表示特征图。
然而,以前的研究[27]忽略了伪框之间的置信度差异。置信度较低的框更容易发生标签错误,这可能会缩小不同类别实例之间的特征分布。为了解决这个问题,作者根据每个目标的组合置信度重新加权,类似于公式6。
数据不平衡对某些类别的学习造成了挑战。在2.3节中,作者生成了类别特定的阈值,其中较低的阈值意味着更困难的学习。为了处理这个问题,作者为具有挑战性的类别样本分配更高的权重。总之,一个目标的权重由组合置信度和类别阈值共同决定,如下所示:
在此处,表示目标的个数,表示物体预测的类别阈值,设置为0.5。
Overall Loss
在烧尽阶段,损失包含源域的对抗损失和检测损失。损失如下所示:
在互学习阶段,损失包含学生模型损失、对抗损失和对比损失。公式如下所示:
3 Experiment
Experiment Setup
数据集。作者在四个域自适应场景上评估作者的方法:天气自适应(Cityscapes到Foggy Cityscapes),从合成到真实世界自适应(Sim10k到Cityscapes),以及场景自适应(Cityscapes到BDD100K)。
实现细节。作者的方法基于Deformable DETR,遵循[9]的实验设置。在消融阶段,使用Adam优化器进行50个epoch的训练,所有任务采用批量大小为4。初始学习率为,在40个epoch后减少0.1。
对于天气自适应,设置为1,否则为0.1。在互学习阶段,作者进行40个epoch的训练,采用批量大小为2,从的学习率开始,在20个epoch后减少0.1。对于所有实验,设置为0.05。作者报告在测试时教师网络的平均精确度(mAP),IoU阈值为0.5。
Comparison with the State-of-the-Art
天气适应性。如表1所示,作者的方法在其他基于Transformer的方法中取得了显著的优势,特别是对于一些少数类别,如卡车和摩托车,证明作者的方法确实有助于缓解类别不平衡的问题。
从合成到真实世界的适应性。如表2所示,作者的方法在mAP达到67.7%的同时,相较于之前最先进的方法实现了9.8%的提高。
3.3. In-depth Analysis
消融研究。作者在表4中的天气适应性数据集上进行了消融研究,以评估作者提出的组件。作者的强基准AFL+MT集成了Deformable DETR与对抗特征学习以及平均教师框架,阈值为0.5。
在作者的实验中,每个组件都相对于基准有了个别的性能提升。此外,将所有组件集成在一起,作者的模型实现了最佳性能,这表明作者提出的组件之间具有互补性。
定性可视化。如图3所示,作者展示了在天气适应性任务中不同方法检测的示例。与其他方法相比,作者的方法在识别远离和小型物体方面表现出色,并正确识别了像卡车这样的少数类别。
在图4中,作者使用tsne来可视化ROIAlign提取的所有雾都城市风景验证数据集中的物体的特征。作者通过从作者的模型中删除对比模块来建立一个基准。直观上,对比模块增强了特征分离,并使网络更容易学习更具有判别性的特征,尤其是对于少数类别。
- CONCLUSION
在本文中,作者探索了现有域自适应目标检测方法中不准确伪框和偏置类监测的约束。为了提高定位能力,作者引入了一个IPLR模块,该模块将定位和分类分数相结合以过滤伪标签。
为了应对类偏置问题,作者提出了一种GMM模型来动态生成类特定的阈值,以及一个重新加权对比学习模块来增强少数类别的性能。在三个不同的适应任务上的实验结果验证了作者的方法的有效性和优越性。
参考
[1].Enhancing Cross-Domain Detection: Adaptive Class-Aware Contrastive Transformer.
点击上方卡片,关注 「AI视界引擎」 公众号
