点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
-
- 当前目标检测模型在分布外(OOD)场景下的性能下降问题,尤其是在领域偏移较大的情况下。
-
- 现有领域泛化(DG)研究主要集中于基于CNN的检测器,而较少关注提升DETRs(端到端Transformer检测器)的鲁棒性。
-
- 在单域泛化(S-DG)设置下,如何仅使用一个源域训练出对未见领域具有强泛化能力的模型。
本文的核心创新是什么
-
- 提出了领域泛化检测Transformer(DG-DETR),一种简单、有效且即插即用的方法,用于提升DETRs在OOD场景下的鲁棒性。
- • 小波引导的风格增强模块(WaveNP) :通过小波分解将特征分为领域不变和领域特定分量,在保留目标语义的同时合成多样化的潜在风格。
- • 领域无关Query选择策略(DAQS) :通过正交投影从目标Query中移除领域诱导偏差,选择包含丰富领域不变表示(如形状)的Query。
-
- 首次探索了DETRs在领域泛化目标检测中的潜力。
-
- 结合显式和隐式的形状偏置增强方法,进一步提高模型对领域偏移的鲁棒性。
结果相较于以前的方法有哪些提升
-
- 在多样化天气数据集(DWD)上,DG-DETR显著优于现有方法,尤其是在分布外场景下的性能表现优异。
-
- 即使在领域内场景(训练集和测试集来自同一领域)下,DG-DETR也能提升模型性能。
-
- 消融实验表明,WaveNP和DAQS两个核心组件对模型性能均有重要贡献,移除任何单个组件都会导致性能下降。
局限性总结
依赖特定架构 :尽管DG-DETR框架兼容其他基于DETR的检测器,但实验主要基于RT-DETR进行验证,可能需要进一步评估其在其他DETR变体上的效果。
计算开销 :WaveNP模块涉及小波变换和逆变换,可能增加一定的计算复杂度,尤其在大规模数据集上应用时需权衡效率与性能。
风格增强的局限性 :虽然WaveNP能够在一定程度上保留目标语义,但在极端领域偏移的情况下,仍可能存在语义信息丢失或风格扰动不足的问题。
数据多样性要求 :尽管DG-DETR旨在解决单域泛化问题,但其性能可能仍然受到训练数据多样性和质量的影响。
端到端Transformer检测器(DETRs)已展现出强大的检测性能。然而,领域泛化(DG)研究主要集中于基于卷积神经网络(CNN)的检测器,而较少关注提升DETRs的鲁棒性。
在本文中,作者引入了一种领域泛化检测Transformer(DG-DETR),这是一种简单、有效且即插即用的方法,用于提升DETRs在分布外(OOD)场景下的鲁棒性。具体而言,作者提出了一种新颖的领域无关 Query 选择策略,通过正交投影将领域诱导偏差从目标 Query 中移除,投影目标为实例特定的风格空间。
此外,作者利用小波分解将特征分解为领域不变和领域特定分量,从而在保留目标语义特征的同时合成多样化的潜在风格。实验结果验证了DG-DETR的有效性。
代码: https://github.com/sminhwang/DG-DETR
- 引言
基于深度神经网络(DNN)的目标检测器[1, 2, 3, 4]在满足独立同分布(i.i.d.)假设的计算机视觉任务中表现出色,该假设认为训练数据和测试数据来自同一分布。然而,当这些模型在实际场景中部署,而场景分布与训练集不同时,由于领域偏移[5, 6, 7],其性能往往显著下降。这一问题在自动驾驶等安全敏感应用中尤为关键。为此,解决源域和目标域之间的分布偏移一直是计算机视觉领域的一项长期挑战。
为缓解这一问题,当前主要的研究方向是无监督域适应(UDA)[8, 9, 10, 11, 12, 13],其目标是将 Token 源域的数据分布与 未标注 目标域的数据分布进行对齐。尽管UDA方法已展现出良好的效果,但它们高度依赖于在适应过程中目标域数据可用的假设。此外,由于收集所有感兴趣目标域的足够训练数据往往不切实际[14],即使没有标注,所需成本和努力也常常难以承受。
领域泛化(DG)[15, 16, 17, 14] 已成为一种可行的解决方案,旨在通过在训练过程中从多个观察到的源域中学习,训练一个能够良好泛化到未见过目标域的模型。大多数DG方法通常致力于在这些源域中学习域不变的特征表示,但它们的性能对可用的源域的多样性和数量敏感[18, 19],而这些源域的收集往往成本高昂且费时费力。作为一种更实用的方法,近期研究开始关注单域泛化(S-DG)[20, 21],其旨在仅使用一个源域来训练鲁棒的模型。然而,在这种设置下实现域外(OOD)鲁棒性仍然是一个开放性挑战。
近年来,尽管尺度-深度图(S-DG)在许多视觉感知系统中具有关键重要性,但针对其用于目标检测的研究[22, 23, 24]却十分有限。此外,现有的S-DG研究大多集中于基于CNN的检测器[1, 2, 3],尽管视觉Transformer(ViT)凭借其优越的形状偏差展现出强大的泛化能力,这源于其能够捕捉token之间的全局依赖关系[25, 26]。基于此,在本文中,作者探索了共享全局建模优势的检测Transformer(DETR)[4]在目标检测单域泛化方面的潜力。
与人类视觉系统类似,该系统通过提取全局形状信息表现出高鲁棒性[27],近期研究[28, 29, 30]表明,具有形状偏置的模型能够实现高鲁棒性。基于这一观察,作者旨在通过隐式和显式增强形状偏置,以提高模型对领域偏移的鲁棒性。
在本工作中,作者提出了一种领域无关的 Query 选择策略,通过显式消除 Query 中的领域诱导偏差,并选择包含丰富领域不变表示(例如形状)的 Query ,从而为解码器提供高质量的初始 Query ,以实现鲁棒的目标检测。
为了隐式提升模型鲁棒性,风格增强[31, 32]已被成功应用于图像分类的单域泛化中,通过单一源域生成多个域。然而,风格合成可能会潜在地扭曲图像内容,而图像内容对于存在多样化上下文的层次化目标检测至关重要。因此,将风格增强应用于目标检测的关键挑战在于在实现多样化风格增强的同时,保留目标的形状和语义。为此,作者利用小波变换对域不变特征和域特定特征进行分解。这种方法使作者能够仅扰动域特定特征(例如纹理),同时保留图像中固有的内容结构(例如形状)。
本通信的主要贡献总结如下:
据作者所知,这是首个探索DETRs在领域泛化目标检测中潜力的研究。
- • 作者介绍了DG-DETR,这是一种简单而有效的即插即用方法,可以提高DETRs的泛化能力。
- • 作者提出了一种领域无关的 Query 选择策略,该策略明确地从目标 Query 中消除了领域诱导的偏差。
- • 在风格增强过程中保留目标的语义,作者利用小波分解仅扰动特定领域的特征。
- 提出方法
在本节中,作者简要介绍了DG-DETR的整体架构。随后,作者详细描述了为鲁棒目标检测而引入的新组件。
2.1. 概述
DETRs由CNN主干网络、编码器-解码器结构和目标类别及框位置预测器组成。为提升泛化能力,作者引入了风格增强模块和领域无关 Query 选择。DG-DETR的整体框架如图1所示。
给定输入图像, Backbone 网络首先提取图像特征,而风格增强模块合成多样化的潜在风格。然后输出被输入到一个高效的混合编码器[33],该编码器结合Transformer和CNN以增强特征表示。编码后的特征随后被传递到领域无关的 Query 选择模块。该模块从 Query 中移除领域诱导的偏差,并为解码器提供高质量的初始 Query 。
最后,带有辅助预测头的解码器迭代地细化目标 Query ,以生成目标类别和边界框。作者注意到,虽然RT-DETR[33]被作为示例,但DG-DETR框架与其他基于DETR的检测器兼容。
2.2. 小波引导的风格增强模块
风格增强可能引发物体语义漂移的问题,导致物体定位不精确和误分类。受频率谱特性的启发[34, 26],作者认为基于频率的风格增强能够在保持物体语义的同时合成多样域。回想高频分量捕捉更多全局特征(例如形状),而低频分量包含平滑表面和纹理(见图2)。这表明仅对低频分量应用风格增强会影响整体纹理,同时保留图像内容。
为此,作者提出利用小波变换来分离图像的高频和低频特征。具体而言,给定一个中间CNN特征图
,该特征图具有
空间维度和
个通道。离散小波变换(DwT)应用四个滤波器,即
和
,其中低通滤波器定义为
,高通滤波器为
。这些滤波器在输入
上滑动,将其分解为四个小波子带:
和
,每个子带的分辨率均降低。在本文中,作者将低频分量
记为
,将高频分量
记为
。
由于浅层CNN层保留了更多的风格信息[35],作者将风格增强模块应用于CNN Backbone 网络。具体来说,作为一种常见做法,作者采用特征通道统计量(即均值和方差)来表示图像风格。
作者随后扰动源域训练实例的风格统计以合成新的域风格。先前有数项研究[32, 31, 36, 23]通过扰动特征统计在特征空间中探索域合成。为平衡多样性与保真度,作者采用归一化扰动(NP)[23]来扰动浅层CNN Backbone 层中的特征统计。
给定
,作者使用归一化扰动(Normalization Perturbation,NP)将随机噪声插入到特征通道统计中,具体方法如下:
归一化扰动(NP)的公式表述为:
其中
和
分别表示输入内容图像和风格化图像的均值和方差。
随后,
和
被输入到逆离散小波变换(IDwT)层,以重建风格增强特征图
。整个流程如图3所示。在本信中,作者将风格增强模块称为WaveNP。遵循[23],WaveNP在CNN主干网络训练过程中的阶段1和阶段2中被应用。
2.3. 无领域 Query 选择
在DETR模型中,目标 Query 是一组固定的可学习嵌入,作为Transformer解码器的输入。这些 Query 作为潜在目标表示,与解码器中的全局图像特征交互,并逐步优化以映射到图像中的目标实例。由于优化可学习目标 Query 本质上具有挑战性,一些方法[37, 38]引入了 Query 选择方案,使用置信度分数选择前K个特征作为初始目标 Query 。领域偏移,主要来自视觉风格的差异,将显著的风格诱导偏差(即领域诱导偏差)引入潜在特征中,从而限制了学习模型的泛化能力。因此,从 Query 中消除领域诱导偏差增强了DETR模型对现实世界领域偏移的鲁棒性。
为解决这一问题,作者提出了一种领域无关 Query 选择方法,该方法从目标潜在表征中去除由风格引起的偏差。如图4所示,DG-DETR利用潜在空间中的正交性,将 Query 投影到与风格无关的语义轴上。基于与风格相关的统计数据(即
和
),作者构建潜在风格表征,具体如下:
其中
是一个风格嵌入,
是特征维度,
是一个风格编码器,由一个线性层和一个归一化层组成。
令
表示由
和
张成的子空间,其中
是特征序列的数量,表示展平编码的图像特征。作者的目标是移除
在
轴上的分量。
其中
是一个介于0和1之间的超参数,用于控制风格成分的去除程度。需要注意的是,在训练过程中,
被固定为1。
从
出发,作者使用置信度分数选择
得分最高的特征作为初始目标 Query :
其中
表示被选择的
个特征集合,
是一个辅助预测头,用于选择前
个特征。
作者注意到,从图像特征中移除由风格引起的偏差可能会导致有意义信息的丢失。因此,作者仅在 Query 选择过程中从特征序列中减去与风格相关的分量。
- 实验
在本节中,作者评估了DG-DETR在分布外场景下的泛化能力,包括一项消融研究以验证所提出组件的有效性。
3.1. 实验设置
为评估DG-DETR,作者使用了多样化天气数据集(DWD)[22],这是一个城市场景检测基准,包含五种不同的天气条件:白天晴朗(DS)、夜晚晴朗(NS)、夜晚雨天(NR)、黄昏雨天(DR)和白天雾天(DF)。DWD从BDD-
[41]、FoggyCityscapes [7]和AdverseWeather [42]数据集中收集了图像。遵循[22],作者仅使用源域(即白天晴朗)训练模型,并直接在其他恶劣天气域上评估它。
在所有实验中,作者采用RT-DETR [33] 作为基础检测器。据作者所知,之前没有研究探索过基于DETR的目标检测中的领域泛化(DG)。因此,作者扩展了现有的DG方法 [39, 35, 40, 18, 23],这些方法最初是为CNN实现的。所有这些方法通过将特征归一化 [39, 35, 40, 18] 或扰动 [23] 应用于CNN特征提取器来提高模型的泛化能力。
因此,作者直接将它们集成到DETR的特征提取器(即CNN主干)中。为了评估领域泛化性能,作者遵循 [22] 并使用平均精度均值(mAP)指标。具体而言,作者报告IoU阈值为0.5时的mAP
。投影缩放因子(公式6)设置为1.0。
3.2. 领域泛化性能分析
作者还进行了领域内场景的比较实验,结果报告在表2中。结果表明DG-DETR显著优于现有方法,证明了所DG-DETR即使在训练集和测试集来自同一领域时也能提升性能。
3.3. 消融分析
为进一步评估DG-DETR中关键模块和策略的有效性,作者进行了一系列消融实验。表3展示了对每个组件的消融研究。
如表所示,移除任何单个组件都会降低DG性能,这证明了每个模块的贡献。作者注意到,领域无关 Query 选择(DAQS)通过从目标 Query 中移除领域诱导偏差,即使没有增强或归一化技术也能提升模型性能。
3.4. 定性结果
作者在图5中展示了不同天气场景下的定性比较。如图所示, Baseline RT-DETR在具有挑战性的环境中无法检测到物体,经常漏检或产生不准确的预测。相比之下,DG-DETR在恶劣条件下展现出更精确和可靠的目标检测性能,证明了其在跨域场景中的鲁棒性。
- 结论
在本封信中,作者提出了领域泛化检测Transformer(DG-DETR),用于基于DETR的单领域泛化。WaveNP通过解耦领域不变特征和领域特定特征,在特征扰动过程中保持目标语义。领域无关 Query 选择通过从目标 Query 中移除领域诱导偏差,提高了OOD鲁棒性。
实验结果表明,DG-DETR显著提升了DETR模型对未见领域的泛化能力。
参考
[1]. DG-DETR: Toward Domain Generalized Detection Transformer
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)