点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
-
- 在单一领域训练的目标检测器难以泛化到多个未见过领域的问题。
-
- 现有基于视觉语言模型(VLM)的增强技术要求检测器的Backbone网络与VLM的图像编码器具有相同结构,限制了检测器框架选择的问题。
-
- 图像或特征增强方法在实际应用中可能破坏源图像细节或引入噪声的问题。
本文的核心创新是什么
语言驱动双重风格混合(LDDS) :通过充分利用VLM中的语义信息来生成风格多样化的图像,并通过图像级和特征级双重风格混合实现源领域的多样化。
图像级风格混合 :提出了一种基于频域的风格混合方法,通过傅里叶变换提取并融合全局风格信息,同时保留物体细节。
特征级风格混合 :设计了一种平滑策略,通过高斯混合模型(GMM)捕获局部风格信息,避免由双重风格混合引起的冲突,使增强过程与检测器无关。
模型无关性 :提出的框架可以无缝集成到主流目标检测器中,包括单阶段、双阶段和基于Transformer的检测器。
结果相较于以前的方法有哪些提升
-
- 在真实到卡通的任务中,Faster R-CNN上实现了15.4%的性能提升,YOLOv8上分别提升了5.5%、9.2%和14.1%,RT-DETR上也显著提高了9.7%、12.5%和14.6%。
-
- 在正常天气到恶劣天气的任务中,Faster R-CNN在夜间晴朗、昏暗雨天、夜间雨天和白天雾天数据集上分别取得了1.6%、5.1%、3.7%和2.1%的性能提升;YOLOv8在夜间雨天数据集上提升了5.4%;RT-DETR在所有未见过的域中都实现了显著提升。
-
- 消融实验表明,LDDS的每个组件(图像级风格混合、特征级风格混合和平滑策略)对整体框架都有重要贡献。
局限性总结
-
- 尽管LDDS在多种基准数据集上表现优异,但其依赖于预训练的视觉语言模型(如CLIP),这可能限制了其在资源受限环境下的应用。
-
- 方法的有效性可能受到Prompt设计质量的影响,精心挑选的Prompt能够产生更高质量的样式信息,但如何自动化地生成最佳Prompt仍是一个挑战。
-
- 虽然LDDS在图像和特征增强方面表现出色,但在极端条件(如罕见天气或极端光照)下的泛化能力仍有待进一步验证。
导读
在单一领域训练的目标检测器泛化到多个未见过领域是一项具有挑战性的任务。现有方法通常通过图像或特征增强来多样化源领域,以提高检测器的鲁棒性。基于视觉语言模型(VLM)的增强技术已被证明是有效的,但它们要求检测器的 Backbone 网络与VLM的图像编码器具有相同结构,这限制了检测器框架的选择。
为解决这一问题,作者提出了语言驱动双重风格混合(LDDS)方法,用于单一领域泛化,该方法通过充分利用VLM的语义信息来多样化源领域。具体而言,作者首先构建 Prompt ,将嵌入在VLM中的风格语义迁移到图像转换网络。这有助于生成具有明确语义信息的风格多样化图像。然后,作者提出在多样化图像和源领域图像之间进行图像级风格混合。这有效地挖掘了用于图像增强的语义信息,而无需依赖特定的增强选择。最后,作者以双重 Pipeline 的方式提出特征级风格混合,使得特征增强与模型无关,并且可以与主流检测器框架无缝协作,包括单阶段、双阶段和基于transformer的检测器。大量实验表明,LDDS在各种基准数据集上均有效,包括真实到卡通和正常到恶劣天气任务。
源代码和预训练模型: https://github.com/qinhongda8/LDDS
- 引言
由于现有的全监督目标检测方法[42, 43]在识别和定位物体方面表现可靠,它们已被广泛应用于自动驾驶、无人机和智能机器人等领域。然而,在实际应用中,目标检测器面临一个挑战,即训练数据与目标部署场景之间存在领域分布差异,例如恶劣天气[45, 53]或分布外风格[29, 32],导致检测性能出现意外退化。
为以最低成本应对这一挑战,少样本域适应[19, 20, 50, 60, 62]通过少量 Token 的目标域图像生成大量样本来调整检测器。另一方面,无监督域适应[3, 6, 8, 12, 13, 24, 33]通过特征对齐或自训练等技术利用 未标注 的目标域图像来减小域差距。虽然这些方法以低资源成本将知识迁移到目标域,但它们仍然依赖于预先收集目标域数据。在现实场景中,预先收集目标域图像是极具挑战性的,例如在冰雹或沙尘暴等罕见恶劣天气情况下。因此,单域泛化(SDG)[5, 7, 10, 18, 51, 55]引起了关注,其目标是通过在源域上训练的单个模型泛化到未见过的域。
现有的SDG目标检测方法[11, 16, 39, 49, 52]主要集中于图像或特征增强。部分图像增强方法[11, 39]会破坏源图像,并在原始图像与破坏后的图像之间对特征图进行对齐。这些方法需要在早期阶段仔细选择增强类型,增加了额外成本,并限制了性能提升以泛化到未见过的领域。Fahes等人[16]尝试使用视觉语言模型(VLMs),例如CLIP[40],来驱动风格迁移模型进行图像增强[35]。他们发现这些模型,如CLIPstyler[35],往往会引入模糊和失真,导致目标细节产生负面影响。其他特征增强方法[16, 49]通过微调预训练的VLMs,将潜在空间中的语义信息传递给检测器的 Backbone 网络。它们为探索SDG的多模态学习方案提供了新思路,避免了仔细选择增强类型。
然而,如图1所示,这些方法要求检测器的 Backbone 网络具有与VLM图像编码器相同的结构,以确保语义信息的传递。这限制了检测器框架的选择,尤其是在对实时性要求较高的场景中,因为VLM的图像编码器通常基于大型网络构建,例如ResNet-101[22]或ViT-B/32[14]。此外,这些方法仅对检测器的 Backbone 网络进行特征增强,无法充分传递VLM中的语义信息。
鉴于上述问题,作者自然考虑以下挑战:如何有效将视觉语言模型(VLM)的语义信息迁移到检测器,同时避免 Backbone 网络的结构限制?对此,作者工作的动机可以概括为两个方面:
-
- 从VLM中提取潜在语义特征并使其显式化,而不仅仅是微调中间特征。
-
- 将提取的语义信息适应于图像和特征增强,以供检测器使用,不受特定网络结构的限制。
基于此,作者提出了一种名为语言驱动双重风格混合(LDDS)的简单方法,用于SDG目标检测。具体而言,作者首先构建风格 Prompt ,并利用视觉语言模型(VLM)将显式的风格语义信息传递给图像生成网络,以生成风格多样化的图像。然后,作者提出了用于SDG目标检测中图像和特征增强的双重风格混合方法,该方法包含两个步骤。
-
- 在图像增强阶段,作者从源图像和多样化图像中捕获全局风格信息,例如亮度和对比度,然后设计图像级风格混合来增强源图像。
-
- 对于特征增强阶段,作者分别针对特征级风格混合和源特征增强引入双 Pipeline 处理方案。这两个步骤使作者能够在图像中保留原始目标表示的完整性,同时融入VLM的风格信息。
此外,为了减轻由双重风格混合可能引起的潜在训练不稳定性,作者为特征级风格混合阶段设计了一种平滑策略。
作者的贡献可以总结如下。
- • 作者提出了一种基于语言的SDG目标检测双重风格混合框架,该框架将语义信息从视觉语言模型迁移至增强检测器在未知场景中的性能。LDDS模型无关,且无需结构限制即可无缝集成到目标检测器中。
- • 作者提出了一种双重风格混合方法,通过图像级和特征级两种方式多样化源域,以更好地利用由语言指导的风格信息进行语义增强。此外,作者在特征级风格混合阶段提出了一种平滑策略,以避免可能由双重风格混合引起的冲突。
- • 作者在多种SDG目标检测基准数据集上评估了LDDS,包括真实图像到卡通图像转换以及正常天气到恶劣天气转换任务,并与主流目标检测框架进行了比较,包括单阶段、双阶段和基于transformer的检测器。所有实验结果均证明了LDDS的有效性。
- 相关工作
目标检测。目标检测是计算机视觉领域的一项关键基础任务。现有的主流检测器通常可以分为单阶段检测器,例如SSD [36]、FCOS [46]以及YOLO系列 [1, 31, 41, 42],双阶段检测器,例如Faster R-CNN [43]和Mask R-CNN [23],以及基于transformer的框架,例如DETR [2]和RTDETR [61]。在实际应用中,选择不同框架的检测器取决于精度与推理速度之间的平衡。
单域泛化目标检测。多项研究[11, 16, 39, 49, 52]针对单域泛化目标检测问题,旨在使在单一源域训练的模型能够泛化到多个目标域。Wu等人[52]提出采用循环解耦自蒸馏技术提取域不变表示,同时分离特定域特征。Danish等人[11]探索了一系列图像增强技术,并使多个视图对齐,以使检测器能够统一源域多样性并实现检测对齐。Qi等人[39]通过应用颜色扰动和采用风格特征增强实现数据多样化。
近期,一些方法利用视觉语言模型(VLM)通过文本 Prompt 引入更丰富的语义信息增强。Vidit等人[49]利用CLIP将源域图像嵌入到指定域的 Prompt 中,然后使用优化后的语义增强训练检测器。Fahes等人[16]使用 Prompt 引导图像编码器捕获多样化的Low-Level特征统计信息,以实现源特征增强。虽然这些方法通过利用VLM的潜在信息实现了接近监督方法的性能,但它们要求检测器的 Backbone 网络与VLM的图像编码器相同,限制了实际场景中检测器框架的选择。因此,作者进一步考虑对检测器架构无关的方法,以捕获VLM的潜在语义信息。
数据混合增强。将多个样本混合成一个样本的数据增强方法已被证明在防止模型过拟合方面是有效的[4, 30, 34, 48, 57, 59]。基于这一点,数据混合已成功应用于领域自适应[26, 37, 47, 64]和领域泛化[25, 63]。然而,在SDG目标检测中,直接数据混合提供的增强效果有限,并可能引入潜在的细节退化,限制其在更广泛领域的泛化能力。在本工作中,作者旨在采用一种语言引导的风格生成方法来执行信息丰富且细节保留的数据混合。
- 方法
问题设定。作者将 Token 数据定义为源域
,其中
表示
张图像中第
张图像
的边界框和类别。通常,源数据由来自单个特定域的图像组成,例如晴朗的交通场景或卡通插图。未见过域被定义为目标域
,在训练期间图像和标注均不可用,并涵盖多种不同的场景。该问题的关键是如何有效利用源域数据来提高目标检测器对未见过域的泛化能力。
作者提出的用于SDG目标检测的LDDS框架如图2所示。在风格生成阶段,作者的目标是将嵌入在VLM中的风格语义信息迁移到图像生成网络,以生成风格多样化的图像。为此,作者将从CLIP获得的文本风格嵌入以及源图像
输入到StyleNet以生成多样化的图像。然后,在图像级风格混合阶段,生成的图像
与源图像在频域中进行混合。通过这两个阶段,作者可以获得语言驱动的全局风格语义增强图像
。在特征级风格混合阶段,对
的特征风格统计量通过高斯混合模型(GMM)进行进一步处理,以获得平滑的特征统计量
。此操作可以避免由双重混合可能引起的风格冲突。之后,
的统计量与
进行混合,以进行局部语义风格混合。生成的双重混合风格特征图
作为检测器的全监督数据。
3.1. 风格生成
为了利用VLM中嵌入的显式潜在语义信息生成风格多样化的图像,作者构建了一个风格生成模块以实现这一目标。受最近提出的CLIPstyler[35]的启发,作者构建了多个文本 Prompt 来描述不同的领域风格,这些 Prompt 的嵌入通过预训练的CLIP获得。然后,文本嵌入与源图像
一起被输入到基于预训练UNet的StyleNet[21, 44]中,以生成风格多样化的图像
。为了生成与 Prompt 一致的图像,作者按照[35]使用损失
对StyleNet进行微调:
内容损失
用于保持输入源图像
的内容信息,而CLIP损失
用于匹配输出
与 Prompt 文本特征
之间的风格。基于此,仅需进行短暂的微调即可实现源域图像的多样化风格调制。图3的第二列展示了生成的样本。
精心挑选的 Prompt 可以产生更高质量的样式信息。为了展示所提出方法的一般化能力,作者使用未修改的 Prompt 作为驱动文本输入文本,例如,源图像 Prompt 表示为"a photo",而未见过的领域 Prompt 定义为"a photo of the road in the rain"。
3.2. 图像级风格混合
直接将这些图像
作为训练数据用于风格多样化生成(SDG)已被证明效果有限 [16],因为在风格多样化步骤中它们会引入噪声并扭曲目标细节。因此,作者的目标是要利用风格信息,而不是整个图像数据。在图像层面,应用傅里叶变换
[38] 后,相位
保留内容信息,而幅度
承载图像层面的风格信息 [54, 56]。作者将源图像和多样化图像转换到频域,具体方法如下。
其中
和
分别对应图像的宽度和高度,而
和
表示水平方向和垂直方向的频率分量,
是虚数单位。通过执行类似的操作,作者获取了
的振幅
和相位
。此时,作者自然地继续进行振幅混合,以实现图像 Level 的风格混合,具体如下。
其中
随机采样于范围
,混合幅度
与相应的源图像相位
形成新的频域数据。通过应用逆傅里叶变换
,作者生成图像级风格混合图像
。这实现了作者提取由VLM在图像级风格混合中生成的风格信息的目标。
应当指出,作者的实现与现有的振幅混合和振幅迁移方法[54, 56]有所不同。对于振幅混合[56],由于缺乏其他风格图像,仅混合源图像内的振幅信息以实现振幅增强。相比之下,振幅迁移[54]依赖于现有的目标域图像来交换振幅信息,以使源图像风格更接近目标图像。尽管作者从风格生成模块获得了风格多样化的图像,但它们仍然不能完全匹配真实数据的分布。因此,对于源域图像
,作者使用其对应的生成图像
进行风格混合,如图3的第三列所示,这能够在最小化负噪声和保留物体细节的同时实现更有效的风格增强。
3.3. 平滑特征级风格混合
上述风格生成和图像级风格混合虽然能够捕捉多样化图像
的风格信息以增强源图像
,但其仍受限于频域中的幅度仅编码全局风格信息,例如亮度与对比度这一事实。如图3所示,尽管
在视觉上看似受到
的风格影响较大,但物体与背景之间的纹理细节以及多个重叠物体的融合仍保持原状。这些因素削弱了检测器感知完整风格信息的能力。为克服这一局限性,作者认为 Backbone 网络中特征图的统计特性能够提取局部风格信息[28, 63]。因此,作者进一步提出了一种特征级风格混合增强方案。
在实施该流程之前,作者注意到现有的基于视觉语言模型(VLM)的特征统计迁移方法要求检测器主干网络与图像编码器相匹配[16, 49],因为它们直接从主干网络中提取特征信息,需要共享的网络架构。为了避免这些架构约束,作者采用双 Pipeline 方法,如图2所示,其中
和
通过主干网络并行处理。基于此,作者可以继续设计基于统计的特征 Level 风格混合,而不受主干网络的限制。
特征统计,即均值
和标准差
,是从特征图
中计算得到的。值得注意的是,源混合图像特征图
已在图像 Level 进行了增强,这意味着它们已经混合了来自
的全局风格信息。然而,由于作者使用
进行双 Pipeline 处理,多样化的图像特征图
也包含了这些全局风格。如图4所示,直接进行统计混合可能导致冗余全局风格产生过多噪声,这对二次风格混合产生负面影响。
为实现平滑的二次风格混合,作者基于
的统计数据
构建高斯混合模型(GMM),以捕捉最具代表性的风格信息,重点关注权重最高的高斯分布
中的数据。形式上,
定义如下。
其中
表示第
个高斯分量的混合权重,作者选择对应于
中最高权重的
个高斯分布,其均值为
,协方差矩阵为
。统计风格数据
表示在
中捕获的最广泛的局部风格信息。在获得
后,通过去除部分全局风格,进行特征 Level 的增强,可以实现平滑的二次风格混合。这是通过以下方式混合特征统计
和
实现的:
3.4. 泛化训练与推理
在领域泛化训练过程中,作者首先构建足够的风格 Prompt ,并对StyleNet进行微调以从源图像生成多样化图像。然后,将随机选择风格的生成多样化图像与源图像在图像 Level 进行混合。此外,从双 Pipeline 检测器主干中随机选择特征统计以实现平滑的特征风格混合。由于仅对训练数据应用语义增强,因此监督信号仍然基于源图像标注和原始检测损失。在推理阶段,未经任何结构修改的检测器在未知的领域上进行评估。
- 实验
4.1. 数据集
真实到卡通。PASCAL VOC数据集[15]由真实场景构建,作为该任务中的源域,而Clipartlk、水彩2k
其中
和
是混合统计数据,
从Beta分布中采样。在后续步骤中,作者与MixStyle [63] 不同,后者混合源域中两张图像的统计数据,并可能破坏物体细节。由于作者的平滑风格混合减少了与物体细节的干扰,作者进一步通过
其中
增强语义增强。最后,
和
用于将标准化特征
恢复为双重风格混合特征
。平滑特征 Level 的风格混合步骤概述在算法1中。
Comic2k数据集[29],由卡通图像组成,被用作未见过域。VOC2007和VOC2012中的16,551张图像被设置为训练数据集,VOC2007中的5,000张图像被设置为源域测试数据集。Clipart1k、Watercolor2k和Comic2k的卡通数据集分别包含1,000、2,000和2,000张图像,作为测试集。PASCAL VOC和Clipart1k共享相同的20个类别,而Watercolor2k和Comic2k每个数据集包含6个类别。
正常天气到恶劣天气。在从正常天气泛化到各种恶劣天气条件的研究实验中,作者使用基于BDD100k [58]的数据集,其中包含城市场景图像及其对应的目标检测标注。遵循先前研究 [49],作者使用19,395张白天晴朗图像(DS)进行训练,以及8,313张用于源域测试的图像。为了在未见过域上进行测试,数据集包括3,501张黄昏下雨图像(DR)、2,494张夜晚下雨图像(NR)、26,158张夜晚晴朗图像(NC)和3,775张白天有雾图像(DF)。所有这些子集共享相同的7个类别。
4.2. 实现细节
作者对单阶段、双阶段和基于Transformer的检测器进行了实验。对于单阶段检测器,作者选择YOLOv8-S [31]作为基准,其 Backbone 网络为CSP-DarkNet,并遵循原始配置。将图像尺寸设置为
,使用32张源图像和32张多样化图像输入双 Pipeline 。初始学习率设置为
P,模型训练100个epoch。对于双阶段检测器,作者使用Faster R-CNN [43]作为基准,其 Backbone 网络为ResNet-101,保持原始设置,批大小为8,初始学习率为
,训练18k次迭代。
对于基于Transformer的检测器,作者采用RT-DTER [61]作为基准,其 Backbone 网络为Swin Transformer-B,遵循原始配置。在所有实验中,作者使用mAP(平均精度均值)和IoU阈值为0.5作为评估指标。对于超参数设置,图像 Level 的风格混合参数
和
分别设置为0.5和1.0,特征 Level 的风格混合使用Beta分布参数
,GMM的参数
。作者使用PyTorch在4块RTX3090 GPU上进行实验。额外的实验设置细节在补充材料中提供。
4.3. 结果与比较
除了使用源数据的基准检测器,作者将所提出的LDDS与现有方法进行比较,包括图像增强方法如Div [11],以及基于VLM的特征增强方法如CLIP-Gap [49]和PODA [16]。在Faster R-CNN作为检测器的情况下,作者参考其原始论文中报告的性能。
真实图像到卡通图像。为了验证LDDS的有效性,作者首先在具有显著领域差异的真实图像到卡通图像场景中进行实验。作者在PASCAL VOC上训练,并在Clipart1k、Watercolor2k和Comic2k上进行测试。
如表1所示,与最近的方法相比,NP [17]、Div [11]以及作者的LDDS在Faster R-CNN上实现了14.4%、14.9%和15.4%的性能提升,所有性能指标均达到最优水平。此外,在单阶段检测器YOLOv8的实验中,作者相较于原始模型提升了5.5%、9.2%和14.1%。基于transformer的检测器RT-DETR在该任务上表现出更严重的过拟合。LDDS在源域中保持其性能,同时在未见过域中实现了9.7%、12.5%和14.6%的性能提升。图5展示了检测结果,表明即使在使用参数受限的YOLOv8模型时,作者的LDDS也能显著提升识别和定位卡通目标的能力。
正常天气到恶劣天气。表2中展示的结果清晰地表明LDDS是表现优异的方法之一。对于Faster R-CNN检测器,与当前最先进的方法Div[11]相比,作者在夜间晴朗、昏暗雨天、夜间雨天和白天雾天数据集上分别取得了1.6%、5.1%、3.7%和2.1%的性能提升。这些性能提升主要归因于LDDS有效利用了VLM中丰富的天气域信息进行图像和特征风格混合。
对于YOLOv8检测器,作者的LDDS也实现了性能提升,尤其是在夜间雨天数据集上,性能提高了5.4%。对于RT-DETR检测器,LDDS在所有未见过的域中都实现了显著提升,即使 Baseline 较高。图6展示了夜间雨天的检测结果,揭示了受雨迹和光照不足影响的物体仍然能被准确检测。这突出了在图像和风格增强策略中实施语言驱动的风格信息对该领域的有效性。
4.4. 消融研究
为阐明LDDS中每个组件的贡献,作者进行了一系列消融实验。作者选取了正常天气到恶劣天气中最具代表性的任务,并使用单阶段目标检测器YOLOv8作为基准。
定量消融实验。由于LDDS中的图像级和特征级风格混合均利用风格生成过程中的多样化图像,在消融实验设置中,LDDS-w/o LD-ISM表示移除图像风格混合流程,该流程包括语言驱动的多样化图像输入以及后续的图像级风格混合。LDDSw/o SFSM表示移除平滑特征风格混合流程,该流程涉及多样化图像特征提取和平滑特征级风格混合。LDDSw/o p-GMM表示移除特征级风格混合的平滑处理。LDDS(完整)表示完整模型。
如表3所示,结果表明作者设计的每个组件都对整体框架有所贡献,如移除这些组件后性能出现不同程度的下降。作者还提供了RT-DETR上的消融实验结果,以更好地支持这一观点。图7描绘了在训练过程中将组件逐步加入 Baseline 检测器后的性能曲线。
图像增强方法分析。作者分析了不同频域图像级增强方法对所提出的LDDS的影响。表4展示了正常到恶劣天气任务的实验结果。作者比较了三种广泛使用的方法,包括傅里叶污染[10]、傅里叶变换[56]和傅里叶混合[54]。结果清楚地表明,作者的语言驱动图像级风格混合实现了最佳性能提升。这归因于LD-ISM在图像增强中捕获丰富的全局风格信息,同时最小化了对物体细节的破坏。
特征增强方法分析。表5展示了在作者的LDDS中,与其他特征增强方法相比,SFSM的影响。ADIN [28] 和 MixStyle [63] 也利用了特征图中的统计信息,有效地增强了源域数据中的泛化性能。然而,在LDDS下,SFSM表现出更优越的适应性,这得益于预混合特征
的优化。这证明SFSM减少了由全局风格混合引起的冲突,实现了更平滑的双风格混合,从而达到语义增强。
风格生成效果。利用风格生成引入多样化的风格信息是作者LDDS的关键动机之一。为了进一步评估其重要性,作者通过解耦其组件进行分析。作者移除处理多样化图像的分支,并将其替换为源域图像。如图8所示,图像级和特征级的混合均导致在恶劣天气场景(如黄昏-雨天和夜间-雨天)中的泛化性能得到提升。然而,由于缺乏更广泛的信息,它在其他条件(如白天-雾天)下的有效性受到限制。这突显了语言驱动方法在确保特异性和广泛泛化方面的重要性。
- 结论
在这项工作中,作者提出了一种简单的基于风格迁移的目标检测方法LDDS,该方法能够基于视觉语言模型(VLM)实现源域的多样化。作者通过风格 Prompt 从VLM中获取明确未见过的域风格信息。作者提出了双重风格混合方法,通过风格信息对图像和特征进行增强,并利用平滑策略避免双重风格混合带来的冲突。LDDS解决了基于风格迁移的目标检测中的关键挑战,能够利用VLM的语义信息而不受检测器主干架构的限制。
大量实验表明,LDDS超越了现有的图像和特征增强方法,为该领域提供了一种新颖的研究范式。
参考
[1]. Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)