点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
尽管基于深度学习的当前目标检测模型在许多传统基准数据集上取得了优异的结果,但在极端条件下拍摄的真实世界图像上,其性能会急剧下降。
现有方法要么使用基于传统图像处理算法的图像增强,要么应用定制且场景受限的图像适应技术进行鲁棒建模。
因此,本研究提出了一个风格化数据驱动的神经图像自适应YOLO(SDNIA-YOLO),它通过自适应地提高图像质量并从神经风格转移(NST)合成的图像中学习与极端天气条件相关的有价值信息,从而提高模型的鲁棒性。
实验表明,开发的SDNIA-YOLOv3在真实世界的雾天(RTTS)和低光照(ExDark)测试集上,相比于基准模型,mAP@.5至少提高了15%。
此外,实验还突显了风格化数据在模拟极端天气条件方面的巨大潜力。
开发的SDNIA-YOLO在很大程度上保持了原生YOLO的优秀特性,如端到端的一阶段、数据驱动和快速。
I Introduction
目标检测是计算机视觉的基本任务之一。目前,基于卷积神经网络(CNN)的深度学习方法已成为目标检测的主流支撑,并在许多传统基准数据集上取得了优异的性能。然而,在常规图像上训练的目标检测模型通常缺乏鲁棒性,在雾天和低光照等极端天气条件下取得的结果不理想[5]。
关于去雨、去雾和低光照增强[12]的研究有很多,但由于这些模型都是深层且复杂的CNN模型,需要单独训练,因此直接将这些模型与目标检测网络结合实际上并不可行。这些额外的深度CNN模型将使得最终集成的模型无法满足目标检测最基本的实时要求。另一方面,原生YOLO模型使用了各种传统图像处理算法(TAs)来模拟输入图像的极端条件[1, 13],例如随机噪声、随机伽马变换、随机模糊以及随机亮度和对比度[14]。然而,TAs的效果有限,因为那些经过TAs增强的模型在遇到极端天气条件时性能仍然急剧下降。
关于恶劣天气条件下目标检测的最新研究是IA-YOLO[5],它提出了一种白盒图像自适应(IA)模块,用于在输入YOLOv3之前增强图像,以获得更好的检测结果。然而,白盒IA依赖于场景,这意味着IA-YOLO需要针对不同的极端场景定制不同的IA模块并重新训练。此外,在实际应用中,白盒策略是不必要的,因为它们大多数只关心最终的检测结果,并不关注图像需要执行哪种处理操作。
本研究提出了一种风格化数据驱动神经图像自适应YOLO,用于在极端天气条件下进行鲁棒的目标检测。SDNIA-YOLO由一个神经图像自适应(NIA)模块和一个YOLO主干网络组成。NIA模块是一个轻量级的CNN模型,用于图像自适应,它通过消除与极端天气条件相关的信息来学习自适应地恢复图像到最佳状态。调整后的图像随后输入到YOLO中以完成检测任务。本研究提出的NIA模块并不单独为每个场景设计一系列自适应算法,而是数据驱动的,只要训练数据包含特定的极端场景,它就可以学习到针对特定极端条件的自适应能力。本研究使用了神经风格迁移(NST)技术来模拟极端条件,通过将极端条件从风格图像转移到常规/正常训练数据,赋予训练数据特定的极端信息。NIA模块和YOLO主干网络通过风格化和常规图像进行端到端的联合训练。最终,开发的SDNIA YOLO在雾天(RTTS)和低光照(ExDark)场景中优于 Baseline YOLO和现有的IA-YOLO,并在图1 中展示了令人印象深刻的mAP改进。
本研究的贡献可以总结如下:
- 本研究提出了一种新的SDNIA-YOLO模型,用于在极端天气条件下进行鲁棒的目标检测,并在真实世界的雾天和低光照测试集上验证了其mAP的显著改进;
- 提出的NIA是一个轻量级的数据驱动模块,使得开发的SDNIA-YOLO在很大程度上继承了原生YOLO的许多优秀特性,如端到端/单阶段、场景独立和快速推理;
- 本研究还验证了使用NST技术在提高模型鲁棒性方面模拟极端天气条件的可行性和应用价值。
本文的其余部分组织如下:
第2部分回顾了一些相关工作,以提供研究基础。
第3部分详细描述了提出的SDNIA-YOLO。
第4部分在雾天和低光照场景中进行了实验。
第5部分进一步讨论并分析了SDNIA-YOLO的性能。
最后,第6部分总结了这项工作。
II Related Works
目标检测。 当前主流的基于卷积神经网络(CNN)的目标检测方法可以分为两类。一类是基于区域 Proposal 的两阶段R-CNNs,它们首先从图像生成感兴趣区域(ROI),然后通过另一个神经网络进行分类[15, 16, 17]。另一类是基于单阶段回归,如YOLOs[1, 2, 3, 18]和单次多框检测器(SSD)[19],它们仅使用一个回归网络一次预测物体标签和边界框坐标。在本研究中,所提出的模型采用了经典的YOLO架构作为模型的主干,不仅因为其一步到位、快速和高精度的特点,还为了与最新的类似研究IA-YOLO[5]进行直接比较。
极端条件下的目标检测。 目前,针对极端条件下的目标检测主要有三种解决方案。最常见的是图像增强方法,该方法以一定的概率应用各种变换函数(例如,随机模糊、随机雨滴、随机伽马、随机亮度等)来模拟极端条件[13, 14]。第二种是通过联合或多任务学习同时执行图像增强和检测任务[20, 5, 21]。然而,这些方法是基于特定的物理/经验公式设计损失函数的。最后一种是域自适应[22, 23, 24],它假设在正常和恶劣天气条件下捕获的图像之间存在域转移,通过学习域先验知识消除天气特定信息,使特征具有天气不变性。
图像自适应(IA)。 图像自适应是图像增强的新兴技术。传统方法通常根据某些经验公式基于图像特征计算设计的变换函数的超参数[25, 26, 27]。例如,Wang等人[26]根据输入图像的照明分布特性自适应地应用局部伽马变换和色彩补偿来调整增强参数。随着深度学习的发展,CNN开始越来越多地用于根据提取的图像特征自动学习各种变换函数的超参数[28, 29, 30, 5]。例如,为了在极端天气条件下获得更好的检测结果,Liu等人开发了一个白盒IA模块,包含一系列图像变换算法,用于在图像输入目标检测模型之前进行增强,其参数由一个小型CNN同时且自适应地预测。然而,这种白盒自适应方法必须预先知道需要学习多少个变换函数和哪些超参数。此外,白盒IA模块的设计需要针对特定的极端条件进行定制和重新训练。
神经风格迁移(NST)。 神经风格迁移(NST)被提出用于在最小内容损失和最大风格相似性的情况下将风格从风格图像迁移到内容图像[31]。2017年,Ghiasi等人[32]提出了任意NST,使用单个模型对任意给定内容和风格图像进行风格迁移。由于每张图像的内容不同,NST自然地在图像 Level 创建随机性。此外,NST模型中风格损失使用的格拉姆矩阵关注风格纹理并忽略了全局空间信息,这增加了图像风格化后像素 Level 的风格随机性。拥有这些优势,NST已被应用于图像分类任务作为一种新的增强方法[33, 34, 35],但在目标检测和极端条件模拟方面尚未尝试探索。## III 方法论
图2 是所提出的SDNIA-YOLO的总体框架。首先通过NST模型合成风格化图像以模拟极端天气条件。将这些合成数据与原始内容图像混合以形成训练数据。在模型训练中,NIA模块之后产生两个数据流:一个用于与原始内容图像一起计算图像恢复损失(),另一个直接输入到YOLO模型以计算检测损失()。最后,根据和的加权损失,在每个训练批次中联合优化NIA和YOLO的参数。
Neural style transfer
将现实世界的极端条件嵌入到常规图像中对于模拟极端条件是很有前景的。一个优秀的嵌入方法应该在不改变图像基本内容的前提下,将极端场景的风格转移到图像上,而NST模型非常适合实现这样的功能。图3 展示了任意NST模型的风格化过程:首先使用风格预测网络()从风格图像预测风格向量();然后在预测的风格向量的约束下,通过风格转换网络()对内容图像进行风格化。这种模块化结构设计允许通过使用“身份插值”[32]轻松控制风格化强度()。图4 展示了一些使用不同强度进行风格化的图像。随着的增加,图像内容的细节逐渐丢失,嵌入的风格逐渐接近极端条件。NST模型可以使用不同的风格图像和不同的风格化强度,为单一常规内容图像生成具有各种极端条件的多张图像。理论上,合成图像的总数可以通过计算得出,其中、和分别是内容图像、风格图像和强度因子的数量。
Neural-image-adaptive module
NIA模块的主要目的是在执行目标检测之前,从图像中移除与极端条件相关的信息。与白盒IA模块不同,NIA是一个黑盒模块,只关注最终的恢复结果,而模块内执行的操作和转换是不透明的。考虑到最终端到端模型的推理效率,NIA模块被设计为一个轻量级的CNN,如图5 所示。由于网络相对较浅,不适宜应用编码-解码策略,因此每个内部NIA层的输出都被设置为相同的大小。像其他普通CNN一样,NIA也是数据驱动的,这意味着它消除极端信息的能力取决于它被喂食了什么样的训练数据。关于图像内容恢复损失,直观上更倾向于使用1或2损失。然而,这些像素级方法仅逐像素比较差异,而没有考虑人类的视觉感知和美学。最小的1/2损失并不一定意味着图像恢复得好。因此,结合了1损失的的多尺度结构相似性指数测量(MS-SSIM)被用来考虑不同图像分辨率 Level 中的人类视觉感知,包括亮度、对比度和结构[36]。然而,MS-SSIM+1损失仍然没有考虑图像固有的或高级特征的恢复。因此,采用了基于VGG模型[37]的感知损失来考虑高级特征恢复损失[38]。最后,图像恢复损失由1、MS-SSIM和基于VGG的感知损失组成,如公式(1)所示,其中、和在本研究的训练过程中经验性地设置为0.25、0.25和0.5。
Object detection backbone
鉴于YOLO系列在目标检测领域的卓越性能,本研究采用了YOLO架构作为目标检测的 Backbone 网络。具体来说,所提出的SDNIA-YOLO是基于开源的YOLO(v3和v5)实现[14]进行修改的。目标检测损失包括边界框损失、置信度损失和分类损失,如公式(2)所示,其中在本研究的训练过程中,、 和 经验性地设置为0.05、1.0和0.5。
Model training and inference
SDNIA-YOLO的模型训练与原生YOLO略有不同,主要在于模型输入和输出上。如图2 所示,在训练阶段,SDNIA-YOLO的输入包括待检测的图像和用于恢复参考的图像。参考图像是没有进行任何风格化的原始内容图像。在模型训练期间,根据总损失,使用联合/多任务学习策略在每个训练批次中优化NIA和YOLO,如(3)所示,其中在本研究中,经验性地设置为0.01。在推理阶段,SDNIA-YOLO模型不需要参考原始图像,这与原生YOLO保持一致,只需要将待检测的图像作为输入。
IV Experiments
实验部分四的开始。
Data preparation
与文献[5]的研究一致,本研究考虑了两种极端场景进行实验。从VOC2007_trainval和VOC2012_trainval数据集[39]中提取包含人 、自行车 、汽车 、公交车 或摩托车 目标的图片,构建雾天场景的新训练验证集(VOC_trainval);同时提取包含人 (人群)、自行车 、汽车 、公交车 、摩托车 (摩托)、船 、瓶子 、猫 、椅子 或狗 的图片,构建低光照场景的VOC_trainval集。提取的图片通过一个训练有素的任意NST模型[40]进行风格化( = 1.0),使用收集的风格图像,并与原始图像混合形成最终的训练验证集,名为VOC_trainval_mixed (VTM)。为每个极端场景随机收集了13张在线风格图像作为演示。风格图像的收集标准相对简单:只关注所需的极端风格,不考虑图像内容,因为只有风格会被转移。
图6:极端风格图像示例(第一行和第三行)及其相应的风格化( = 1.0)结果(第二行和第四行)。
至于模型评估,为每个极端场景收集了三个不同的测试集。第一个是VOC_norm_test (VNT),使用与VOC_trainval相同的构建方法从VOC2007_test集中提取。接下来是两个来自[5]的合成测试集,VOC_foggy_test (VFT)和VOC_dark_test (VDT),它们基于_VNT_集通过雾天方程和随机gamma变换合成。最后是两个真实世界的数据集,雾天条件下的_RTTS_[41]和低光照条件下的ExDark_test (EDT)集[42]。表1显示了每个数据集的详细信息,图6 展示了一些极端风格图像及其相应的风格化结果。 用您的稿件ID号替换此行(双击此处进行编辑) 。
Experiment settings
SDNIA-YOLO模型分别针对雾天和低光照场景进行训练。在模型训练过程中,一些关键参数设置如下:优化器采用SGD,学习率为0.001,输入批处理大小为4张544x544的图像,训练周期设置为较大的数值(例如,400),但采用了耐心度为十的早停策略。训练完成后,两个MS COCO数据集上的表现如下:
Results
Performance comparison
表2和表3比较了在雾天和低光照环境下, Baseline YOLOv3/v5和SDNIA-YOLOv3/v5的性能。注意,本研究实际上使用了YOLOv5x主干网络,但为了方便起见,下面仍将其标注为YOLOv5。此外,两个表中还列出了六种处理恶劣环境条件的相关模型/方法,这些是IA-YOLOv3研究[5]给出的实验结果。DAYOLO [44]是一种领域自适应模型,而DSNet [20]是基于多任务学习的模型。
首先,在雾天和低光照环境下,SDNIA-YOLO模型与其他模型相比表现最佳。值得注意的是,SDNIA-YOLO模型在所有测试数据集上的表现都远胜于IA-YOLO,这表明开发的黑盒SDNIA模块在处理极端天气条件方面比白盒IA模块更优秀。此外,尽管 Baseline YOLOv3和YOLOv5在VOC正常测试数据(_VNT_)上取得了满意的性能,但它们在合成和真实世界的极端测试数据上的性能急剧下降。YOLOv3在_VFT_、_RTTS_、_VDT_和_EDT_集合上的mAP@.5分别下降了11.73%、35.82%、13.13%和23.4%,而YOLOv5的这些数据分别为10.77%、34.04%、13.37%和23.23%。SDNIA-YOLO模型显著改善了这种情况:与 Baseline YOLOv3相比,SDNIA-YOLOv3在_VFT_、_RTTS_、_VDT_和_EDT_集合上分别实现了16.56%、15.73%、14.54%和15.12%的mAP@.5提升,而SDNIA-YOLOv5与其 Baseline 模型相比,相应地提升了13.98%、11.85%、13.81%和15.42%。
除了对极端条件更鲁棒之外,SDNIA-YOLO模型在正常条件下也实现了更高的性能。
例如,为两种极端场景构建的SDNIA-YOLOv3模型在_VNT_集合上实现了7.06%和6.55%的mAP@.5提升。
总之,提出的黑盒SDNIA模块在处理极端天气条件方面优于现有的白盒IA模块,SDNIA-YOLOv3与 Baseline 模型相比,在真实世界的雾天和低光照数据集上实现了大约15%的mAP@.5显著提升。
Iv-A2 Results visualization
图7 和图8 展示了在雾天和低光照场景下,IA-YOLOv3和SDNIA-YOLOv3的一些图像适应和检测结果示例。从图像适应效果的角度来看,IA模块相对过度锐化输入图像,在低光照场景中产生了许多噪声,而SDBIA模块输出的图像更柔和,光照更自然。然而,如果仅凭人眼观察,仍然难以确定哪个模块达到了最佳的适应效果。在比较检测结果时,SDNIA-YOLOv3的性能立即凸显出来。IA-YOLOv3未能检测到许多关键物体,甚至在某些情况下(例如,图7 中的A4和C4图像以及图 8中的B6和C6图像)未检测到任何物体,而SDNIA-YOLOv3几乎完美地检测到了所有考虑的物体,甚至检测到了在 GT 中 未标注 的正确物体(例如,图 7中的C5图像和图 8**中的C5图像)。
在所有测试集上的mAP@.5: 95。此外,带有MS-SSIM+11损失的模型在所有测试集上的表现都优于带有VGG_P损失的模型,这表明在极端条件下进行目标检测时,恢复人类视觉感知信息可能比恢复图像的固有高级特征更好。换句话说,当前的目标检测模型在图像中更多地依赖于人类视觉感知信息,而不是其高级特征,这为在进行目标检测之前进行图像适应的必要性提供了间接证据。
Impact of stylization data and the NIA module
如表6所示,单独应用风格化数据或NIA模块都可以帮助 Baseline 模型实现令人鼓舞的性能提升,而将它们一起应用则在所有测试集上以最高的mAP@.5: 95实现了最佳的综合性能。此外,SD-YOLOv3和NIA-YOLOv3在三个测试集上的高绩效表明,提前学习极端条件的知识和提升图像质量是使目标检测模型在恶劣天气条件下更具鲁棒性的两种有效途径。最后,SD-YOLOv3的出色性能也反映了NST技术在模拟极端天气条件方面的潜在优势。
Impact of stylization strength
不同α值的风格化数据的组合也对模型的性能产生了一定的影响。因此,如表7所示,SDNIA-YOLOv3在不同风格化数据集上进行了训练,α的范围从0.2到1.0,步长为0.2,其中范围[0.6:1.0]意味着应用α值为的风格化。随着α范围的增加,SDNIA-YOLOv3的性能逐渐变好,在α范围[0.8:1.0]和[0.4:1.0]之间达到最佳。根据图4 ,当α值较小时,风格化图像与源内容图像之间几乎没有区别,这相当于引入了重复的图像,而没有为模型提供新的知识,这就是性能在[0.4:1.0]之后停止增长的原因。因此,α值较高的风格化数据可以为模型提供有关极端天气条件的宝贵信息,这些α值的组合为模型提供了一个更全面的知识领域,以实现更高的性能。
VI Conclusions
本研究提出了SDNIA-YOLO模型,以在极端天气条件下进行更稳健的目标检测。在雾天和低光照场景的实验和消融研究中,验证了所提模型的可行性和有效性。
首先,SDNIA-YOLO在真实世界的雾天和低光照测试集上优于其他模型,并在mAP@.5上至少提高了15%。此外,NST技术在模拟恶劣天气条件方面具有巨大潜力,风格化数据可以为检测模型提供非常有价值的极端条件知识。
在风格化数据的驱动下,基于CNN的NIA模块可以在进行目标检测之前,自适应地消除输入图像中的极端条件相关信息。
未来的工作可以集中在更多场景(例如,雨天、雪天、过曝、阴影等)中验证模型,或者实现一个即插即用的SDNIA模块,使其成为其他计算机视觉任务的通用工具。
参考
[1].SDNIA-YOLO: A Robust Object Detection Model for Extreme Weather Conditions.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」