点击下方卡片,关注 「AI视界引擎」 公众号
近年来,由于成本效益和可扩展性,特别是在与LiDAR系统相比时,以视觉为中心的感知系统在自动驾驶中受到了相当大的关注。然而,这些系统在低光照条件下常常表现不佳,可能会影响其性能和安全性。为了解决这个问题,作者的论文引入了LightDiff,这是一个专为自动驾驶应用设计的领域定制框架,用于提高低光照图像质量。
具体来说,作者采用了一个多条件控制的扩散模型。LightDiff在没有任何由人收集的配对数据的情况下工作,而是利用动态数据退化过程。它包含一个新颖的多条件 Adapter ,该 Adapter 自适应地控制来自不同模态的输入权重,包括深度图、RGB图像和文本标题,以有效照亮暗场景同时保持上下文一致性。此外,为了使增强的图像与检测模型的知识对齐,LightDiff采用特定的感知得分作为奖励,通过强化学习指导扩散训练过程。
在nuScenes数据集上的大量实验表明,LightDiff可以在夜间条件下显著提高几个最先进的3D检测器的性能,同时获得高视觉质量得分,突显了其在保障自动驾驶方面的潜力。
1 Introduction
夜间驾驶对人类来说是一项挑战,对自动驾驶车辆来说更是如此,如图1所示。2018年3月18日,一起灾难性事件凸显了这一挑战,当时Uber高级技术集团的一辆自动驾驶车辆在亚利桑那州撞死了一名行人。由于车辆在低光照条件下未能准确检测到行人,这一事件将自动驾驶车辆的安全问题推到了前台,特别是在这种要求苛刻的环境中。随着以视觉为中心的自动驾驶系统越来越多地依赖摄像头传感器,解决低光照条件下的安全问题变得越来越关键,以确保这些车辆的整体安全。
一个直观的解决方案是收集大量的夜间驾驶数据。然而,这种方法不仅劳动密集、成本高昂,而且还存在因夜间的图像分布与白天不同而影响白天模型性能的风险。为了应对这些挑战,作者提出了一个名为Lighting Diffusion(LightDiff)的模型,这是一种新颖的方法,无需手动收集数据,同时保持白天模型性能。
LightDiff旨在增强低光照条件下的摄像头图像,提高感知模型的性能。利用动态的低光照退化过程,LightDiff从现有的白天数据生成合成日夜图像对进行训练。然后作者采用Stable Diffusion[44],因其能够产生高质量的视觉效果,有效地将夜间场景转换为白天场景。然而,在自动驾驶中保持语义一致性是至关重要的,原始的Stable Diffusion模型面临这一挑战。为了克服这一点,LightDiff结合了多种输入方式,如估计的深度图和摄像头图像标题,并通过多条件 Adapter 进行耦合。这个 Adapter 智能地确定每种输入方式的重要性,确保转换后图像的语义完整性,同时保持高视觉质量。为了引导扩散过程不仅对人类视觉来说更明亮,而且对感知模型也有利,作者进一步使用强化学习对LightDiff进行微调,并引入了感知定制领域知识(可靠的激光雷达和统计分布一致性)。作者在自动驾驶数据集nuScenes[7]上进行了大量实验,并证明作者的LightDiff可以显著提高两种最先进的模型BEVDepth[32]和BEVStereo[31]在夜间3D车辆检测的平均精度(AP),分别提高4.2%和4.6%。作者的贡献总结如下:
- 作者提出了Lighting Diffusion(LightDiff)模型,用于增强自动驾驶中的低光照摄像头图像,减少对夜间数据的大量收集需求,并保持白天性能。
- 作者整合了多种输入方式,包括深度图和图像标题,并提出了一个多条件 Adapter ,以确保图像转换过程中的语义完整性,同时保持高视觉质量。作者采用了一个实用的过程,从白天数据生成日夜图像对,以高效地训练模型。
- 作者为LightDiff提出了一种使用强化学习微调的机制,并引入了感知定制的领域知识(可靠的激光雷达和统计分布一致性),以确保扩散过程既符合人类视觉感知,也符合感知模型的需求。
- 通过对nuScenes数据集的广泛实验,作者证明LightDiff在夜间显著提高了3D车辆检测的性能,并在多个视觉指标上优于其他生成模型。
2 Related Work
暗图像增强。 暗图像增强旨在提高在暗环境下图像的视觉质量和可感知性。它包括使用成对数据集的监督方法[39, 43],以及在没有这种成对数据的情况下增强图像的非监督方法[16, 34, 35, 36]。一些增强方法[8, 20, 21, 22, 23]旨在克服在低光照条件下处理欠曝光和/或过曝光区域的局限性。有一些针对低光照图像增强的扩散模型[11, 17, 49, 53],它们明确整合了退化的先验知识和扩散生成能力,但它们在训练时需要成对数据。
视觉中的大型语言模型。 视觉与语言(VL)模型[1, 3, 10, 12, 29, 30, 40]在计算机视觉方面已经显示出明显的进步。CLIP[40]通过基于自然语言处理的监督获得了可转移的视觉概念,从大规模的图像-标题对数据集中学习知识。在语言模型的辅助下,文本/标题可以被用来促进各种计算机视觉任务,例如CyCLIP[12]和unCLIP[41]。由于VL模型包含了大量的视觉和语言理解,它们可以被用来评估图像质量[56]。这一洞见激发作者利用与VL模型相关的技术来增强低光照图像[12, 25, 41]。
基于扩散的生成模型。 基于扩散的模型[18]通过迭代去噪过程在图像合成方面取得了显著成功。为文本到图像生成任务开发了不同的基于扩散的方法[15, 45, 46, 55],在计算机视觉中表现出色。与依赖文本提示的某些扩散方法(如Dream-booth[45])不同,最近的ControlNet[55]将基于空间条件的控制信号融入到预训练的文本到图像扩散模型中。本文使用强大的Stable Diffusion[44]模型作为主干,在潜在特征空间中进行去噪过程,努力增强暗视条件,并解决夜间驾驶的安全性感知问题。
3 Methodology
作者旨在提出一个用于低光图像增强的通用框架,该框架能够促进自动驾驶中的感知能力。为了处理多样化的驾驶视角场景,作者利用在预训练的Stable Diffusion模型中固有的强大生成先验,该模型已经在各种文本到图像和图像到图像任务中显示出有希望的结果。为了训练模型,作者构建了一个多功能的夜间图像生成 Pipeline ,可以模拟真实的低光图像以生成训练数据对(详见第3.1节)。接着,在第3.2节中,作者介绍了作者提出的**(LightDiff)**模型,这是一种新颖的条件生成模型,能够自适应地利用各种条件的模态——低光图像、深度图和文本提示——来预测增强光照输出。
图2展示了作者提出的LightDiff架构的整个流程。为了提高作者模型的任务意识,作者引入了一种奖励策略,该策略考虑了可信激光雷达的指导以及统计分布的一致性,这将在第3.3节进一步描述。最后,作者提出了一种循环光照推理策略,在测试时进一步提升作者模型的成果,这将在第3.4节中解释。
Training Data Generation
在动态驾驶场景中收集昼夜配对的图像本质上具有挑战性。为了应对这一挑战并引入更多受控条件,作者构建了一个新颖的训练数据生成 Pipeline 。如图3所示,该 Pipeline 生成多模态配对数据,包括:
- 指令提示
- 由激光雷达生成的可信深度图
- 相应的退化暗光图像
以白天图像 作为作者目标的真实地面,作者将它输入到一个大型图像字幕模型[5]中提取文本提示。同时,作者使用一个预训练的深度估计网络[42]来获得相应的深度图。在常见的自动驾驶场景中,同时提供激光雷达和相机传感器,作者将激光雷达点云投影到相机坐标系作为稀疏点,然后用作训练深度估计网络的 GT 监督。预训练的深度估计网络被冻结,用于作者的光照扩散模型的训练和测试。与对光照条件敏感的相机不同,激光雷达在昼夜场景中保持信息的一致性。
受到[9]的启发,作者利用低光照退化转换 合成生动的暗光图像 ,如图3所示。具体来说,作者首先使用sRGB RAW过程[6]将白天图像 转换为RAW数据。随后,作者线性地衰减RAW图像,并引入在相机成像系统中常见的曝光和读出(S&R)噪声[6]。最后,作者应用图像信号处理(ISP) Pipeline 将低光照传感器测量值转换回sRGB。整个低光照退化转换 可以简化为:
这生成了与暗夜图像相似的退化图像 。作者设计了一个动态退化过程,采用在线方式,随机组合方程(1)的参数范围,以模拟更广泛的夜间驾驶场景。
Lighting Diffusion Model (LightDiff)
作者的目标是生成一个像素级增强图像,该图像细致地改进局部纹理,并准确重建光照细节的全局几何轮廓,条件是基于作者数据流程生成的三重多模态输入数据(第3.1节)。与之前的条件生成模型[44, 55]不同,后者仅基于单一模态(如深度图、Canny边缘等)进行条件设定,作者的方法识别并整合了每种输入模态对生成最终输出的独特贡献。
经过图像编码器的处理,退化的图像和深度图的潜在特征,分别表示为和,被送入作者提出的多条件 Adapter (第3.2.2节),该 Adapter 根据每种输入模态的全局贡献自适应地融合多个条件。作者采用ControlNet架构[55]来学习使用可训练的UNet编码器副本融合的额外条件,同时保持主干扩散模型冻结。
Preliminary: Stable Diffusion
作者采用稳定扩散(SD),这是一种大规模的文本到图像预训练潜在扩散模型,用以在动态驾驶场景中实现暗部增强。按照定义,扩散模型通过一系列去噪步骤来估计数据分布的得分,从而生成数据样本。为了提高效率和稳定训练,SD 预训练了一个变分自编码器(VAE)[26],该编码器将图像压缩成潜在表示,并使用编码器和解码器进行重构。
扩散和去噪过程都是在潜在空间中进行的。在扩散过程中,将方差为的高斯噪声在时间时添加到编码后的潜在表示,以产生噪声潜在表示:
其中,,。当足够大时,潜在表示近似于标准高斯分布。通过预测在随机选择的时间步下条件于(文本提示)的噪声,学习到一个网络。潜在扩散模型的优化目标定义为:
其中是均匀采样的,是从高斯分布中采样的。
Multi-Condition Adapter
为了辨别不同视觉条件的重要性,作者引入了一种新颖的多条件 Adapter ,该 Adapter 旨在根据输入数据动态地权衡条件。特别是,将暗光输入的潜在特征 与配对的深度图 连接为 并输入到一个卷积层中。然后将其 Reshape 为 ,记作 。将softmax层应用于 及其转置的矩阵乘法,得到多条件权重 :
其中 衡量了 对 的影响。转置的 乘以 ,然后 Reshape 为 。与 进行逐元素求和操作,得到输出 :
以同样的方式,作者可以得到 。最终输出表示了所有条件的加权组合,捕捉了多模态之间的语义依赖关系。多条件 Adapter 可以简洁地表示为:
Controlling the Stable Diffusion Model
受到[55]的启发,作者从头开始训练一个额外的条件网络来编码附加的条件信息。首先,作者使用Stable Diffusion预训练的VAE的编码器将和映射到潜在空间,得到条件潜在变量和。SD中的UNet去噪器执行潜在扩散,包括一个编码器、一个中间块和一个解码器。作者创建了一个额外的UNet编码器的副本(在图2(b)中用橙色表示),以注入额外的视觉条件。
经过多条件 Adapter 处理后,条件潜在变量和与随机采样的噪声一起作为可训练副本编码器的输入进行拼接。它们的输出被加回到原始的UNet解码器,在每个尺度的残差加法操作之前应用一个卷积层(在图2(b)中用一个橙色矩形表示)。在微调期间,这个额外的模块和这些卷积层同时被优化。整个网络通过最小化以下潜在扩散目标来学习预测噪声添加到噪声图像:
其中表示结合暗亮图像和深度图的条件的表示。
LiDAR and Distribution Reward Modeling
为了实现细粒度的面向任务的控制,作者引入了一种奖励策略,在训练作者的光照扩散模型时考虑了可信激光雷达的指导以及统计分布的一致性。作者创建了一个训练计划,仅在预测的干净潜在图像 在采样时间步 小于阈值 时应用奖励。作者利用一个冻结的深度估计网络,并应用一个分布感知的统计一致性模块来强制分布对齐。如图2所示, 被输入到图像解码器中,生成与原始真实日间图像相同形状的像素级图像特征 。深度估计网络预测深度图,其错位度量()是与可信激光雷达点云的 GT 深度图的均方误差。
为了解决增强光照图像与真实日间图像之间的分布差距,作者研究了统计差异与特征分布之间的关系。以前的研究[19]已经建立了统计差异与分布差异之间的正相关关系。因此,为了最小化 与 之间的特征分布差异,作者引入了分布感知的统计一致性模块,使用最大平均差异(MMD)[14]距离()作为一个度量。
具体来说,令 和 分别表示增强光照和真实日间特征的一组集合。奖励模型以预测的干净潜在图像 作为输入,输出两个标量奖励,即深度和分布分数。遵循强化学习(RL)训练策略[27, 38],由UNet去噪器 表示的智能体呈现一个预测的干净潜在图像 ,并期待基于 的响应。它接收 并产生由奖励模型确定的奖励,从而结束这一幕。作者在RL训练中最小化以下组合目标函数:
其中 是学习的策略。这种设计的奖励建模将通过利用可信激光雷达和统计分布一致性来指导作者的光照扩散模型的训练。
Recurrent Lighting Inference
与清晰的白天图像相比,真实的夜间图像常常受到低可视性和不均匀光照分布的影响。这些条件对预训练深度估计网络的深度生成以及图像字幕模型提出了重大挑战。为了解决这些问题,作者实施了一个迭代反馈过程,包括细化文本提示和调整生成的深度图,如图9所示。这个过程在与深度估计网络、图像字幕模型和光照扩散模型保持不变的情况下循环执行,旨在提高文本提示的准确性并为初始暗图像细化深度图,从而提升整体光照效果。
特别是,该过程从将真实夜间图像输入深度估计网络和图像字幕模型开始,以获得相应的文本提示和深度图的初始估计。这些输入随后被光照扩散模型用于生成增强的光照图像。然后,作者将这个初始增强图像输入以替换原始夜间图像,进而生成一个精炼的文本提示和深度图,这些将作为下一轮迭代的输入。这个过程一直循环,直到最终生成的图像相似度稳定下来。但在实践中,作者发现只需两次迭代就足以生成高质量的增强图像。
4 Experiments
Experimental Setup
数据集。 为了探索自动驾驶中视觉感知任务的低光增强,作者在nuScenes数据集[7]上进行了实验,这是最流行的用于多个视觉任务的自动驾驶数据集之一。它包括700个场景用于训练,150个场景用于验证,150个场景用于测试。对于每个场景,它提供了从6个周围摄像头(前、前左、前右、后、后左、后右)拍摄的分辨率的图像,以覆盖整个视角,以及一个360激光雷达点云。提供了包括内外参在内的摄像头矩阵,建立了每个3D点与2D图像平面的对应关系。作者选择了nuScenes训练集中所有的616个白天场景,包含总共24,745张摄像头前图像作为作者的训练集。在nuScenes验证集中的所有15个夜间场景,包含总共602张摄像头前图像作为作者的测试集。
评估指标。 在作者的实验中,评估了低光增强和3D检测任务。由于在真实的自动驾驶场景中缺乏日间-夜间配对数据,对于低光增强任务的定量评估,作者采用了九种无参考图像质量评估(IQA)指标,包括MUSIQ [24],NIQE [36],Hyper-IQA [47],LINIQE [54],MANIQA [52],NIMA [48]和TRES [13]。在3D感知任务中,作者将“汽车”类别作为主要目标,在实验中报告平均精度(AP),以及平均平移误差(ATE),平均尺度误差(ASE)和平均方向误差(AOE)。
训练。 作者在nuScenes日间训练集上部署了如第3.1节所述的训练数据生成方法,以获得三重模态配对数据:1)一个指令提示,2)一个带有激光雷达点云投影的可信深度图,和3)一个退化的暗图像。作者在单个NVIDIA RTX A6000 GPU上实施了作者的LightDiff,进行100个周期的训练,批处理大小为4。作者使用Adam作为优化器,学习率为。遵循[44, 55]的设置,作者将输入图像和条件图调整到,并采用版本为2.1的预训练SD模型[44]。为了在推理阶段获得准确的深度图,作者基于nuScenes训练数据集的日间和夜间图像以及相应的激光雷达点云投影,训练了一个预训练的深度估计网络[42]。
推理。 对于nuScenes验证集中的夜间图像,与训练阶段利用真实的激光雷达点云投影帮助构建估计的深度图不同,作者通过一个预训练的深度估计网络生成深度图。此外,作者应用作者提出的循环光照推理(ReLU)来优化相应的文本提示和深度图。
比较方法。 在作者的实验中,作者将提出的光照差异(LightDiff)与其他现有代表性的暗图像增强相关方法在生成质量和3D检测性能方面进行了比较。作者通过将作者的方法与包括有监督增强方法如Afifi等人[2],URetinex-Net [50],SNR-Aware-LOLv1 [51],无监督增强方法如EnlightenGAN [22],CLIP-LIT [33],Zero-DCE++ [28],以及基于扩散的方法如ShadowDiffusion [17],ExposureDiffusion [49]等突出方法进行比较来评估作者的方法。
一些方法在不同的数据集上发布了它们的预训练模型。为了公正地证实作者方法的卓越性能,作者与这些预训练模型进行了比较分析。此外,作者还提供了在和作者方法相同的训练集上重新训练的无监督方法的性能评估,从而为更全面的验证做出了贡献。
Comparison Results
视觉比较。在图5中,作者展示了nuScenes夜间验证集中部分样本的视觉比较。作者的方法一致地产生了视觉上令人愉悦的结果,改善了颜色并消除了噪声。此外,作者的方法在处理具有挑战性的暗区域方面表现出色,恢复了清晰的纹理细节和满意的亮度,同时没有引入任何噪声,而其他方法要么无法解决这类暗区域,要么在带有明显噪声的情况下产生不满意的结果。
特别是,作者可以看到,与RUAS-LOL [34]和SCI-difficult [35]相比,作者的方法产生了不过曝或欠曝的结果。作者的结果在全局区域展示了更好的颜色对比度和输入输出一致性。
定量比较。在真实的动态驾驶场景中收集夜间日间成对的图像目前是不可能的,因此作者依赖几种无参考图像质量评价(IQA)指标来评估定量结果。在表1中,作者呈现了在nuScenes夜间验证集上的定量比较。与其他方法相比,作者的方法在四个无参考IQA指标上取得了最佳性能,证明了作者结果的满意图像质量。
3D感知比较与可视化。对于3D感知任务,作者仅增强了nuScene夜间验证集的前置摄像头视角,而其他五个视角保持原始的黑暗状态。作者利用在nuScenes日间训练集上训练的两项3D感知前沿方法BEVDepth [32]和BEVStereo [31],它们在真实驾驶场景中更有效地收集和标注数据,以评估作者的生成效果对感知性能的影响。在表2中,作者展示了在nuScenes夜间验证集上3D感知性能的定量比较。与原始夜间图像上的结果相比,应用作者的增强图像后,BEVDepth和BEVStereo分别可以达到 AP和 AP,分别提高了 AP和 AP。
无需任何额外的训练要求,作者提出的方法可以直接应用生成的增强图像来提高当前模型的感知性能。但是,一些增强比较方法,如SCI [35]和Zero-DCE++ [28],显示出对3D感知性能的负面影响,导致性能下降。在图6中,作者可视化了一些在前置摄像头视角和鸟瞰图(BEV)上的3D检测结果。作者提出的LightDiff不仅帮助驾驶者在黑暗中看得更清楚,还帮助深度学习感知在具有挑战性的真实黑暗条件下更准确地检测。
Ablation Study
为了验证作者提出的各个组件的有效性,作者在表4中提供了在3D感知和暗部增强任务上的定量比较。
图7的视觉比较结果展示了在不同视觉条件下辨别重要性的有效性。图8的热力图说明了每个图像像素与两种不同模态输入之间的相关性。
表3明确地展示了作者LightDiff中每种模态输入的有益影响。作者在图9中展示了递归光照推理(ReLU)的有效性,它能有效地优化多模态生成的准确性。这表明作者的LightDiff可以通过作者的多条件 Adapter 产生更好的颜色对比度和更丰富的细节。
表4的结果清楚地证明了作者LightDiff提出的每个组件的积极效果。
参考
[1]. Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving.
点击上方卡片,关注 「AI视界引擎」 公众号