突破无配对难题,N2D3 助力夜间图像日间化 !

向量数据库大模型机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

夜间到日间翻译(Night2Day)旨在实现夜间场景的日间视觉。然而,在无配对条件下处理具有复杂降质的夜间图像仍然是一个重大的挑战。

之前的方法在同时恢复日间域信息并保留底层语义方面是不够的。在本文中,作者提出了一种 N2D3 ( 夜间到 D ay via D egradation D isentanglement)方法,用于识别夜间图像中的不同降质模式。具体来说,作者的方法包括一个降质分离模块和一个降质感知对比学习模块。

首先,作者从基于 Kubelka-Munk 理论的光度模型中提取物理先验。然后,在这些物理先验的指导下,作者设计了一个分离模块,用于区分不同的照明降质区域。最后,作者引入了降质感知的对比学习策略,以在不同的降质区域内保持语义一致性。

作者的方法在两个公共数据集上进行了评估,证明了在视觉质量上取得了显著的改进,并具有相当大的潜力来帮助下游任务。

1 Introduction

夜间图像通常会出现严重的信息损失,这对人类的视觉识别和计算机视觉任务(包括检测、分割等)造成了重要挑战。相比之下,白天图像具有丰富的内容和复杂的细节。在夜间感知中实现类似白天的夜间视觉仍然是一个主要目标,催生了许多 pioneering 的工作。[26] 夜间到日间的图像转换(Night2Day)提供了一个全面的解决方案,以实现夜间类似白天的视觉。主要目标是将图像从夜间转换为白天,同时保持其底层语义结构。然而,实现这一目标具有挑战性。由于白天图像的真实情况不存在,作者必须在复杂的、降质的夜间图像中捕获其底层语义结构,这与其他图像转换任务相比带来了额外的挑战。

夜2日AI研究早期主要聚焦于通过应用图像翻译技术如循环一致学习和域不变学习来解决这些挑战[1,29]。这些方法引入了先进的生成对抗模型,但忽视了表示底层语义结构的核心挑战,这导致了翻译过程中出现额外的伪影。AUGAN是首先认识到揭示底层结构重要性并引入不确定性以更好地保留原始结构的模型之一[16]。此外,一些方法利用白天具有附近GPS位置的图像来帮助粗粒度结构正则化[22]。尽管这些方法试图利用统计先验来揭示底层结构,但它们往往忽视了夜间发生的复杂衰减,并统一应用结构正则化,导致严重的伪影。更近期的方法采用辅助人工标注,如分割图和边界框,以保持语义一致性[15,19]。尽管这些方法具有潜力,但它们耗时且难以实现,尤其是对于超出人类认知的夜间场景。

以往的研究试图通过统计先验来捕捉潜在的语义结构。然而,这些方法往往产生次优结果,因为从这些先验中学习的域不变特征缺乏物理意义。这引发了一个问题:_能否用物理先验提供更有效的方式让Night2Day提取潜在的语义结构?_为了回答这个问题,作者首先从物理的角度定义夜间领域的域不变特征。具体来说,在等能量但分布不均匀的照明下,反射率对应着作者称为_亮度良好_的域不变区域。这些亮度良好的区域通常在夜间图像中表现出中等的照明强度,因为在正常条件下,它们不会产生强烈的反射。然而,一个关键的观察是,夜间图像中的颜色照明代表了一个域特定特征,但它与其他亮度良好的区域具有相似的强度 Level 。如果平等对待光和其他亮度良好的区域的影响,可能会对结果产生负面影响,如图1所示。

picture.image根据这些观察,作者提出N2D3(N 夜至D 日通过D 降相关性),它利用生成对抗网络(GANs)以降维的方式在降解 Aware 下弥合夜间和白天的域间,如图3所示。N2D3包含两个关键模块:物理感知的降维解缠和降维感知的对比学习,两者都保留了夜间图像的语义结构。在夜间降维解缠中,针对夜间场景定制的光度模型被用于提取物理先验。随后,作者提出了一种解缠策略,以分离夜间图像中观察到的独特模式。由于夜间最重要的标准是光照强度,作者首先将夜间图像分为三个不重叠的区域:高光、中等光照和黑暗。此外,为了从亮度区域中解离出光照效应,作者在理论和实证上都证明了颜色不变性属性可以有效地隔离亮度区域的光照效应。

picture.image基于此,降解感知的对比学习被设计用来约束源图像和生成图像在不同区域之间的相似性。它包括解耦引导的采样和重新加权策略。采样策略挖掘有价值的 Anchor 点和困难负样本,而重新加权过程分配它们的权重。通过使用适当注意力优先考虑有价值的块,作者的方法增强了普通的对比学习。最终,作者的方法产生了高度忠实的结果,这些结果在视觉上令人愉悦,并有利于下游视觉任务,包括关键点匹配和语义分割。

作者的贡献如下:

  1. 作者提出了基于照明降质解耦模块的N2D3翻译方法,该方法能够实现夜间图像的降质感知修复。
  2. 作者提出了一个新颖的衰减感知对比学习模块,用于保留生成结果的语义结构。该模块的核心设计采用了解耦指导采样和重权策略,极大地提升了基础对比学习的效果。
  3. 在两个公开数据集上的实验结果强调了在夜间场景中考虑不同退化类型的意义。作者的方法在视觉效果和下游任务上都实现了最先进的性能。

2 Related Work

无配对图像到图像翻译 无配对图像到图像翻译解决了缺乏配对数据的挑战,提供了一种有效的自监督学习策略。为了克服传统循环一致性学习的效率限制,Park等人首先将对比学习引入这个领域,实现了高效的单向学习[18]。在此工作之后,许多研究通过生成难以区分的负样本[20],重新加权正负样本对[27],以及选择关键样本[9]来改进对比学习。此外,其他约束,如密度[23]和路径长度[24],在无配对图像翻译中也被探索。然而,所有这些工作都忽视了夜间物理先验,导致Night2Day的结果不尽如人意。

夜间域翻译。针对不利的夜间条件,域翻译技术已经得到应用。Anoosheh等人较早地做出了贡献,证明了Night2Day[1]中循环一致学习的有效性。此后,许多工作将不同的模块集成到循环一致学习中,以增强结构建模能力。Zheng等人引入了一种分叉形编码器,以提高视觉感知质量[29]。AUGAN利用不确定性估计从夜间图像中挖掘有用的特征[16]。Fan等人探索了频域关系知识,以简化Night2Day过程[4]。Xia等人利用附近的GPS位置形成成对的夜间和白天图像,提供弱监督[22]。一些其他研究引入了人类标注以施加结构约束,但忽略了在夜间(存在多种退化)获取此类标注的实际困难[10, 15, 19]。为解决上述方法的问题,提出的N2D3探索了分块对比学习,并引入物理指导,以实现降维的Night2Day。N2D3无需人工标注,并提供了全面的结构建模,以提供忠实于原文的翻译结果。

3 Methods

给定夜间图像 和白天图像 , Night2Day 的目标是在保持内容语义一致性的前提下,将图像从夜间转换为白天。这涉及构建一个参数为 的映射函数 , 可以表示为 。作者的方法 N2D3 如图3 所示。为了训练一个生成器用于 Night2Day,作者采用 GAN 作为整体学习框架,以桥接夜间和白天的域间差异。作者的核心设计,包括退化解耦模块和退化感知对比学习模块,旨在保留源图像的结构,并抑制伪影。

在本节中,作者首先介绍了夜间环境中的物理先验,然后分别描述了降质解耦模块和降质感知对比学习模块。

Physical Priors for Nighttime Environment

夜间照明降质主要分为四种类型:黑暗、明亮的区域、高光区域和光效应。如图2所示,明亮的区域代表正常光下的扩散反射,而光效应则包括耀斑、发光和镜面反射等现象。从直观上讲,这些区域可以通过分析照明分布来区分。在这些降质类型中,黑暗和高光与照度直接相关,可以通过照度估计有效区分。

picture.image作为一种常见的做法,作者通过利用图像 的最大 RGB 通道来估计照度图 ,即 。然后,作者使用 K-means 聚类算法来获取三个代表黑暗、亮度适中和高亮度区域的聚类。这些聚类被聚合成 Mask 、 和 。然而,在仅使用照度图的情况下,由于光照效应主要与光照有关,光照效应区域在很大程度上与亮度适中区域交织在一起,因为它们通常具有相似的光照密度。为了将光照效应与亮度适中区域区分开来,作者需要引入额外的物理先验知识。

为了提取解耦光效应的物理先验信息,作者基于Kubelka-Munk理论开发了一种光度模型。该模型描述了从物体反射的光E的频谱如下:

这里, 代表分析的横向分量,而竖向分量的分析与横向分量相同。 对应光的波长。 表示光谱,表示照明密度和颜色。 表示 Fresnel 反射系数。

在正常条件下,作者假设材料在局部区域是均匀且同质的。具体来说,材料在较小区域内的光学性质由函数 描述,该函数表示材料的光学性质作为波长和位置的函数,与位置无关。在材料科学、光学和计算机视觉等领域,类似的假设也被使用。在这个假设下,作者可以简化局部区域的复反射率函数 为 ,其中 是描述材料类型的系数。为了模拟全球夜间条件,作者引入了材料空间分布函数 ,定义为:。通过 ,作者可以用具有不同材料类型的复杂夜间场景来模拟宏观尺度上的多样材料。

由于已经获得了光效应和明亮区域的混合,从明亮区域中分离光效应的核心在于分离光度 和反射率分量 。需要注意的是,在反射主导的明亮区域中,法雷尔反射系数 接近 0,而在光度主导的光效应区域中, 接近 1。根据公式(1),光效应和明亮区域的混合光度模型可以表示为:

picture.image

以下为翻译后的结果:

其中Ω表示反射主导的明亮区域。随后,作者观察到对颜色饱和度较高的区域具有以下颜色不变响应,这适用于提取光照,正如 Corollary 1 所述。

1. 推论1 (补充材料中的证明)。:在局部均匀性和同质性的假设下,颜色照明光谱的完整且不可约不变量集如下:

推论1表明,不变量仅捕获与照明相关的特征。因此,作者断言可以作为光效应检测器,因为光效应主要与照明有关。这使得作者可以基于这个物理先验设计照明解耦模块。

Degradation Disentanglement Module

在本小节中,作者将阐明如何将提取光效应的不变量纳入计算中的解耦。如通常做法,在实际计算最终不变量时,以下第二和第三阶分量,无论是水平还是垂直,都予以考虑:

picture.image

λx和λλx可以通过简化方程(4)中的E(λ,x)来计算。λy和λλy的计算方式相同。具体而言,

picture.image

其中E_{x}和E_{λ}分别表示x和λ的偏导数。为了计算不变量 中的每个分量,作者开发了一种计算方案,该方案从估计 及其实际导数 和 开始,利用高斯颜色模型:

然后,通过将 与高斯微分核 和标准差 卷积计算空间导数 和 :

picture.image

表示水平分量 的索引, 表示整数集合。通过将方程 (8) 应用于 和 ,可以得到 和 的空间导数。然后,根据方程 (6) 和方程 (5),可以得到不变量 。

为了提取光照效果,首先对输入图像应用ReLU和归一化函数以滤除轻微干扰。然后,通过使用明亮的 Mask 对不变的进行过滤,作者可以从明亮的区域中获取光照效果。上述操作可以表示为:

picture.image

当光线充足的 Mask 被优化时: .

在第3.1节中进行初步解缠后,作者得到了最终的解缠:,,和。所有 Mask 堆叠在一起以获得解缠图。通过使用上述技术和过程,作者成功实现了各种退化区域的分解,与 naive 聚类方法形成对比。作者的方法,基于物理先验,更贴近实际场景。可视化结果如图2所示。

Degradation-Aware Contrastive Learning

针对无配对的图像翻译,对比学习已经验证了其对于内容保存的有效性。其目标是最大化生成图像中相同空间位置的 Patch 与源图像之间的互信息,如下所示:

picture.image

表示来自生成图像的patch的 Anchor 点。正例 对应于与 Anchor 点 具有相同位置的源图像patch。负例 表示与 Anchor 点 的位置不同的patch。 表示负例的总数。在作者的工作中,降解感知对比学习的关键洞察是:如何采样 Anchor 点、正例和负例;如何管理对负例的关注。

衰减感知采样。在这篇论文中,N2D3在解缠结果的指导下选择 Anchor 点、正样本和负样本。首先,根据3.2节中获得的解缠 Mask ,作者计算不同退化类型的块数,用Ks表示,s∈[1,4]。然后,在每一退化区域内,从生成的白天图像I_N→I_D中的块中随机选择 Anchor 点v。正样本v+是从源夜间图像I_N中的 Anchor 点对应的位置中采样,负样本v-是从I_N的其余位置中随机选择。对于每个 Anchor 点,都有一个对应的正样本和Ks个负样本。然后,将具有相同退化类型的样本集分配权重,并依次计算对比损失。

降级感知的权重调整 。尽管对 Anchor 、正例和负例进行了仔细选择,但在同一降级下, Anchor -负对的重要性仍然有所不同。设计对比学习的已知原则之一是,具有高相似度的硬 Anchor -负对应分配更高的注意力。因此,加权对比学习可以表述为:

表示第 个 Anchor 负对的重量。

对称对比目标如图3中的_相似矩阵_所示。不同区域的块明显是易于理解的例子。作者将它们的权重设为0,将相似矩阵转换为具有的块对角矩阵。在每个降维矩阵中,实现了一种软权重策略。具体而言,对于每个 Anchor -负样本对,作者应用最优传输得到最优传输计划,作为与解耦结果相关联的重新加权矩阵。它可以自适应优化并避免手动设计。每个降维类型的重新加权矩阵可以表示为:

上述操作将对比度目标转换为图3所示的_Block Diagonal Similarity Matrix_。作为一种常见做法,作者的降维感知对比损失被应用于卷积神经网络特征提取器中的层,其公式如下:

picture.image

Other Regularizations

picture.image

4 Experiments

Experimental Settings

论文中进行了两项实验,分别针对两个公共数据集:BDD100K [25] 和 Alderley [17]。Alderley 数据集包含在同一路线上两次拍摄的照片:一次在晴天,另一次在暴风雨的夜晚。由于雨天条件,该数据集中的夜间照片通常模糊不清,这使得 Night2Day 任务更具挑战性。

BDD100K 数据集是一个大规模的高分辨率自动驾驶数据集。它包含 10 万个视频片段,在各种条件下拍摄。对于每个视频,都会选择一个关键帧,并仔细地对其进行详细标注。作者根据标注对数据集进行了重组,结果得到了 27,971 张夜间图像用于训练,以及 3,929 张夜间图像用于评估。

评估指标。遵循惯例,作者使用 Frechet Inception Distance (FID) 分数[7]来评估生成的图像是否与目标分布一致。这有助于确定模型是否有效地将图像从夜间域转换到日间域。此外,作者还试图了解生成的日间图像在保持与原始输入的结构性一致性方面达到何种程度。为此,作者使用 SIFT 分数,mIoU 分数和 LPIPS 距离[28]。

下游视觉任务。作者执行两个下游任务。在Alderley数据集中,GPS标注表明两张图像的地点,一张是夜间图像,另一张是白天图像,位置相同。作者计算生成的白天图像和相应白天图像之间的SIFT检测关键点数量,以衡量这两张图像是否代表相同的位置。BDD100K数据集包括329张夜间图像和语义标注。作者使用在Cityscapes数据集上预训练的Deeplabv3作为语义分割模型[2],然后在没有任何附加训练的情况下对生成的白天图像进行推理,并计算mIoU(平均交并比)。

Results on Alderley

作者首先在Alderley数据集[17]上应用了Night2Day,这是一个在雨夜拍摄的夜间图像的挑战性集合。在图5中,作者展示了结果的视觉比较。CycleGAN [30]和CUT [18]能够保留整个图像的一般结构信息,但通常会丢失许多细节。ToDayGAN [1],ForkGAN [29],Decent [23],Santa [24]在结果中往往会遗漏重要元素,如汽车。

picture.image在表1中,作者比较了翻译方法和增强方法,考虑了视觉效果和关键点匹配指标。作者的方法在FID得分上提高了10.3,在SIFT得分上提高了4.52,与之前的最新状态相比。这表明N2D3成功实现了逼真的白昼图像生成,强调了其在机器人定位应用中的潜力。定性比较结果可以在图5中找到。N2D3在生成逼真的白昼图像的同时,有效地保留了结构,即使在如Alderley的雨夜等具有挑战性的场景中也是如此。

picture.image### Results on BDD100K

作者在更大的数据集BDD100K上进行了实验,关注更一般的夜景。定性结果可以在图4中找到。CycleGAN、ToDayGAN和CUT在光照良好的区域成功保持了结构。ForkGAN、Santa和Decent在这样具有挑战性的场景中表现不佳。遗憾的是,它们在处理光效和保持全局结构方面表现较弱。通过专门针对光效进行定制设计,作者的方法成功地在所有区域保持了结构。

picture.image表格1中呈现了定量结果。随着数据集规模的增加,所有比较方法的表现都有所提升。值得注意的是,N2D3在FID得分上取得了显著的5.4分提升,表明其处理夜间场景的能力更广泛。

作者还研究了Night2Day在提高夜间环境下游视觉任务潜力的可能性,使用BDD100K数据集。定量结果汇总在表1中。增强方法在分割结果上略有改进,而一些图像到图像转换方法对性能产生了负面影响。N2D3在增强夜间语义分割方面表现出最佳性能,与直接在夜间图像上推理分割模型相比,mIoU提高了5.95。可视化结果如图6所示,突显了其对下游任务的优势和广泛应用的潜力。

picture.image### Ablation Study

作者对四个组件进行了额外的消融研究,详细内容见表2和表3。研究结果表明,虽然将分类进一步细分为四个簇可以略微提高性能,但基于作者物理模型的更精确的分割显著提高了性能并实现了最佳结果。挑战在于光效区域和明亮区域的强度相似,使用简单的k-Means难以区分。作者的物理先验,它提取的特性不仅包括强度,使得更好的细分,并为最终性能作出了显著贡献。

picture.image对降解感知对比学习的 Backbone 成分进行消融实验。降解感知对比学习模块的核心设计依赖于两个主要组件:(a)降解感知采样,以及(b)降解感知加权。如表2所示,当仅激活降解感知采样时,与 Baseline (未激活任何组件)相比,两个数据集上的FID均显著降低。值得注意的是,降解感知采样与降解感知加权相结合时,在BDD100K和Alderley上都实现了最低的FID,表明降解感知采样与降解感知加权相结合的有效性。

消融研究:不同不变量类型对去噪分离原型产生的影响 为了探索获取降噪分离原型的不同不变量,作者对不变量类型进行了消融研究。如表3所示,当 启用时,在 BDD100K 上,FID 从 55.5 降低到 49.1,在 Alderley 上从 64.7 降低到 62.9。这表明结合照明图有助于减小生成图像和源图像之间的感知差距。当 启用时,两个数据集上的 FID 都呈现出一致的改善,说明考虑物理先验不变量有助于更现实的图像生成。照明图和物理先验不变量的组合在两个数据集上实现了最低的 FID,展示了这些降噪类型在改进对比学习方面的互补性。

5 Conclusion

本文为Night2Day图像转换任务引入了一种新颖的解决方案,专注于将夜间图像转换为相应的日间图像,同时保持语义一致性。

为了实现这一目标,所提出的方法首先分离夜间图像中呈现的退化,这是作者方法的关键见解。为了做到这一点,作者贡献了一个退化分离模块和一个退化感知的对比学习模块。

作者的方法在性能上超越了现有的最先进技术,这展示了分离退化的见解的有效性和优越性。

参考文献

[0]. Night-to-Day Translation via Illumination Degradation Disentanglement.

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
关于作者
相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论