点击下方卡片,关注「集智书童」公众号
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
许多计算机视觉应用的基本任务之一是修复在恶劣天气条件下捕获的图像。然而,大多数现有的天气恢复方法只能处理特定类型的退化,这在实际场景中,如雨雪天气或雨雾天气中往往是不够的。
为了应对这些情况,作者提出了一种多天气 Transformer,或称为MWFormer,它是一种整体的视觉Transformer,旨在使用单个、统一的架构解决多种由天气引起的退化。MWFormer使用超网络和特征相关的线性调制块,使用相同的学习参数,通过各种天气类型的图像恢复。
作者首先使用对比学习训练一个辅助网络,该网络提取出内容独立的、畸变感知特征嵌入,有效地表示预测的天气类型,其中可能出现多个。
在这些天气信息的指导下,图像恢复Transformer适当地调制其参数,以进行局部和全局特征处理,以应对多种可能的天气。此外,MWFormer允许在应用期间以新颖的方式调整,例如,可以调整为单种天气恢复或混合天气恢复,而无需重新训练,从而提供比现有方法更大的可控性。
作者在多天气恢复基准测试上的实验结果表明,与现有最先进的方法相比,MWFormer实现了显著的性能改进,而无需付出太大的计算成本。
此外,作者证明了作者的超网络方法可以集成到各种网络架构中,以进一步提高它们的性能。
I Introduction
在现实世界中拍摄的图像通常由于不利的拍摄或环境条件而质量不佳。例如,移动设备中常见的基于CMOS的相机在低光环境下往往难以产生高质量的照片。在这种条件下产生的照片可能噪点、模糊且曝光不足。其他导致图像退化的常见原因可能是同时发生的可能多个天气条件,如雨、雾和雪,这些条件会影响人类对图像质量的感知。当这些图像输入到自动视觉系统时,这些失真可能会严重阻碍计算机视觉算法的性能,这些算法通常是在正常天气条件下拍摄的数据集上训练的。未能考虑并减轻这些以及其他自然现象的影响可能导致在依赖视觉的应用中出现灾难性后果,如自动驾驶、机器人技术、安全、监控等。
开发能够分析和随后恢复受天气影响的图片处理算法是一个活跃的研究主题[2, 3, 4]。近年来,基于深度学习的恢复方法被广泛应用于进行与天气相关的图像恢复任务,如去雨[3, 5],除雪和去雾[9, 10, 4]。尽管这些方法取得了有前景的结果,但它们各自设计用于处理单一类型的恶劣天气条件。然而,在许多实际场景中,恢复算法通常不知道天气条件。此外,经常存在多种混杂的条件,导致受多倍扭曲的图片,而上述方法无法充分改善。
最近,提出了几种用于修复受多种并发气象诱导退化的图像的统一解决方案。例如,的作者在组合数据集上训练单个网络,每个代表一种单一的气象条件,期望模型能够自适应地处理每种气象退化。然而,这些方法通常在处理不同气象类型时,表现出令人不满意和不平衡的泛化性能,并且无法处理同时发生的气象条件产生的伪影。造成这一现象的一个重要原因是多个相互作用的共同畸变,产生了新的高度多样化的畸变。
为了在这个重要问题上取得进一步的进展,作者提出了一种高效、自适应的 M ulti-W eather T ransF ormer ,作者称之为 MWFormer ,该模型使用图2所示的架构。MWFormer的设计旨在为图像恢复任务提供强大的恢复后端,这些任务在存在未知不利天气条件的情况下进行。MWFormer能够通过一个小型的辅助超网络,从输入图像中提取 degradation-informed 特征,来考虑由不同天气引起的不同降解类型。这些特征指导图像恢复后端的参数生成,使其能够根据预测的天气降解条件自适应地处理图像。
作者还展示了新的超网络基础的多天气特征提取器实现了一种新的测试时调优方式,可以处理固定天气条件下的计算较少,或者处理组合、混合天气诱导的降解,而无需重新训练。这比现有的多任务方法具有更大的灵活性和可控性。值得注意的是,所提出的模型是第一个能够处理训练过程中未见过的混合天气降解的模型。还开发了一些超网络的扩展应用,如识别恶劣天气类型,并指导预训练的特定天气图像恢复模型,这显示了其 versatility。在基准数据集上的实验结果显示,MWFormer能够在多天气恢复基准上显著超越先前的最先进(SOTA)模型,在数量上和质量上都优于它们。作者的方法还可以集成到各种其他网络架构中,以提高它们在多天气恢复方面的性能。总之,作者的贡献可以总结如下:
作者提出了一种基于Transformer的新颖架构MWFormer,用于多天气恢复,该架构可以使用单个、统一的模型来恢复受多种不良天气退化影响而扭曲的图片。
采用超网络结构,提取出与内容无关的天气感知特征,这些特征被用于动态调整恢复 Backbone 网络的参数,实现基于退化的恢复和其他相关应用。
利用超网络生成的特征向量,指导恢复网络在所有维度和尺度(即局部空间、全局空间和通道调制)上的行为。
为了降低计算成本,作者创建了MWFormer的两个变体。另一个变体用于解决在训练过程中未见到的混合不利天气降级问题。
综合实验和消融研究证明了所提出的模块的有效性以及MWFormer在视觉和定量指标方面的优越性。作者还开发并分析了多天气恢复模型,以应用于下游任务。
II Related Work
图像恢复是一个长期存在的计算机视觉问题,其目标是根据降质输入恢复高质量图像。近年来,利用大型神经网络进行端到端训练以解决各种任务(如去噪,去模糊,超分辨率,低光增强,去雾[9,10],脱雨[12,24],等)的趋势主要得益于新型网络架构的发展。例如,编码器-解码器架构已广泛应用于各种恢复任务,很大程度上是因为多尺度特征学习的有效性。同样,空间和通道自注意力机制也被用于学习空间聚焦和稀疏特征[25,3]。最近,多阶段渐进网络[26,27,28]已在去模糊和脱雨等更具挑战性的任务上部署,并实现了显著的性能。
雨滴对捕获的图像质量有显著影响。大量的研究工作旨在减轻雨对图像的负面影响。恢复“雨天”图像涉及两个子任务:消除雨条和去除雨滴。例如,李等人[5]利用了膨胀卷积神经网络和循环神经网络的组合,有效地消除了图片中的雨条。Yasarla等人[29]使用了一个基于高斯过程的半监督学习框架,在实际图像上展示了出色的泛化能力。巴等人[30]提出了一种新的去雨网络,该网络在实际雨天图像的新综合性数据集上进行训练。不仅解决了雨条问题,还越来越注重解决雨滴带来的挑战。钱等人[31]引入了一个专门捕捉雨滴相关艺术品的数据集。他们还训练了一个自关注的GAN,以有效地去除雨滴。全等人[32]开发了一种串行网络,可以同时去除雨滴和雨条。最近,肖等人[24]开发了一种Transformer架构,用于进行雨滴和雨条的联合去除,获得了令人鼓舞的视觉效果。
图像去雪处理。 雪是一种复杂的气象现象,它困扰着计算机视觉模型的性能,如自动驾驶车辆所使用的目标检测器。DesnowNet [33] 首次使用深度学习进行单张图像去雪处理,作者还构建了第一个“带雪图像”数据集,称为 Snow-100K。在这个基础上,Chen 等人 [34] 解决了“遮挡效果”这一现象,即雪花遮盖并减弱图像清晰度,他们提出了一个考虑大小和透明度的雪去除算法。最近,Lin 等人 [35] 设计了一个轻量级的 Laplace Mask Query Transformer 用于雪去除,实现了 SOTA 性能。
多天气修复。现实世界中多种不同天气类型的存在对单天气修复模型提出了严峻挑战,从而催生了开发能够在一个统一框架内有效修复受到各种复杂天气条件影响图像的图像修复模型的高涨兴趣。陈等人[36]利用两阶段知识学习机制处理三种不同类型的天气,采用一个统一的网络。李等人[12]设计了一个名为All-in-One的架构,配备了多个编码器来捕捉不同的退化,以及一个解码器。虽然这种方法具有前景,但其巨大的计算开销对于实际应用具有挑战性。Valanarasu等人[2]通过将内patch Transformer块(内-PT块)和可学习天气类型 Query 相结合,提出了一个更高效的基于Transformer的架构,名为TransWeather。内-PT块与普通的Transformer块具有相同的架构,但输入的patch嵌入较小,这些小子patch是由原始patch嵌入生成的超子patch。这些较小的子patch有助于网络提取更细微的细节,这对于减轻较小的退化是有利的。Ozdenizci等人[1]使用去噪扩散模型进行多天气图像修复,在该方面创造了新的性能基准。然而,这种方法在推理速度上非常缓慢,使其不适合实时部署。此外,该模型在设计上忽略了各种天气类型特性的特定处理。朱等人[37]提出了一种更易解释的方法来提取多天气修复所需的天气-通用和天气-相关特征。除了图像修复模型外,一些研究行人[38]还提出了能够处理不同真实天气类型的图像分割模型。
基于 Transformer 的图像恢复
在[39, 40]等基础工作的基础上, Transformer 架构在各种计算机视觉任务中变得越来越受欢迎,包括图像恢复,通常显著超过了基于CNN的解决方案。图像处理 Transformer (IPT)[41]是第一个采用纯 Transformer 架构进行图像处理任务的,它使用对比学习预训练了大量损坏的图像对。预训练的IPT在微调后可以有效地适应许多图像处理任务,超越了最先进的方法。基于Swin Transformer[40]的SwinIR[42]架构,通过利用局部注意力模型有效地处理了低级视觉任务。部署了一种新型的 Transformer 变体Restormer[43],能够捕捉到长程像素交互,同时仍然高效地使用Transposed注意力机制。此外,Uformer[44]提出了一个U形 Transformer 架构,具有局部增强的窗口,已在各种图像恢复任务上显示出惊人的效果。
III Proposed Method
在这里,作者解释了提出的MWFormer多天气恢复模型的技术细节。作者的主要目标是学习一个单一、统一的模型,能够使用同一组学习参数处理多种不同的天气退化。这类似于实际图像去噪的挑战,其中算法需要处理各种噪声来源、类型和 Level 。非盲式去噪通常优于盲式去噪,因为额外的噪声信息有助于去噪网络更好地学习适应其参数。因此,增加一个额外的噪声估计模块可以提高盲式去噪网络的性能并增加其灵活性。受到这一灵感的启发,作者将不同的天气类型视为类似于不同的噪声来源或类型。可以在事先提取出描述天气类型的特征,然后将其输入到主要的恢复网络,该网络根据输入的天气类型获得退化适应性。因此,作者提出的算法可以分为两个阶段:超网络提取天气特征,然后进行基于天气类型的图像恢复过程。
Overall Architecture
如图2所示,MWFormer的整体示意图展示了两个主要组件:
(i) 一个包含编码器和解码器模块的恢复 Backbone ,负责从降质输入中恢复高质量图像;
(ii) 一个产生天气感知特征向量的特征提取网络。作者采用Transformer为基础的架构作为恢复 Backbone 。除了常规的Transformer模块,作者的编码器网络包含在II节中引入的额外的内层PT模块。 Backbone 解码器的设计类似于[2]中的设计,包括可学习的天气类型 Query ,可以跨注意力到编码器的关 Key和Value 特征。
然而,这种架构在多天气设置下仍然无法学习解耦混合天气特征,即使它已经在多个天气数据集上进行训练。因此,作者设计了一系列改进措施,明确在多天气设置下提供网络灵活性。作者在以下各节中进一步解释这些创新设计。
Feature Extraction Network
天气变化可以被视为独特的图像“风格”,它们与图像内容固有地解耦。为了阐明这个观点,考虑两个相同场景的快照,每个快照在不同的天气条件下拍摄,并表现出不同的与天气相关的缺陷。每个受损(或“天气风格”)的图像都应该由恢复网络以不同的方式对待,但两个输出都应该忠实于恢复图像内容。另一方面,包含不同内容但遭受相同天气退化的图像应该导致网络产生可比较的响应。这类似于图像风格迁移,强调解耦图像风格和内容。特征图内的相关性通常用Gram矩阵[45]来定义图像风格。然而,Gram矩阵的原始形式在多天气恢复的背景下失败,因为它代表的是艺术风格而不是与天气相关的特征。为了应对这个问题,作者在普通的Gram矩阵上方附加了可训练的投影层——多层感知机(MLPs),以学习特定的“天气风格”。
作者的特征提取网络架构如图2(a)所示。作者利用Transformer编码器的前两个尺度,在每个尺度上计算Gram矩阵。由于Gram矩阵是对称的,只有两个矩阵的上三角部分被向量化以节省计算。这些向量进一步输入到两个投影层(MLPs),从而生成两个64维的嵌入。最后,这两个嵌入被拼接并投影到单个特征向量,该向量编码了输入图像中的天气退化信息。
特征提取网络旨在聚类受到相似气象退化的图像,因此作者使用对比学习[46]来训练它,其中损失公式为:
在论文中,作者定义了以下函数:
其中, 表示一批图像对, 表示余弦相似度, 是一个正的间隔, 是一个指示器,当两个图像 包含相同的天气缺陷时,其值为 1,否则为 0。 操作可以表示为:
在计算对比损失时,每个可能的图像对都从批次中随机采样。如果这两个图像属于两个不同的数据集,那么术语强制要求它们的特征向量彼此远离。如果这两个图像属于同一数据集,那么术语将它们的特征向量在嵌入空间中拉近。因此,学习到的特征提取网络能够将受到相同天气退化的图像聚类在一起。
Image Restoration Network
图像修复网络包含两组学习参数:固定参数,编码与所有任务相关的一般修复先验信息;以及由特征提取网络生成的适应不同天气类型的参数,如图2(b)所示。具体而言,输出图像的计算如下:
是辅助特征提取网络(第III-B节),参数为 , 是图像恢复backbone。在编码阶段,参数 和 分别表示天气无关和天气适应的权重。由于不同天气类型需要不同程度的处理 - 例如,去雨需要局部上下文,而除雪需要全局理解来区分雪花和雪堆,作者在多个 Pillar 中注入天气类型适应性:在空间上,既在参数空间中局部又全局,以及通道特征调节,以实现更好的特征学习。适应性应用于编码阶段的Transformer块和内层PT块。在Transformer解码块[2]中,可学习的天气类型 Query 关注输入特征,然后经过标准的MLP和深度卷积层,得到恢复后的输出图像。
空间局部适应性。由于普通的Transformer结构缺乏表达局部像素交互的归纳偏差,作者在Transformer块中的每个 FFN (FFN)之间添加了深度卷积层。然而,与先前的模型不同,作者利用超网络计算的预测天气类型特征来生成深度卷积层的参数,这样,受到不同天气类型影响的照片将使用不同的滤波器进行自适应处理。特征向量被输入到两个层投影MLP(命名为HyperMLP,如图2所示,因为它旨在生成其他模块的参数),然后形状调整为2D深度卷积核(忽略批量维度)用于卷积输入:
其中 表示通过 Reshape 向量的投影产生的深度卷积的权重, 表示空间局部操作(即深度卷积)的输入, 表示深度卷积, 表示非线性激活。
空间全局自适应性。与卷积神经网络(CNN)结构相比,Transformer在捕捉长程空间关系方面具有优势,这得益于使用自注意力层对所有 Token 进行扫描。为了模拟适应性全局交互,作者使用另一个超网络来计算在自注意力操作中使用的关键投影参数。
形式上,将空间全局操作(即自注意力块)的输入位置编码表示为 ,然后对 Query (Q)、键(K)和值(V)特征分别应用三个线性投影矩阵 , 和 ,得到 和 。接下来,计算 和 的矩阵乘积,得到全局注意力图 。在进行恢复时,可能需要不同的注意力图,因此作者再次使用天气类型特征 ,并采用类似于方程(5)中的投影方式,生成 , 和 。最后,将结果 Reshape 为与 相匹配的尺寸。从数学上讲,
分通道的特征调制。 除了在参数空间中的天气感知,作者还引入了一个中间特征空间的降级依赖维度。作者对学习到的中间表示应用一个简单的仿射变换,这在以前的工作[47, 48, 49]中已被证明是有效的。特征向量在为每个patch嵌入层生成权重和偏置之前输入到投影MLP中。对于每个通道,权重和偏置然后广播到对应特征图的所有像素上,从而在通道维度上调制输入特征:
这些调节块可以被视为一种基于天气的条件通道重要性调节的通道注意力机制。
Simplified Architecture for Fixed Weather Degradation
除了上述提到的MWFormer架构,作者还开发了一种轻量级的测试时变体,以降低计算成本。作者使用辅助超网络来学习特定天气类型的表示,并使用该辅助网络来指导恢复 Backbone 网络,从而实现了一种计算高效的推理方案,当已知天气类型时。假设给定天气类型的学习到的天气表示特征向量在嵌入空间中靠近彼此,那么作者可以用表示天气类型的固定特征向量来替代特征提取网络,这是全尺寸模型的近似。
更具体地说,作者在训练过程中预计算并存储了每个天气类型影响下的图像的平均特征向量,然后在测试时直接使用这些特征。这种简化的架构如图3(b)所示,并表述为:
在这段英文中, 表示特定的退化类型(例如,雨条纹,雨滴,雪),而 是在训练期间受第 种退化类型影响的图像的平均天气特征向量。
Multi-stage Architecture for Hybrid Weather Degradations
作者已经开发出另一个测试时的混合不良天气去除测试变体。由于当前缺乏混合天气数据集,以前训练过的恢复模型,无论是处理单一类型还是多种类型的天气,在捕捉同时出现多种恶劣天气条件(如雨+雪)的图片时,都无法成功恢复。然而,MWFormer可以轻松修改,无需重新训练,就能应对以前从未见过的多种天气退化的图片,因此它比先前的模型更具泛化性。
例如,考虑一种雨+雪的混合天气条件。如果一个模型仅在多个单一天气恢复数据集上进行训练,那么它可能能够恢复由任何天气因素(在这种情况下,雨或雪)导致的图像,但无法处理混合天气条件(在这种情况下,雨+雪)。因此,作者开发了一种两阶段网络架构,作为MWFormer的测试时变体,以处理这种混合天气条件。在推理的第一阶段,使用雨图像的平均特征向量作为图像恢复 Backbone 的指导,产生一个中间结果,该结果无雨但仍然包含雪花。
如果图像遭受更多种恶劣天气,则可能引发进一步的阶段,在这些阶段中,每个阶段都恢复特定类型的退化。请注意,不同阶段的网络共享相同的权重集,因此在不进行任何再训练的情况下,提供了灵活的测试时增强能力。
Extended Applications
作者的方法中创建天气信息特征向量的超网络是关键部分。除了生成参数和调制特征图外,这些向量由于超网络对天气特征的强大感知能力,具有多种应用。作者提出两个扩展应用来展示所提出的超网络的多样性。
Iii-F1 Weather-type identification
作者的超网络,通过对比学习策略在多天气恢复数据集上进行训练,其中包含了各种天气特征的丰富先验信息。利用这一点,作者开发了一种使用超网络进行天气类型识别的方法,无需重新训练。
作为专业的AI学术论文翻译助手,我的任务是将您提供的英文AI学术论文翻译成准确、流畅的简体中文。我将确保翻译后的内容忠实于原文,同时保持学术论文的专业性和格式。请不要输出原文内容,仅提供翻译后的结果。
具体的输入内容为:
以三种恶劣天气类型为例。令, 和 分别表示三种天气类型(雨滴、雨线和雪)的平均特征向量,这些向量在训练过程中计算得到。为了识别受未知恶劣天气影响的图像 的天气类型,首先使用特征提取超网络 计算图像 的特征向量 ,然后计算 与每个天气类型平均特征向量的余弦相似度:
最后,每种天气类型的得分是通过Softmax函数计算的:
天气得分大致上表示图像因恶劣天气类型而退化的概率。如果已知该图像仅受到给定恶劣天气类型中的一种影响,那么可以推理图像中最高得分的天气类型的存在:
Iii-F2 Guiding pre-trained weather-specific models
大多数现有的不利气象恢复模型针对特定气象类型进行训练,因此在已知条件下具有效果,但无法处理未知甚至混合气象场景。这限制了它们在实际应用中的适用性。为了充分利用这些针对特定气象类型的专家,作者开发了一种策略,利用提出的超网络来指导现有预训练的针对特定气象类型的模型,以恢复受未知气象条件影响的照片。
假设作者已经拥有了许多不同类型的天气专家模型。面对受到未知天气条件影响的图像,作者的目标是选择最合适的专家模型,以尽可能提高图像质量。在不损失一般性的情况下,假设作者有三种专家模型,分别用于雨滴去除、雨痕去除和除雪。首先,作者使用公式(15)~(17)计算三种天气类型的天气得分。然后,得分最高的天气类型被认为是这张图像中最具典型性和对图像质量影响最大的天气类型。因此,选择对应这种天气类型的专家模型来处理图像。
值得注意的是,对于受混合天气影响的图像,尽管退化可能不会完全消除,但作者的策略仅用一个预训练的特定天气模型就能尽可能地提高图像质量,而其他策略在相同或甚至更多的计算努力下无法实现更高的图像质量。
IV Experiments
在本节中,作者首先详细描述了实验设置。然后,作者在定性和定量上比较了MWFormer与现有SOTA模型的性能。
此外,作者还进行了全面的消融研究,以研究不同MWFormer模型设计的有效性。最后,作者在第V节中讨论了MWFormer中特征向量的有效性以及其泛化能力。
Training Details
为了进行公平的比较,作者首先遵循了[1, 2, 12]中的设置,在多天气恢复的标准化基准测试数据集上训练MWFormer。该数据集由三个数据集组成:RainDrop [31],Outdoor-Rain [50]和Snow100K [51]。同样,作者使用RainDrop测试数据集[31],Outdoor-Rain [50]的Test1数据集,以及Snow100K-L测试集[51]分别进行雨滴去除,去雾化和去雪化测试。
首先,作者在MWFormer上预训练特征提取网络10k迭代,使用公式(1)作为损失函数,批处理大小为8,学习率 [1]。然后,作者使用加权组合平滑L1损失和感知损失训练图像恢复网络200k迭代 [52]。在作者的实现中,预测图像和真实图像的特征图之间的差异被累加作为感知损失。总损失函数如下:
在本研究中,作者固定了参数λ为0.04。为了防止过拟合到特定的数据集,作者分别从每个数据集中采样了大约相同数量的训练样本。最后,特征提取网络和图像恢复网络联合进行了190k次迭代的精细调优,使用了一个降低的学习率。
作者实例化了三种版本的MWFormer(小型,中型,大型),分别称为MWFormer-S,-M和-L,通过改变基本通道的数量。在MWFormer-L中,每个编码器尺度的通道数量分别为64,128,320和512,而为了分别创建MWFormer-M和MWFormer-S,通道数量被降低到原来的0.75和0.5倍。
此外,值得注意的是,这个广泛使用的基准测试中的某些图像与实际场景中的分布不同,这可能会限制模型的实际性能。例如,这个数据集并未代表多天气恢复中的 Mask 效应[53]。为了进一步提高MWFormer在实际图像上的适用性,作者在一个更大的数据集上重新训练了MWFormer,该数据集被称为MWFormer-real。具体而言,除了之前的基准数据集,作者在训练集中还包含了另外两个数据集:包含雨雾退化的实际帧的WeatherStream训练集[54],以及包含雪花和 Mask 效应的CSD数据集[55]中的图像。同时,作者还在这个更大的数据集上重新训练了Transwather[2]以进行公平的比较。
Quantitative Comparisons
作者使用了五个最先进的多元天气修复模型作为比较:All-in-One [12],Chen等人[36],Transwather [2],WeatherDiffusion [1]和Zhu等人[37]。另一个名为AirNet的全一图像修复模型[13]也被重新训练在基准数据集上进行比较。表1报告了使用PSNR和SSIM [56]作为性能指标的各模型性能。每个模型的计算成本(通过乘加操作次数(MACs)评估)也列出了。从表中可以看出,MWFormer-real在所有比较方法中,在三个数据集上,以PSNR最佳,通常被认为是最可靠的保真度度量。MWFormer-L在平均PSNR方面也优于使用基准数据集训练的任何模型。尽管Chen等人[36]在雨滴测试集上取得了更好的结果,但他们的模型在其他两种天气条件下的表现不佳,且实际中的不平衡性能并不理想。在更注重感知导向的指标SSIM中,基于扩散的WeatherDiffusion模型平均取得了最佳分数,但MWFormer的性能相当,在 top3 之列。
尽管WeatherDiffusion [1]在某些数据集上的SSIM性能表现良好,但如果考虑迭代采样扩散过程,它所需的计算量将比作者最大的模型MWFormer-L高出2000倍,比作者最小的模型MWFormer-S高出5000倍。总体而言,作者的MWFormer在图像质量和计算成本之间取得了最佳平衡。
此外,尽管WeatherDiffusion在RainDrop和Outdoor-Rain数据集上取得了最佳的SSIM结果,但扩散模型偶尔会产生令人不安的伪影。图9的第三行展示了这种失败案例,其中显示出不可接受的伪影和严重改变图像内容污渍。由于这些修复模型通常被用作许多下游识别任务(如自动驾驶车辆的目标检测和语义分割)的前处理模块,基于扩散模型的图像内容产生的幻觉可能会在实际场景中导致危险后果。
此外,TransWeather-real与MWFormer-real的比较结果如图表2所示。这表明,如果它们都在更大的数据集上进行训练,那么MWFormer仍然可以超越现有的领先模型,如TransWeather。此外,通过包含更接近真实场景的图像,所有测试集上的数量指标都得到了提升。
Qualitative Comparisons
作者还获得了每个基准数据集上的视觉结果,如图4至图6所示。在RainDrop 测试数据集上,如图4所示,AirNet无法移除许多雨滴。TransWeather和WeatherDiffusion产生了诸如阴影和幻觉等艺术效果(见第一行和第二行)。然而,MWFormer在消除阴影或模糊的同时,呈现出了令人愉悦的视觉结果。在Test1 (雨+雾)数据集上,如图5所示,MWFormer能够准确恢复亮度和细节信息,而Chen等人以及TransWeather的结果在细节上存在损失(请注意最后两行的纹理),Zhu等人以及WeatherDiffusion的结果包括阴影(见第一行)。此外,WeatherDiffusion有时会导致颜色失真(见第二行)。在Snow100K-L 数据集上,如图6所示,MWFormer产生了更清晰的图像,而AirNet、Zhu等人以及WeatherDiffusion有时会将一些雪片误解为其他图像细节并错误地保留它们,从而降低了图像质量。
作者还将在两个更具现实感的测试集上比较MWFormer-real和TransWeather-real:WeatherStream [54]和CSD [55]测试集。视觉结果如图7所示。在WeatherStream数据集上,MWFormer-real比TransWeather-real更能彻底消除雨滴,导致更美观的结果。在CSD数据集上,TransWeather-real有时错误地保留了雪花,并且过度模糊了这些小但明亮的物体。
Performance on Hybrid Weather Degradations
更具挑战性但更常见的情景是混合天气条件。因此,作者也研究了比较模型在混合降级图像上的性能。使用[50]中的天气合成算法,作者使用Snow100K中的图像模拟了雨雪混合降级的图像。图8显示了这些降级图像的恢复结果。可以看到,先前的模型无法恢复这些图像,因为它们的输出中仍存在明显的雪花、雨滴或雾。这可能是因为混合降级图像并未包含在它们的训练数据中;仅针对单一天气类型的模型无法期望能泛化到恢复更复杂的天气降级。然而,MWFormer具有在测试时进行扩展的灵活性(图3),能够连续两阶段去除雨雪花,从而生成干净、无降级的新图像。作者还通过图8可视化了逐步降级去除过程的有效性。
为了研究作者提出的多阶段MWFormer架构在雨雪恢复问题中的替代方法,作者比较了四种不同的策略:首先,作者将最简单的单阶段架构应用于雨雪问题。其次,作者将单阶段模型连续应用于每张图像两次。第三,作者使用两阶段的MWFormer,先进行去雪处理,使用平均特征向量作为引导,然后进行脱雨处理。最后,作者通过先脱雨后去雪的顺序,如图3(c)所示。这些模型的性能在合成数据集上进行了测试,该数据集包括多种场景、不同雨量和雨滴轨迹的不同角度。表3中的定量比较表明,MWFormer在第一阶段脱雨时表现最佳,其次是第二阶段去雪。这可能是因为雪花的形成受到积雨的影响,因此雪退化图像的平均特征向量可能不能很好地匹配这些图像。去雨后的中间结果类似于训练集中雪退化的图像,这对网络处理起来更容易。这些结果有力地证明了MWFormer模型在处理多天气场景中的有效性。
Generalization to Real Weather Degradations
此外,作者还将在真实的雪景条件下的Snow100K-realset[33]数据集[33]和包含雨滴和雨痕的实际世界图像的RainDS-real数据集[57]上,将MWFormer与其他模型进行比较。作者使用MWFormer-L处理Snow100K-real数据集中的图像,并使用III-E节中讨论的变体在RainDS-real数据集上恢复混合天气降质图像。请注意,这些图像没有 GT 值,因此作者必须依靠视觉比较。如图9所示,MWFormer能够移除大部分雪花,与其他方法相比呈现出视觉上干净的重建结果。对于同时受到雨滴和雨痕影响的图像,MWFormer也表现最好,因为它在混合天气降质去除方面具有灵活性。此外,还应观察到WeatherDiffusion对域转移非常敏感——其性能在不同图像上变化显著,并随机生成无法接受的伪迹(图9的第三行)。相反,MWFormer在真实天气泛化方面产生了更视觉上一致的结果,这可能归因于可学习参数的数量较少以及天气类型特征学习的设计。使用NIQE[58]进行的定量比较见表4,表明MWFormer在广泛使用的无参考指标上超过了以前的最先进模型。
Task-Driven Comparisons
图像修复结果可能被人类或机器消费。在机器视觉系统中,天气降质去除可能更为常见,例如,在自动驾驶的目标检测之前用作预处理。作者通过在目标检测的背景下进行任务驱动的图像修复性能研究来研究这一方面。具体而言,作者在比较模型的图像修复结果上评估了预训练的YOLO-V5目标检测器的检测性能。如图10所示,在包含雪花真实图像中,MWFormer处理后的图像相较于将目标检测器应用到原始降雪图像上,能够更好地提升YOLO-V5的检测性能。这表明MWFormer作为应用目标检测器之前的前处理组件的潜力。然而,其他图像修复方法导致了更少的检测物体,甚至错误分类了一些物体。值得注意的是,在雨滴影响的图像上,MWFormer的检测性能仅略优于原始图像,而其他方法几乎没有影响,甚至降低了检测性能。这一观察与[3]中的实证结果一致。最后,作者观察到AirNet和WeatherDiffusion在某些图像上导致了假阳性案例(第二行中的“滑板”和底部一行中的“鸟”),这可能导致在实际应用中出现意外且不希望的结果。
识别感知训练。 作者还研究了如何证明MWFormer可以专门针对下游检测模型进行训练。为此,作者通过微调MWFormer的基模型进行几步的调整,用识别损失(包括分类损失和回归损失)代替感知损失,该损失使用一个 MobileNetV3-SSDLite 目标检测网络 (权重已冻结)计算。计算识别损失的方法是,将干净图像 的检测结果视为真实值,并计算其与每个修复图像 的检测结果之间的距离。总损失为:
其中,是识别损失,包括两个部分:是分类损失,通过预测对数概率和真实标签之间的交叉熵实现;是回归损失,通过预测边界框和真实边界框之间的平滑L1损失实现。
恢复后的图像及其检测结果的叠加视觉化显示如图11所示。检测到的物体边界框及其相关检测置信度分数被叠加。从这个实验中可以得出一些有趣的观察结果。首先,包括任务导向的训练目标提高了下游检测任务的表现,这与[61]中的发现一致。其次,优化用于人眼质量感知和机器任务的图像,导致输出图像呈现出不同的视觉效果,表明基于深度神经网络的检测器学习到的人眼视觉系统不同的表示。探索更多的任务导向图像恢复技术超出了本文的范围,因此,作者将它留待未来的工作。
Ablation Studies
为了更深入地理解和验证MWFormer的有效性,作者进行了几个全面的研究。作者将MWFormer-L作为基础模型,并使用相同的一组超参数,针对不同的组件进行了训练。作者首先训练了一个基础MWFormer-L模型(没有特征学习网络),然后逐步添加了以下组件:1)空间局部自适应性,2)空间全局自适应性,3)通道特征调制,以及4)联合微调,这些内容已在第III-C节中详细说明。如表5所示,每个轴的重量自适应性在所有数据集上都带来了显著的性能提升,其中局部自适应性在Raindrop和Outdoor-Rain数据集上带来了最大的提升,而通道自适应性在Snow100K数据集上提供了最大的收益。最后的联合微调阶段可以通过将分别训练的特征提取网络与图像恢复 Backbone 网络对齐,进一步 boost 整体性能。
同时作者在图13中可视化了 ablation 研究的成果。 Baseline 模型(不含所提出的三个模块)无法彻底消除伪影,这一点由第一行上的箭头所指明。第二行上的箭头表示,某些图像细节也被视为伪影而进行了模糊处理。在模型中添加局部适应性模块后,由于自适应局部操作,图像质量可以显著提高。接着,通过添加全局适应性模块,模型获得了一个更好的全局理解,知道如何区分雪花的形状和雨滴的形状及其背景。在第一行,模型将指向右箭头的图像内容视为灯泡而不是雪花的形状。在第二行,与草地颜色相同的伪影得到了抑制。最后,通过添加通道调制模块,图像细节得到了进一步的增强,这一点由第一行中指向右箭头的箭头所指明。
Results of Extended Applications
计算天气分数的策略已在RainDrop测试集[31]、Test1数据集[50](雨+雾)和Snow100K-L测试集[51]上进行测试。图12中的箱线图展示了每个数据集的天气分数分布,表明每个数据集对其对应的天气类型的评分显著高于其他天气类型。在所有17,069张测试图像中,只有2张被错误分类。总体而言,作者提出的天气分数与图片中的天气类型相符。
作者还测试了在实际图像上指导预训练专家模型的策略,这些专家模型经过了混合退化 [57]。作者选择了三个最先进的预训练模型作为特定天气的专家:AST [62]用于雨滴去除,ConvIR-Rain [63]用于去雨,ConvIR-Snow [63]用于去雪。由于缺乏高质量的GT,作者在图14中展示了视觉结果。为了模拟实际使用中的可能场景,作者还实现了一种比较策略:分别处理输入图像与每个专家模型,然后将输出结果平均。这种方法反映了没有作者超网络的系统无法确定输入天气特征,也无法选择合适的专家,导致结果的简单融合。如图14所示,虽然简单平均策略需要更多计算,但结果远不满意。相反,使用作者提出的特征提取超网络,作者可以计算输入图像的天气分数,并相应选择最合适的专家模型以消除图像中最视觉上令人分心的退化。
V Discussions
Detailed Comparisons with Our Baseline
不同的架构:图15比较了MWFormer和作者的基准模型TransWeather[2]的架构。
关于总体框架,TransWeather只包含一个图像恢复backbone,而MWFormer还额外使用一个特征提取网络来指导图像恢复backbone的适应性操作。通过精心设计的结构和训练策略,特征提取网络从Gram矩阵中提取与天气特征相关的信息。
关于图像修复 Backbone 网络结构,TransWeather采用了一个通用的图像修复网络架构,其中所有参数都固定,这缺乏针对多天气修复任务的特殊设计。相反,作者的模型专门针对多天气修复任务设计,通过将参数分为两组,即固定参数编码一般修复知识,而天气适应参数则通过使用特征向量动态生成。除了参数空间的操作外,特征向量还调节特征空间的图像修复网络。
此外,两种测试时的变体已开发完成:一种是降低计算成本的变体,另一种是处理在训练过程中未见过的混合恶劣天气类型的变体。提出的MWFormer是第一种能够恢复由未见过的混合恶劣天气降级图像的模型。
不同的应用场景:TransWeather的应用场景相对有限,因为它只能处理在训练阶段已经见过的几种固定天气类型。作者的提出的MWFormer具有灵活性,可以修复受到在训练过程中未见过的混合天气影响的图像。这比TransWeather的优势表明MWFormer更适用于现实世界场景,其中不同类型的天气可能会混杂在一起。此外,提出的特征提取超网络不仅可以与MWFormer的图像修复 Backbone 相结合,还可以应用于更广泛的场景,如识别天气类型,以及引导预训练的特定于天气的专家模型(如在III-F节中介绍的那样)。此外,作者还探索了训练图像修复模型以造福下游检测任务的方法(如在Sec. IV-F中介绍的那样),这在TransWeather[2]中并未涉及。
Generalization Ability
为了证明作者方法的一般化能力,作者将作者的方法集成到三种不同的网络架构中,并对结果进行了评估:两种基于Transformer的架构(Restormer [43]和Uformer [44])以及一种基于CNN的架构(UNet [64])。
对于上述架构,作者分别训练了两个版本的模型:一个使用原始网络结构,另一个结合作者提出的自适应方法(称为"Ada-xxx"),这两个模型具有相同的超参数和通道数。对于Ada-Restormer和Ada-Uformer,作者使用超网络生成的特征向量在三个维度和尺度上指导恢复 Backbone :局部空间,全局空间和通道。这使得恢复 Backbone 的一部分参数可以自适应生成,其中间特征图可以根据特征向量进行调制。由于GPU内存有限,作者将Ada-Restormer和Ada-Uformer的第一个尺度的编码器通道分别减少到16和8,批量大小为16,对于Ada-UNet架构,由于CNN无法捕捉长程依赖关系,作者仅在局部空间和通道上应用自适应性。此外,作者在Ada-UNet和原始UNet架构中删除了批量归一化层,因为它们通常被认为不适合图像恢复任务。其余设置与IV-A部分报告的相同。
表格VI报告了定量结果,表明作者的方法可以显著提高多种网络架构在多个数据集上的性能。这些有前途的结果表明,作者提出的方法可以作为
通用方法 ,以提高不同网络架构在多天气恢复任务上的性能。
Analysis of the Learned Weather Representation
为了更好地说明如何利用学习到的特征向量提高图像修复网络的性能,作者利用t-SNE [65]来可视化特征提取网络 学习到的天气类型特征的分布。如图16所示,计算得到的特征向量非常有效地将不同内容的天气退化分开,由于相同天气类型导致的图像退化变得紧密聚类且重叠较小。这表明特征提取网络能够利用对比损失学习将内容和退化表示分开。
作者还研究了特征向量对图像修复的影响,使用了MWFormer的简单版本(图3(b))。以雨滴去除为例,作者首先使用固定天气退化设置的默认雨滴测试集测试模型。这意味着特征向量是雨滴训练集中所有雨滴图像的特征向量的平均值。然后,作者将默认特征向量替换为分别来自雨滴测试集和Snow100K测试集中的任意图像计算的特征向量。表7中的数值结果表明,当使用正确的天气类型嵌入时,MWFormer的表现最好,表明平均特征向量有效地代表了相应的天气类型。当使用受相同天气类型影响的图像的任意特征向量时,性能略有下降,而使用不同天气类型的特征向量时,性能显著下降。总的来说,这些结果表明,作者的特征提取网络生成的向量有效地编码了与天气相关的信息,以指导天气修复任务。最后,由于作者MWFormer的特征指导设计,用户可以通过提供他们先验知识中的特征向量来任意控制图像修复网络的行动。这种在推理时间中的灵活性是先前的作品中不可获得的。
VI Concluding Remarks
作者引入了一种高效的一体化天气感知Transformer,名为MWFormer,用于恢复受多种不利天气条件影响的图像。MWFormer由一个基于编码器-解码器的恢复骨干网络组成,并辅以一个辅助特征提取超网络,该超网络学习天气类型表征。
提取的特征向量可以用于通过局部、全局和通道轴的权重适应性,自适应地引导主要图像恢复骨干网络。它们还可以用于天气类型识别或指导预训练的专家模型。由于辅助网络的存在,MWFormer可以扩展以处理计算量较少的固定单一天气情况,或者训练期间未见过的混合天气情况。
作者在多天气恢复基准数据集以及真实世界数据集上进行了广泛的定量和定性研究,结果表明MWFormer在不需大量计算努力的情况下,性能优于先前的多天气恢复模型。作者的方法还可以集成到各种网络架构中,以提升它们的性能。
[0]. MWFormer: Multi-Weather Image Restoration Using Degradation-Aware Transformers.
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」