Retinex-RAWMamba 桥接去镶嵌和去噪,用于低光照RAW图像增强 !

图像处理算法数据库

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

降低光照图像增强,特别是在跨领域任务(如从原始域转换到sRGB域)中,仍然是一个重大的挑战。近年来,为了解决这个问题,已经开发出许多基于深度学习的算法并取得了令人鼓舞的结果。

然而,单阶段方法试图同时统一两域的复杂映射,从而导致降噪性能有限。

相比之下,两阶段方法通常将原始图像(通过色彩滤波器阵列(CFA))分解为四通道RGGB格式,然后再将其输入到神经网络中进行处理。

然而,这种策略忽视了图像信号处理(ISP) Pipeline 中解摩斯转换(Demosaicing)的关键作用,导致在不同光线条件下出现颜色失真,特别是在低光场景中。

为了解决这些问题,作者设计了一种名为RAWamba的新型扫描机制,它可以有效地处理具有不同CFA的原始图像。

此外,作者还提出了一种基于Retinex先验的Retinex分解模块(RDM),该模块将照明与反射解耦,以促进更有效的降噪和自动非线性曝光校正。

通过连接解摩斯转换和降噪,可以实现更好的原始图像增强。

在SID和MCR两个公共数据集上进行的实验评估表明,作者提出的RAWamba在跨域映射上达到了最先进的效果。

代码 https://github.com/Cynicarlos/RetinexRawMamba

Introduction

现有深度学习方法,尤其是那些专注于低光增强任务的方法,主要在sRGB域中运行。然而,RAW图像通常比其RGB对应物具有更高的比特深度,这意味着它们保留了更多的原始细节。因此,从RAW到RGB的处理通常更有效。然而,RAW和RGB是独立的域,具有针对其特定特性的图像处理算法。例如,在RAW域中,算法优先考虑去噪,而在RGB域中,它们专注于颜色校正。这种差异往往使单阶段端到端方法无效。

demosaicing算法在将RAW图转换为sRGB方面起着关键作用,大多数传统方法依赖于邻域插值。尽管一些研究行人探索了基于CNN的方法[13, 14]来将噪声RAW图像映射为干净的sRGB输出,但卷积网络固有的有限感受野往往限制了其在去噪任务中的有效性。为了应对这一问题,作者采用了感知 Transformer (ViTs)以扩大感受野,但ViTs中的注意力机制在计算上具有局限性。Mamba的引入提供了一种更有效的权衡。然而,现有Mamba扫描机制并没有充分考虑RAW图像与不同的 Color Filter Arrays(CFA)的多样性特征,突显了需要针对不同CFA设计Mamba扫描方法的必要性。

因此,作者设计了一种名为RAWamba的新型Mamba扫描机制,它具有全局感受野和线性复杂度的注意力机制,可以更好地适应这项任务的数据。更重要的是,如图1(b)所示,naive Mamba扫描机制并未考虑成像属性,导致在CFA下的特征提取受限。相比之下,作者引入的RAWMamba采用了八个独特的扫描方向,充分考虑了给定像素的邻域内所有像素,同时保留了图像的空间连续性。这些四个主要方向分别镜像产生了额外的四个方向,总共产生了八个扫描方向。

picture.image

此外,以前的方法 [1, 2]在处理短曝光RAW图像时,通常依赖于对曝光校正的先验简单的线性乘积。具体来说,短曝光RAW图像含有大量噪声,它们被对应的长曝光图像的曝光时间比率所乘。这种方法假定图像的曝光均匀,这通常是不现实的,可能导致欠佳的降噪和不准确的亮度。通过利用Retinex理论在低光增强任务(如RGB图像[1, 2, 3])的成功经验,作者提出了一种基于Retinex的双域辅助曝光校正方法,称为Retinex分解模块(RDM),该模块解耦了照明和反射,实现了自动非线性曝光校正,从而实现了更高效的降噪效果和更精确的亮度校正。

此外,鉴于RAW域和sRGB域之间噪音分布的巨大差异,作者基于将任务分解为两个子任务:RAW域上的去噪[2, 2, 3, 4]和跨域映射。

总体而言,作者提出了一种基于Retinex的解耦网络(Retinex-RAWMamba),用于RAW域去噪和低光增强。如图2所示。RAWMamba将去噪和色校正任务分解为两个明显的子任务,有效地将带有噪声的RAW图像映射到干净的sRGB图像。具体来说,对于色校正子任务,作者引入RAWMamba,通过利用八个方向机制,全面考虑特定像素的直方图邻域。对于去噪子任务,作者提出了Retinex分解模块,该模块增强了去噪性能和亮度校正。

picture.image

作者的主要贡献如下:

作者提出了一个基于Retinex的解耦Mamba网络,用于Raw域降噪和低光增强(Retinex-RAWMamba)。据作者所知,这是首次尝试将Mamba机制引入到低光Raw图像任务。

作者设计了一种新颖的八方向Mamba扫描机制,全面考虑了Raw图像的固有属性,并开发了一个Retinex分解模块,以桥接降噪能力和曝光校正。

作者在两个基准数据集上对所提出的方法进行定量和定性评估。全面实验表明,与具有可比参数的现有最先进方法相比,所提出的 methods 在 PSNR、SSIM 和 LPIPS 上的性能更为出色。

Related Work

Low Light Enhancement on Raw Domain

在Raw域低光增强任务中,研究行人提出了一些创新方法。由于这个任务可以分为两个子任务:Raw域去噪和颜色校正,一些工作只专注于其中一个子任务。例如,在Raw域去噪任务上,有使用深度学习方法的噪音建模,最终在Raw域上计算评价指标。在Chen等人发布SID公共数据集之后[chen2018deep2018],有大量的工作同时解决了这两个子任务。

这些工作可以进一步分为一站式方法和分阶段方法。一站式方法 [1, 3] 旨在通过训练一个单模型将噪声Raw映射到干净的sRGB。例如,SID [1]只使用了简单的UNet来完成这个任务。DID [1]提出了一种基于 Residual Learning 的深度神经网络,用于端到端极端低光图像去噪。SGN [3]引入了一种自引导网络,它采用了一种从上到下自引导架构,以更好地利用图像的多尺度信息。

由于ISP经历了许多非线性变换,因此很难用单神经网络学习,只能通过堆叠大量参数来实现,这导致了效率低下,因此分阶段方法出现了。分阶段方法通过解耦任务,有效地减少了不同域之间的歧义。例如,黄等人提出了在Raw域上的中间监督,而 Dong 等人则在单色域上进行此操作。DNF [2]引入了一个解耦的二维阶段网络,它采用了权重共享的编码器来减少参数数量,同时实现良好效果。

Mamba in Vision Task

状态空间模型(SSM)最近在深度学习中引入,因为它们能够有效地建模长程依赖性。例如,[3]提出的结构化状态-空间序列(S4)模型和最近[3]提出的Mamba,它在大规模实际数据上的性能超过Transformer,且在序列长度上享受线性缩放。

除了Mamba在自然语言处理任务上的杰出工作外,研究行人还在视觉任务上进行了许多尝试,取得了良好的成果,如分类[1, 2, 3, 4],分割[1, 2, 3, 4],生成[3, 4],以及图像修复[3, 4, 5]的目标是通过训练一个单一模型将噪声原始图像映射到干净的sRGB。例如,SID[1]仅使用了简单的UNet来完成此任务。DID[1]提出了一种基于残差学习的深度神经网络,用于端到端的极端低光图像去噪。SGN[3]引入了一种自引导网络,它采用了一种自上而下的自指导架构,更好地利用图像多尺度信息。

由于ISP经历了许多非线性变换,因此对于单一神经网络来说,其学习仍然具有挑战性,只能通过堆叠大量参数来实现,这导致了效率低下,因此多阶段方法应运而生。多阶段方法[1]引入了一种自引导网络,它采用了一种逐步求解损失函数的策略。

Mamba in Vision Task

状态空间模型(SSM)自深度学习产生以来,因其能有效地模拟长程依赖性而被引入。例如,文献[3]提出了一个结构化的状态空间序列(S4)模型,而最近,文献[3]提出了一种名为Mamba的方法,它在各种大小的大型数据集上都优于Transformer,并在序列长度上具有线性缩放。

Method

Preliminaries

State Space Model (SSM)

SSM 是一种线性时不变系统,它将输入 映射为输出 。SSM 可以用线性常微分方程(ODE)正式表示,

SSM 是一个连续时间的模型,将其集成到深度学习算法中时面临着巨大的挑战。为了解决这个问题,离散化成为关键的一步。用 表示时标参数。通常使用零阶保持(ZOH)规则进行离散化,将方程(1)中的连续参数 和 转换为离散参数 和 。其定义如下:

在 A, B 离散化后,使用步长 对方程 1 进行离散化,可以得到:

最后,模型通过全局卷积得到输出,如下所示:

其中 L 是输入序列 的长度, 是一个结构化的卷积核。

Overall Pipeline

图2:作者提出的Retinex-RAWMamba的整体架构以及(a)Retinex分解模块,(b)域自适应融合和(c)简单去噪模块

的整体流程如图2所示。首先,作者将低照度噪声单通道原始图像乘以长曝光真实值(GT)的曝光时间比例进行预处理。然后,根据颜色滤波器阵列(CFA)模式,将其打包成多通道输入。具体来说,对于Bayer格式,作者将输入打包成四个通道输入;对于XTrans格式,作者将输入打包成九个通道输入。Retinex-RAWMamba的第一个阶段是基于UNet的编码器-解码器架构。整体框架的第一个阶段专门用于原始域还原。首先,Retinex分解模块(RDM)处理输入,生成主输入和辅助照度特征图,表示为。接下来,主输入在每个编码层与融合,并根据简单的去噪模块(SDB)进行去噪,该模块由连续的卷积和残差连接组成。在每个解码层,临时特征图会被生成,最终生成去噪原始图像。第一阶段将根据原始真实值和RAW图像计算损失函数,这也为该阶段提供了监督信号。在第二个阶段,重点转向去色和色校正。在这一过程中,输入与和融合,并在每一层由RAWLambda进行处理。解码后,最终RGB图像被生成。然后,根据原始真实值和RGB图像计算损失函数,为该阶段提供监督信号,并指导整个模型的优化。

RAWLambda

3 (c):具体而言,对于特征图,作者首先翻转其偶数行(fer)和列(fec),得到和。然后作者对和进行 flatten,得到前两个方向的扫描和。然后作者可以得到斜向扫描的特征如下所示:

由于该问题涉及到的具体细节较多,涉及到矩阵操作和公式推导,因此在此无法详细展开,具体内容需参考原文及后续的代码实现。

段落1:

其中, 是一个将 填充到新形状的功能, 和 具有相同的形状, 中的前 个元素为真,其余为假, 是一个将 转换为 的函数, 是一个根据 为真时的位置选择 中元素的功能。其它的斜向扫描特征 可以通过类似的方法获取,然后作者可以将这些四个特征颠倒,得到另外四个方向特征,共计八个,即 。在这个过程中,八方向的扫描完成。在 SSM 之后,作者得到 ,然后作者将它们通过求和并 Reshape 得到一个单独的特征,即

对于所提出的 Residual RAWMamba,可以简单地表示为:

其中,LN是层规范化,和是可学习的参数,CA是通道注意力。

Retinex Decomposition

在RGB域中,采用基于Retinex理论的低光增强方法已经取得了成功[21, 22, 23],因此作者提出了双域Retinex分解模块(RDM)。该模块可以将图像分解为反射分量和照度分量。RDM的详细信息如图2(a)所示。模块首先在通道维度上对输入图像取平均值,得到,并将它们在通道维度上拼接,然后通过一系列卷积操作,得到第一个输出光特征,接下来通过一个卷积操作得到光图,最后将光图乘以原始输入,经过一个卷积操作后,得到第二个输出反射图。具体而言:

其中sap代表空间平均池化,cat代表将两个特征图在通道维度上拼接,代表一系列卷积操作,核尺寸分别为1、5和3,表示哈达马乘法。得到光特征之后,作者将它简单的下采样,得到每个层四个特征图,这些特征图作为被贡献给后续的自动曝光校正。是后续某个层的融合的光特征,会被用于第层的有用自动曝光校正。

Domain Adaptive Fusion

图4:作者方法与最先进方法(请注意,最先进方法请放大查看)之间的可视化结果。

picture.image

DFA的详细信息见图2(b),首先将当前特征图与同一 Level 的旧特征图进行拼接,然后在此结果上进行卷积操作,接着将其通过卷积与残差添加相结合。最后,通过最终卷积得到融合特征图。具体而言,对于两个特征图和,它们将按照以下方式进行融合:

在图2(b)中显示了DFA的详细信息。旧的预处理特征图将首先与当前特征图在同一 Level 上进行拼接,然后在这个结果上进行卷积操作,接着通过残差结构进行处理。通过最后一个卷积操作,作者可以得到融合特征图。具体来说,对于两个特征图和,它们的融合过程如下:

Loss Function

传统低级视觉任务通常使用L1损失,作者同样遵循这一规则,然而作者的任务涉及两个领域的不同子任务,即Raw域和sRGB域,因此损失可以表达为:

其中是在去噪后得到的原始图像,是在第二阶段后得到的sRGB图像,是通过对原始 GT 值经过Rawpy后处理得到的sRGB图像。在实验中,和默认为1.0。

Experiments

实验部分的开端。

Datasets and Experiments Environments

关于SID数据集:

对于Sony子集,训练集中有总共1865张原始图像对。每对图像都包含一个短曝光和一个长曝光,短曝光被用作有噪声的原始图像,而长曝光被用作GT_{raw}。所有图像的原尺寸为2848\times 4256。由于GPU内存限制,在训练之前对数据进行预处理,首先压缩为,然后随机裁剪一个形状为的输入块进行数据增强,例如水平/垂直翻转。对于测试集,作者参考了DNF[19]设置并删除了三分错位的场景图像。

对于Fuji子集,与Sony子集类似,训练和测试分别有1655张和524张原始图像对。它的原始尺寸为。由于其CFA(颜色滤波阵列)为X-Trans而不是Bayer,作者将它压缩为,并随机裁剪一个形状为的输入块。

MCR数据集:

MCR[14]数据集包含4980张图像,分辨率为,包括3984张低光RAW图像,498张单色图像(不适合作者使用)和498张sRGB图像。它包括室内和室外场景,具有不同的曝光时间,室内场景的曝光时间为1/256秒至3/8秒,室外场景的曝光时间为1/4096秒至1/32秒。作者通过DNF[19]获取原始 GT 值。预处理类似于SID数据集,但作者没有使用随机裁剪输入块。

实现细节:

在训练期间,批处理大小为1,初始学习率为1e-4,作者使用余弦退火策略,在200个周期后将学习率降低到1e-5。使用Adamw优化器,参数为[0.9,0999],并设置动量参数为0.9。训练和测试由NVIDIA 3090(24G)和A40(48G)完成,因为GPU内存的限制。作者还提供了在24G GPU上合并测试的代码。请注意,合并测试的结果会有些小,与使用全部图像的测试结果略有不同。作者使用 PSNR(峰值信噪比),SSIM[20]和LPIPS[21]作为定量和定性评估指标。

Comparison with State-of-the-Arts

picture.image

作者在SID [1]数据集(包含Sony和Fuji子集)以及MCR [14]数据集上进行实验,并与包括SID [1],DID [19],SGN [21],EEMEFN [22],LDC [23], LLPackNet [1],RRT [1],MCR [14],RRENT [15]和DNF [19]等先前的SOTA方法进行比较。结果见表1和表2。观察到,相比多阶段方法,大多数单阶段方法表现不佳,展示了多阶段方法对于噪声RAW到sRGB跨域映射的清洁可行性及有效性。在SID数据集上,作者所提出的方法在多阶段方法中超越所有指标,同时保持较小的参数数量。具体而言,在Sony和Fuji子集中,作者的方法分别实现了0.14 dB和0.31 dB的PSNR提升,0.011和0.017的SSIM改善,以及0.015和0.009的LPIPS减少,与现有最佳方法相比。

picture.image

对于MCR数据集,如表2所示,尽管在SSIM上的提升幅度较小,但作者实现了1.14 dB的PSNR提升,相较于第二好的方法提高了3.6%。此外,作者还选择了一些先前的SOTA方法,并在SID Sony数据集上可视化了它们的性能,如图4所示。共有三种场景,每种场景包含两个子区域。在第一和第二场景中,其他方法产生的图像通常呈现出绿色调。而在第三场景中,这些方法往往无法很好地保留细节。相反,作者提出的滤波器方法在颜色和细节方面都与真实值紧密对齐,有效地在低光条件下实现了RAW域的降噪和颜色增强。

Ablation Studies

为了证明作者提出的算法的有效性,作者在SID索尼数据集上进行了消融实验。作者首先提出一个基于SDB和来自DNF[17]的未修改的朴素视觉马巴和GFM的基础模型。表3显示了根据基础模型添加或替换相应模块的结果,其中RRAWM表示用RRAWMamba替换基础模型中的朴素马巴,RDM表示添加RDM模块,DAF表示用DAF模块替换GFM。所有消融实验在相同的环境中进行。

picture.image

首先,作者将基础模型中的朴素马巴替换为提出的RRAWMamba。结果显示PSNR增加0.41 dB,SSIM增加0.012,证实了作者RRAWMamba,具有八向扫描机制,在去伪色任务中表现良好。接下来,作者将提出的RDM融合到图像去噪和自动曝光校正中。结果显示尽管SSIM没有改善,但PSNR增加0.27 dB。这表明图像的初始曝光确实存在问题,而作者的RDM有效地增强了去噪和曝光校正。最后,作者将网络中的所有GFM组件替换为提出的DAF,以提高训练过程的稳定性。这导致了进一步的优化,PSNR和SSIM分别增加了0.04 dB和0.001。

此外,作者在图5中进行了消融实验的简单可视化。将RRAWMamba用于基础模型增强了暗图像的细节,但亮度仍然不足。Retinex-RawMamba与RDM解决此问题,表明作者提出的在极暗区域中实现更好的效果,在细节和亮度方面都优于原始图像。

picture.image

Conclusion

对于在低光条件下去噪和增强RAW图像的任务,引入了 Retinex-RAWMamba,这是一个新颖的两阶段跨域网络。

作者的方法通过将RAWMamba 集成到传统的视觉 Mamba中,扩展了其能力,RAWMamba利用ISP中的去马赛克算法的固有属性来实现增强的颜色校正和细节保留。

此外,通过Retinex Decomposition Module整合了Retinex理论,实现自动曝光校正,并生成具有改进光照和亮度真实感的RGB图像。全面理论分析和实验验证突显了我们方法的有效性和显著潜力。

参考

[1].Retinex-RAWamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论