Retinex-RAWMamba 桥接去镶嵌和去噪，用于低光照RAW图像增强！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

降低光照图像增强，特别是在跨领域任务（如从原始域转换到sRGB域）中，仍然是一个重大的挑战。近年来，为了解决这个问题，已经开发出许多基于深度学习的算法并取得了令人鼓舞的结果。

然而，单阶段方法试图同时统一两域的复杂映射，从而导致降噪性能有限。

相比之下，两阶段方法通常将原始图像（通过色彩滤波器阵列（CFA））分解为四通道RGGB格式，然后再将其输入到神经网络中进行处理。

然而，这种策略忽视了图像信号处理（ISP） Pipeline 中解摩斯转换（Demosaicing）的关键作用，导致在不同光线条件下出现颜色失真，特别是在低光场景中。

为了解决这些问题，作者设计了一种名为RAWamba的新型扫描机制，它可以有效地处理具有不同CFA的原始图像。

此外，作者还提出了一种基于Retinex先验的Retinex分解模块（RDM），该模块将照明与反射解耦，以促进更有效的降噪和自动非线性曝光校正。

通过连接解摩斯转换和降噪，可以实现更好的原始图像增强。

在SID和MCR两个公共数据集上进行的实验评估表明，作者提出的RAWamba在跨域映射上达到了最先进的效果。

代码 https://github.com/Cynicarlos/RetinexRawMamba

Introduction

现有深度学习方法，尤其是那些专注于低光增强任务的方法，主要在sRGB域中运行。然而，RAW图像通常比其RGB对应物具有更高的比特深度，这意味着它们保留了更多的原始细节。因此，从RAW到RGB的处理通常更有效。然而，RAW和RGB是独立的域，具有针对其特定特性的图像处理算法。例如，在RAW域中，算法优先考虑去噪，而在RGB域中，它们专注于颜色校正。这种差异往往使单阶段端到端方法无效。

demosaicing算法在将RAW图转换为sRGB方面起着关键作用，大多数传统方法依赖于邻域插值。尽管一些研究行人探索了基于CNN的方法[13, 14]来将噪声RAW图像映射为干净的sRGB输出，但卷积网络固有的有限感受野往往限制了其在去噪任务中的有效性。为了应对这一问题，作者采用了感知 Transformer （ViTs）以扩大感受野，但ViTs中的注意力机制在计算上具有局限性。Mamba的引入提供了一种更有效的权衡。然而，现有Mamba扫描机制并没有充分考虑RAW图像与不同的 Color Filter Arrays（CFA）的多样性特征，突显了需要针对不同CFA设计Mamba扫描方法的必要性。

因此，作者设计了一种名为RAWamba的新型Mamba扫描机制，它具有全局感受野和线性复杂度的注意力机制，可以更好地适应这项任务的数据。更重要的是，如图1（b）所示，naive Mamba扫描机制并未考虑成像属性，导致在CFA下的特征提取受限。相比之下，作者引入的RAWMamba采用了八个独特的扫描方向，充分考虑了给定像素的邻域内所有像素，同时保留了图像的空间连续性。这些四个主要方向分别镜像产生了额外的四个方向，总共产生了八个扫描方向。

picture.image

此外，以前的方法 [1, 2]在处理短曝光RAW图像时，通常依赖于对曝光校正的先验简单的线性乘积。具体来说，短曝光RAW图像含有大量噪声，它们被对应的长曝光图像的曝光时间比率所乘。这种方法假定图像的曝光均匀，这通常是不现实的，可能导致欠佳的降噪和不准确的亮度。通过利用Retinex理论在低光增强任务（如RGB图像[1, 2, 3]）的成功经验，作者提出了一种基于Retinex的双域辅助曝光校正方法，称为Retinex分解模块（RDM），该模块解耦了照明和反射，实现了自动非线性曝光校正，从而实现了更高效的降噪效果和更精确的亮度校正。

此外，鉴于RAW域和sRGB域之间噪音分布的巨大差异，作者基于将任务分解为两个子任务：RAW域上的去噪[2, 2, 3, 4]和跨域映射。

总体而言，作者提出了一种基于Retinex的解耦网络（Retinex-RAWMamba），用于RAW域去噪和低光增强。如图2所示。RAWMamba将去噪和色校正任务分解为两个明显的子任务，有效地将带有噪声的RAW图像映射到干净的sRGB图像。具体来说，对于色校正子任务，作者引入RAWMamba，通过利用八个方向机制，全面考虑特定像素的直方图邻域。对于去噪子任务，作者提出了Retinex分解模块，该模块增强了去噪性能和亮度校正。

picture.image

作者的主要贡献如下：

作者提出了一个基于Retinex的解耦Mamba网络，用于Raw域降噪和低光增强（Retinex-RAWMamba）。据作者所知，这是首次尝试将Mamba机制引入到低光Raw图像任务。

作者设计了一种新颖的八方向Mamba扫描机制，全面考虑了Raw图像的固有属性，并开发了一个Retinex分解模块，以桥接降噪能力和曝光校正。

作者在两个基准数据集上对所提出的方法进行定量和定性评估。全面实验表明，与具有可比参数的现有最先进方法相比，所提出的 methods 在 PSNR、SSIM 和 LPIPS 上的性能更为出色。

Related Work

Low Light Enhancement on Raw Domain

在Raw域低光增强任务中，研究行人提出了一些创新方法。由于这个任务可以分为两个子任务：Raw域去噪和颜色校正，一些工作只专注于其中一个子任务。例如，在Raw域去噪任务上，有使用深度学习方法的噪音建模，最终在Raw域上计算评价指标。在Chen等人发布SID公共数据集之后[chen2018deep2018]，有大量的工作同时解决了这两个子任务。

这些工作可以进一步分为一站式方法和分阶段方法。一站式方法 [1, 3] 旨在通过训练一个单模型将噪声Raw映射到干净的sRGB。例如，SID [1]只使用了简单的UNet来完成这个任务。DID [1]提出了一种基于 Residual Learning 的深度神经网络，用于端到端极端低光图像去噪。SGN [3]引入了一种自引导网络，它采用了一种从上到下自引导架构，以更好地利用图像的多尺度信息。

由于ISP经历了许多非线性变换，因此很难用单神经网络学习，只能通过堆叠大量参数来实现，这导致了效率低下，因此分阶段方法出现了。分阶段方法通过解耦任务，有效地减少了不同域之间的歧义。例如，黄等人提出了在Raw域上的中间监督，而 Dong 等人则在单色域上进行此操作。DNF [2]引入了一个解耦的二维阶段网络，它采用了权重共享的编码器来减少参数数量，同时实现良好效果。

Mamba in Vision Task

状态空间模型（SSM）最近在深度学习中引入，因为它们能够有效地建模长程依赖性。例如，[3]提出的结构化状态-空间序列（S4）模型和最近[3]提出的Mamba，它在大规模实际数据上的性能超过Transformer，且在序列长度上享受线性缩放。

除了Mamba在自然语言处理任务上的杰出工作外，研究行人还在视觉任务上进行了许多尝试，取得了良好的成果，如分类[1, 2, 3, 4]，分割[1, 2, 3, 4]，生成[3, 4]，以及图像修复[3, 4, 5]的目标是通过训练一个单一模型将噪声原始图像映射到干净的sRGB。例如，SID[1]仅使用了简单的UNet来完成此任务。DID[1]提出了一种基于残差学习的深度神经网络，用于端到端的极端低光图像去噪。SGN[3]引入了一种自引导网络，它采用了一种自上而下的自指导架构，更好地利用图像多尺度信息。

由于ISP经历了许多非线性变换，因此对于单一神经网络来说，其学习仍然具有挑战性，只能通过堆叠大量参数来实现，这导致了效率低下，因此多阶段方法应运而生。多阶段方法[1]引入了一种自引导网络，它采用了一种逐步求解损失函数的策略。

Mamba in Vision Task

状态空间模型（SSM）自深度学习产生以来，因其能有效地模拟长程依赖性而被引入。例如，文献[3]提出了一个结构化的状态空间序列（S4）模型，而最近，文献[3]提出了一种名为Mamba的方法，它在各种大小的大型数据集上都优于Transformer，并在序列长度上具有线性缩放。

Method

Preliminaries

State Space Model (SSM)

SSM 是一种线性时不变系统，它将输入映射为输出。SSM 可以用线性常微分方程（ODE）正式表示，

SSM 是一个连续时间的模型，将其集成到深度学习算法中时面临着巨大的挑战。为了解决这个问题，离散化成为关键的一步。用表示时标参数。通常使用零阶保持（ZOH）规则进行离散化，将方程（1）中的连续参数和转换为离散参数和。其定义如下：

在 A, B 离散化后，使用步长对方程 1 进行离散化，可以得到：

最后，模型通过全局卷积得到输出，如下所示：

其中 L 是输入序列的长度，是一个结构化的卷积核。

Overall Pipeline

图2：作者提出的Retinex-RAWMamba的整体架构以及（a）Retinex分解模块，（b）域自适应融合和（c）简单去噪模块

的整体流程如图2所示。首先，作者将低照度噪声单通道原始图像乘以长曝光真实值（GT）的曝光时间比例进行预处理。然后，根据颜色滤波器阵列（CFA）模式，将其打包成多通道输入。具体来说，对于Bayer格式，作者将输入打包成四个通道输入；对于XTrans格式，作者将输入打包成九个通道输入。Retinex-RAWMamba的第一个阶段是基于UNet的编码器-解码器架构。整体框架的第一个阶段专门用于原始域还原。首先，Retinex分解模块（RDM）处理输入，生成主输入和辅助照度特征图，表示为。接下来，主输入在每个编码层与融合，并根据简单的去噪模块（SDB）进行去噪，该模块由连续的卷积和残差连接组成。在每个解码层，临时特征图会被生成，最终生成去噪原始图像。第一阶段将根据原始真实值和RAW图像计算损失函数，这也为该阶段提供了监督信号。在第二个阶段，重点转向去色和色校正。在这一过程中，输入与和融合，并在每一层由RAWLambda进行处理。解码后，最终RGB图像被生成。然后，根据原始真实值和RGB图像计算损失函数，为该阶段提供监督信号，并指导整个模型的优化。

RAWLambda

3 (c)：具体而言，对于特征图，作者首先翻转其偶数行（fer）和列（fec），得到和。然后作者对和进行 flatten，得到前两个方向的扫描和。然后作者可以得到斜向扫描的特征如下所示：

由于该问题涉及到的具体细节较多，涉及到矩阵操作和公式推导，因此在此无法详细展开，具体内容需参考原文及后续的代码实现。

段落1：

其中，是一个将填充到新形状的功能，和具有相同的形状，中的前个元素为真，其余为假，是一个将转换为的函数，是一个根据为真时的位置选择中元素的功能。其它的斜向扫描特征可以通过类似的方法获取，然后作者可以将这些四个特征颠倒，得到另外四个方向特征，共计八个，即。在这个过程中，八方向的扫描完成。在 SSM 之后，作者得到，然后作者将它们通过求和并 Reshape 得到一个单独的特征，即

对于所提出的 Residual RAWMamba，可以简单地表示为：

其中，LN是层规范化，和是可学习的参数，CA是通道注意力。

Retinex Decomposition

在RGB域中，采用基于Retinex理论的低光增强方法已经取得了成功[21, 22, 23]，因此作者提出了双域Retinex分解模块(RDM)。该模块可以将图像分解为反射分量和照度分量。RDM的详细信息如图2(a)所示。模块首先在通道维度上对输入图像取平均值，得到，并将它们在通道维度上拼接，然后通过一系列卷积操作，得到第一个输出光特征，接下来通过一个卷积操作得到光图，最后将光图乘以原始输入，经过一个卷积操作后，得到第二个输出反射图。具体而言：

其中sap代表空间平均池化，cat代表将两个特征图在通道维度上拼接，代表一系列卷积操作，核尺寸分别为1、5和3，表示哈达马乘法。得到光特征之后，作者将它简单的下采样，得到每个层四个特征图，这些特征图作为被贡献给后续的自动曝光校正。是后续某个层的融合的光特征，会被用于第层的有用自动曝光校正。

Domain Adaptive Fusion

图4：作者方法与最先进方法（请注意，最先进方法请放大查看）之间的可视化结果。

picture.image

DFA的详细信息见图2（b），首先将当前特征图与同一 Level 的旧特征图进行拼接，然后在此结果上进行卷积操作，接着将其通过卷积与残差添加相结合。最后，通过最终卷积得到融合特征图。具体而言，对于两个特征图和，它们将按照以下方式进行融合：

在图2（b）中显示了DFA的详细信息。旧的预处理特征图将首先与当前特征图在同一 Level 上进行拼接，然后在这个结果上进行卷积操作，接着通过残差结构进行处理。通过最后一个卷积操作，作者可以得到融合特征图。具体来说，对于两个特征图和，它们的融合过程如下：

Loss Function

传统低级视觉任务通常使用L1损失，作者同样遵循这一规则，然而作者的任务涉及两个领域的不同子任务，即Raw域和sRGB域，因此损失可以表达为：

其中是在去噪后得到的原始图像，是在第二阶段后得到的sRGB图像，是通过对原始 GT 值经过Rawpy后处理得到的sRGB图像。在实验中，和默认为1.0。

Experiments

实验部分的开端。

Datasets and Experiments Environments

关于SID数据集：

对于Sony子集，训练集中有总共1865张原始图像对。每对图像都包含一个短曝光和一个长曝光，短曝光被用作有噪声的原始图像，而长曝光被用作GT_{raw}。所有图像的原尺寸为2848\times 4256。由于GPU内存限制，在训练之前对数据进行预处理，首先压缩为，然后随机裁剪一个形状为的输入块进行数据增强，例如水平/垂直翻转。对于测试集，作者参考了DNF[19]设置并删除了三分错位的场景图像。

对于Fuji子集，与Sony子集类似，训练和测试分别有1655张和524张原始图像对。它的原始尺寸为。由于其CFA（颜色滤波阵列）为X-Trans而不是Bayer，作者将它压缩为，并随机裁剪一个形状为的输入块。

MCR数据集：

MCR[14]数据集包含4980张图像，分辨率为，包括3984张低光RAW图像，498张单色图像（不适合作者使用）和498张sRGB图像。它包括室内和室外场景，具有不同的曝光时间，室内场景的曝光时间为1/256秒至3/8秒，室外场景的曝光时间为1/4096秒至1/32秒。作者通过DNF[19]获取原始 GT 值。预处理类似于SID数据集，但作者没有使用随机裁剪输入块。

实现细节：

在训练期间，批处理大小为1，初始学习率为1e-4，作者使用余弦退火策略，在200个周期后将学习率降低到1e-5。使用Adamw优化器，参数为[0.9,0999]，并设置动量参数为0.9。训练和测试由NVIDIA 3090（24G）和A40（48G）完成，因为GPU内存的限制。作者还提供了在24G GPU上合并测试的代码。请注意，合并测试的结果会有些小，与使用全部图像的测试结果略有不同。作者使用 PSNR（峰值信噪比），SSIM[20]和LPIPS[21]作为定量和定性评估指标。

Comparison with State-of-the-Arts

picture.image

作者在SID [1]数据集（包含Sony和Fuji子集）以及MCR [14]数据集上进行实验，并与包括SID [1]，DID [19]，SGN [21]，EEMEFN [22]，LDC [23]， LLPackNet [1]，RRT [1]，MCR [14]，RRENT [15]和DNF [19]等先前的SOTA方法进行比较。结果见表1和表2。观察到，相比多阶段方法，大多数单阶段方法表现不佳，展示了多阶段方法对于噪声RAW到sRGB跨域映射的清洁可行性及有效性。在SID数据集上，作者所提出的方法在多阶段方法中超越所有指标，同时保持较小的参数数量。具体而言，在Sony和Fuji子集中，作者的方法分别实现了0.14 dB和0.31 dB的PSNR提升，0.011和0.017的SSIM改善，以及0.015和0.009的LPIPS减少，与现有最佳方法相比。

picture.image

对于MCR数据集，如表2所示，尽管在SSIM上的提升幅度较小，但作者实现了1.14 dB的PSNR提升，相较于第二好的方法提高了3.6%。此外，作者还选择了一些先前的SOTA方法，并在SID Sony数据集上可视化了它们的性能，如图4所示。共有三种场景，每种场景包含两个子区域。在第一和第二场景中，其他方法产生的图像通常呈现出绿色调。而在第三场景中，这些方法往往无法很好地保留细节。相反，作者提出的滤波器方法在颜色和细节方面都与真实值紧密对齐，有效地在低光条件下实现了RAW域的降噪和颜色增强。

Ablation Studies

为了证明作者提出的算法的有效性，作者在SID索尼数据集上进行了消融实验。作者首先提出一个基于SDB和来自DNF[17]的未修改的朴素视觉马巴和GFM的基础模型。表3显示了根据基础模型添加或替换相应模块的结果，其中RRAWM表示用RRAWMamba替换基础模型中的朴素马巴，RDM表示添加RDM模块，DAF表示用DAF模块替换GFM。所有消融实验在相同的环境中进行。

picture.image

首先，作者将基础模型中的朴素马巴替换为提出的RRAWMamba。结果显示PSNR增加0.41 dB，SSIM增加0.012，证实了作者RRAWMamba，具有八向扫描机制，在去伪色任务中表现良好。接下来，作者将提出的RDM融合到图像去噪和自动曝光校正中。结果显示尽管SSIM没有改善，但PSNR增加0.27 dB。这表明图像的初始曝光确实存在问题，而作者的RDM有效地增强了去噪和曝光校正。最后，作者将网络中的所有GFM组件替换为提出的DAF，以提高训练过程的稳定性。这导致了进一步的优化，PSNR和SSIM分别增加了0.04 dB和0.001。

此外，作者在图5中进行了消融实验的简单可视化。将RRAWMamba用于基础模型增强了暗图像的细节，但亮度仍然不足。Retinex-RawMamba与RDM解决此问题，表明作者提出的在极暗区域中实现更好的效果，在细节和亮度方面都优于原始图像。

picture.image

Conclusion

对于在低光条件下去噪和增强RAW图像的任务，引入了 Retinex-RAWMamba，这是一个新颖的两阶段跨域网络。

作者的方法通过将RAWMamba 集成到传统的视觉 Mamba中，扩展了其能力，RAWMamba利用ISP中的去马赛克算法的固有属性来实现增强的颜色校正和细节保留。

此外，通过Retinex Decomposition Module整合了Retinex理论，实现自动曝光校正，并生成具有改进光照和亮度真实感的RGB图像。全面理论分析和实验验证突显了我们方法的有效性和显著潜力。

参考

[1].Retinex-RAWamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement.

点击上方卡片，关注「AI视界引擎」公众号

Retinex-RAWMamba 桥接去镶嵌和去噪，用于低光照RAW图像增强 ！

Introduction

Related Work

Low Light Enhancement on Raw Domain

Mamba in Vision Task

Mamba in Vision Task

Method

Preliminaries

State Space Model (SSM)

Overall Pipeline

RAWLambda

Retinex Decomposition

Domain Adaptive Fusion

Loss Function

Experiments

Datasets and Experiments Environments

Comparison with State-of-the-Arts

Ablation Studies

Conclusion

参考