超越传统方法 | MixNet用局特征调制层为低光超高清图像增强提供方案 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

随着成像设备的不断进步，超高清（UHD）图像的普及度越来越高。尽管许多图像修复方法已经取得了令人瞩目的成果，但由于受限于计算资源的有限性，这些方法并不能直接应用于具有较低计算资源的UHD图像。

因此，本论文关注低光图像增强（LLIE）任务，并提出了一个名为MixNet的新型LLIE方法，该方法专为UHD图像设计。为了在引入过多计算复杂度的情况下捕捉特征的长程依赖性，作者提出了全局特征调制层（GFML）。GFML通过交换特征图来实现不同视点的特征关联，从而实现对长程依赖性的有效建模。此外，还设计了局部特征调制层（LFML）和前馈层（FFL）以捕捉局部特征，并将其转换为紧凑表示。这样MixNet在少量模型参数和低计算复杂度下实现了有效的LLIE。

作者在合成和实际数据集上进行了大量实验，并得出结论：作者提出的这种方法超过了当前最先进方法的性能。

代码：https://github.com/zzr-idam/MixNet

1 Introduction

近年来，由于复杂成像传感器和显示器的出现，高分辨率成像经历了显著的进步，从而导致了超高清（UHD）成像技术的快速演变。然而，UHD图像固有的高分辨率特性使得它们在成像过程中更容易受到噪声的影响。此外，UHD图像中像素数量的增加也挑战了现有图像处理方法的有效性。这些无疑会影响UHD成像的质量。

在本文中，作者关注UHD低光图像增强（LLIE）任务。在低光条件下拍摄的图像通常会出现显著的退化，包括降低可见度、低对比度和高噪声水平。从UHD低光图像中恢复理想正常光图像是一个长期研究的问题。

尽管许多基于学习的方法在低分辨率图像的LLIE任务上取得了显著的进步，但它们通常关注低分辨率图像。例如，在LLIE任务中，最常用的数据集是LOL，它包含分辨率为1K以下的图像()。为了获得更好的结果，当前最先进的（SOTA）方法通常采用更大的模型并引入大量参数。当面对UHD图像时，这些SOTA方法通常会遇到内存溢出，无法在消费级GPU上进行全分辨率推理。由于UHD图像的普及，设计一个专门针对UHD图像的LLIE算法变得越来越重要。

最近，有一些关于UHD图像的LLIE方法的研究。LLFormer 提出了一种基于 Transformer 的UHD-LLIE方法。 Transformer 出色的长程依赖性捕获能力无疑带来了卓越的结果。然而，LLFormer 也无法在消费级GPU上对UHD图像进行全分辨率推理。它需要将图像分成多个不重叠的 Patch 进行推理，然后将结果拼接在一起。这个过程无疑会降低图像修复的质量。UHDFour 试图在频域中进行LLIE，并在实际数据集上取得了良好的结果。为了在消费级GPU上对UHD图像进行全分辨率推理，FourUHD 不得不在高放大率（8倍）下对处理过的图像进行下采样。这种高放大率下采样会显著减小模型参数，但也可能导致图像中关键信息的丢失。

在本文中，作者提出了一种简单但有效的UHD-LLIE方法，称为MixNet。具体而言，作者设计了包含全局特征调制层（GFML）、局部特征调制层（LFML）和前馈层（FFL）的特征混合块。GFML是MixNet的关键组件，它使得长程依赖性的有效建模成为可能。在 Transformer 中使用自注意力使其具有强大的长程依赖性建模能力。然而，这种方法具有显著的计算开销。受到原始MLP-Mixer的启发，但有所不同，GFML从图像的宽、高和通道的特征图的角度进行编码。通过简单的维度变换操作，每个特征图中的信息进行关联和融合。

值得注意的是，维度变换操作不会引入额外的参数，这意味着通过从不同视角对特征图进行置换，GFML实现了对长程依赖性的高效建模。LFML 旨在捕捉图像的局部特征。LFML 适应性地计算一套参数用于重新分配通道维度的权重，强调特定通道的重要性。GFML 和 LFML 的结果被输入 FFL，该层旨在将特征转换为紧凑表示。这样，作者的 MixNet 在模型复杂性和性能之间实现了更好的权衡。在合成和实际数据集上的大量实验表明，MixNet 在恢复质量和泛化能力方面超过了现有的 SOTA 方法。

作者的贡献可以总结如下：

提出了一种名为 MixNet 的简单但有效的 UHD-LLIE 方法。MixNet 可以在消费级 GPU 上对 UHD 图像进行全分辨率推理。与基于 Patch 的方法相比，全分辨率推理可以避免边界艺术的产生。
开发了一种新的高效特征调制机制来捕捉长程依赖性，该机制不需要将输入图像从 3D 投影到 2D；它通过直接在 3D 空间建模来保持像素之间的空间属性。
在合成和实际数据集上对所提出的 MixNet 方法进行了定量和定性评估。实验结果显示，MixNet 在准确性和模型复杂性之间实现了良好的权衡。此外，MixNet 表现出优秀的可扩展性和灵活性，在其他图像修复任务（例如去雾）上也表现良好。

2 Related Work

Low-Light Image Enhancement

基于学习的方法已经成功地应用于 LLIE 任务。RetinexNet 依赖于 Retinex 理论并设计了一个 DecompNet 用于分解和 Enhance-Net 用于照明调整。

自注意力机制自 ViT 采用以来，在计算机视觉领域取得了显著进展。Restormer 通过在通道维度计算自注意力，从而有效地实现了图像修复，避免了显著的计算开销。它在多个任务上都表现出色。Retinexformer将 Retinex 理论引入到 Transformer 中，并设计了一个利用照明表示指导的区域照明引导 Transformer ，用于指导具有不同照明条件的区域之间的非局部交互建模。

扩散模型通过一系列去噪细化，实现了对现实和详细图像的生成。PyDiff 将扩散模型引入到 LLIE 中，以恢复真实的细节，并采用金字塔分辨率风格进行采样以实现快速生成。尽管上述方法在 LLIE 任务上取得了令人鼓舞的结果，但它们并不能直接应用于 UHD 图像，因为 UHD 图像的额外像素导致了高的计算开销。

UHD Image Restoration

UHD 图像恢复近年来成为了一个新兴的话题。在 [17, 18] 中，作者引入了双边学习，以实现 UHD 图像的去雾和 HDR 重构。核心思想是从低分辨率图像中学习双边网格的局部仿射系数，并将其应用于全分辨率图像。UHD-SFNet 和 FourUHD 探索了水下 UHD 图像增强和 UHD 低光图像增强在频域中的研究。他们都受到了发现大多数亮度信息集中在幅度上的启发。

由于现有 UHD 图像恢复方法中不可避免地需要下采样，NSEN 提出了一种空间相关的可逆非均匀下采样器，它根据细节的丰富性自适应地调整采样率。LLFormer 是第一个基于 Transformer 的 UHD-LLIE 方法，但像大多数以前的方法一样，它无法在消费级 GPU 上进行全分辨率推理。尽管上述方法已经取得了令人鼓舞的结果，但仍然需要在重构性能和模型效率之间实现一个有利的权衡。

3 Methodology

MixNet 的目标是从低光图像中恢复理想的 UHD 正常光图像，这些图像通常具有显著降低的可视度、低对比度和高噪声水平。作者提供了作者方法的整体流程，并进一步阐述了作者的方法的关键组件的详细信息。

picture.image

Overview

MixNet 的概述如图2 所示。对于给定的低光图像，作者首先通过降采样将其映射到特征空间以获得低级特征，其中、和分别表示高度、宽度和通道。然后，多个堆叠的特征混合块（FMBs）被用来从生成用于正常光图像重建的更细深的特征，其中每个 FMB 包括全局特征调制层（GFML）、局部特征调制层（LFML）和前馈层（FFL）。最后，将最终特征和的和输入到上采样器以获得恢复图像。

Global Feature Modulation Layer

最近的研究表明， Transformer 在各种任务上显著的表现归功于它们实现了关键的多头自注意力（MHSA）机制。MHSA 使得具有长期特征交互和动态空间权重的模型具有实现的能力，这两者都对获得令人满意的结果做出了贡献。然而，这种机制具有显著的计算开销。为了捕捉特征的长期依赖性，作者巧妙地利用简单的维度转换操作在空间和通道维度上建立长期关系，这使得只使用几个参数就可以实现特征的长期依赖性。

picture.image

GFML 的结构如图3（a）所示，而维度转换操作的更多细节如图4 所示。

picture.image

具体而言，作者首先调整归一化输入特征的分辨率，然后对这些特征进行一些维度转换操作。给定输入特征，这个过程可以表示为：

其中和分别为中间结果。对应插值操作，是一个卷积，代表 GELU 函数，表示维度转换操作，表示连续进行三次操作。值得注意的是，在执行最后一个维度转换操作之前，作者将 GELU 函数替换为 Sigmoid 函数。

然后，作者使用插值来调整特征到其原始分辨率，以估计注意力图，并按照估计的注意力通过逐元素乘法自适应地调制输入。这个过程可以写成：

其中是最终的输出特征，表示逐元素乘法。

Local Feature Modulation Layer

LFML 的目的是捕捉图像的局部特征，其结构如图3（b）所示。对于一组特征图，它们对最终结果的影响是不同的，作者希望模型能关注重要的特征图。作者首先将归一化输入特征输入全局平均池化，以将模型的关注点从空间维度转移到通道维度，然后将它们输入一系列卷积以获得深度特征。最后，这些深度特征通过 sigmoid 函数处理以获得每个通道的权重。归一化输入特征根据这些权重通过逐元素乘法自适应地调整通道的重要性。LFML 可以写成：

其中表示输入特征，表示通道权重，表示最终输出特征。代表 Sigmoid 函数，是一个卷积，表示全局平均池化。

Feed-forward Layer

为了将特征转换为紧凑表示，作者引入了 FFL 到作者的模型中。如图3（c）所示，FFL 包括一个卷积、一个卷积和一个 GELU 函数。在这个内部，第一个卷积编码了空间局部上下文，并将输入特征的通道数翻倍以混合通道；后一个卷积将通道数减少到原始输入维度的原始值。这样，模型学习了一种更紧凑的特征表示，并忽略了某些不重要的信息。FFL 可以表示为：

其中和分别表示输入特征和输出特征。

Feature Mixing Block

在这里，作者描述了作者的 FMB 流水线的一般形式，可以表示为：

在这里，表示输入特征，表示中间特征，表示输出特征。方括号表示连接操作，表示卷积。

Loss Functions

为了优化网络的权重和偏置，作者使用 RGB 颜色空间中的 L1 损失作为基本的重建损失。

在这里，表示真实值，表示恢复后的图像。

4 Experiment

Implementation Details and Datasets

4.1.1 Implementation Details

作者在 PyTorch 上使用六个 NVIDIA GeForce RTX 3090 GPU 进行了实验。为了优化网络，作者使用了 Adam 优化器，学习率为。作者将全分辨率 4K 图像随机裁剪为作为输入，并在批量大小为 24 的条件下进行 300k 次迭代训练。为了增加训练数据的多样性，作者对输入图像进行了随机水平翻转和垂直翻转。作者将 FMB 和特征通道数分别设置为 8 和 48。DownSampler 和 UpSampler 都是由子像素卷积层和卷积层组成的。

4.1.2 Datasets

UHD-LOL.UHD-LOL 是一个包含低光条件下 UHD 图像的大规模基准数据集，包括两个子集，UHD-LOL4K 和 UHD-LOL8K，分别包含 4K 和 8K 分辨率的图像。在本论文中使用 UHD-LOL4K 来验证 MixNet 的有效性。UHD-LOL4K 包含 8,099 对图像，其中 5,999 对用于训练，2,100 对用于测试。

UHD-LL.UHD-LL 是一个包含真实世界低噪声/正常清晰配对的图像数据集，其中包含 2,150 对 4K UHD 数据，以 8 位 sRGB 格式保存。该数据集被分为两个部分：2,000 对用于训练，115 对用于测试。

除了上述 UHD 数据集，作者还将在 LLIE 任务中常用的 LOL 数据集上评估作者的方法。LOL 包含 500 对图像，训练和测试集的比例为 485:15。

Comparisons with the State-of-the-art Methods

4.2.1 Quantitative Results

作者使用了三个著名的图像质量评估指标，PSNR、SSIM 和 LPIPS（Alex 版本）来量化不同方法的表现。PSNR 和 SSIM 是在 RGB 通道上计算的。对于 UHD 数据集，作者将作者的方法与 Zero-DCE，Zero-DCE++，RUAS，Uformer，Restormer，LLFormer 和 UHDFour 进行比较。

值得注意的是，大多数方法无法直接在 UHD 图像上进行全分辨率推理。因此，对于这些方法，作者采用了一种策略，将图像分成多个不重叠的 Patch 以进行干扰，然后将结果拼接在一起。对于 LOL 数据集，除了提到的方法外，作者还与 RetinexNet，KinD，DSLR，RUAS，ELGAN 和 Retinexformer 进行比较。

在表1 中，作者报告了不同方法在 UHD 数据集上的定量比较结果。与之前的 SOTA 方法 FourUHD 相比，作者的 MixNet 在 UHD-LOL4K 和 UHD-LL 数据集上平均提高了 2.21dB。与专门针对 UHD 图像的其他方法相比，作者的 MixNet 仅使用很少的参数就取得了令人印象深刻的结果。作者的方法在 LOL 数据集上表现良好，结果报告在表2 中。值得注意的是，LOL 图像的分辨率相对较低。因此，作者将 DownSampler 和 UpSampler 中的子像素卷积层替换为参数相当的正则块。

picture.image

所有这些结果明显表明了作者的 MixNet 具有卓越的有效性和效率优势。

Qualitative Results

除了定量评估外，作者还提供了提出的方法的定性比较。图5 和图6 显示了视觉比较。MixNet 可以有效地增强 poor visibility 和 low contrast 或 low-light 区域，可靠地去除噪声而不会引入斑点和伪影，并健壮地保持颜色。

picture.image

4.3 Ablation Study

作者进一步进行了广泛的 ablation 研究，以更好地理解和评估 MixNet 中的每个组件。为了与设计的 Baseline 进行公平的比较，作者在 UHD-LOL4K 数据集上使用相同的设置进行所有实验。作者逐步用相同参数的 Residual Block（ResBlock）替换提出的模块，实验结果见表4。

picture.image

根据表4 中所有结果，所有关键设计都对全模型的最佳性能做出了贡献。如果没有 GFML（#a、#c、#d、#f），模型性能会严重下降。这与作者的假设一致，因为 GMFL 带来的出色长程依赖性建模能力是 MixNet 卓越性能的关键因素之一。

结果表明，在特征中，长程依赖性建模的重要性。从 #g 和 #e 的结果，作者可以发现 FFL 对性能的影响高于 GFML。作者认为这是 FFL 学习紧凑特征表示的能力，而 ResBlock 缺乏的能力。任何 CNN 都可以学习局部特征。从 #c 和 #d 的结果，作者观察到当作者单独使用作者提出的模块时，LFML 对结果的影响高于 FFL。这可能是因为当特征表示不足以有效（不是来自 GFML 和 LFML）时，学习其紧凑表示几乎没有效果。作者还提供了对应 #e、#f、#g 和 #h 的特征图可视化。如图7 所示，作者的方法重建的特征图具有更锐利的纹理。

picture.image

Extension Experiments

尽管作者在本文中主要关注 UHD-LLIE 任务，但值得注意的是，作者没有引入与低光条件相关的特定先验知识。因此，作者的方法可以被视为一种通用方法，不仅适用于 UHD-LLIE 任务，还适用于各种 UHD 图像恢复任务，如去雾。

Datasets

作者在 O-HAZE 数据集上进行了去雾实验，该数据集包含 45 对有雾和无雾图像。遵循先前的研究工作，作者随机选择了 35 图像进行训练，剩下的图像用于测试。

Results

作者将提出的 MixNet 与几种图像去雾方法进行了比较。结果报告在表3 中。在 UHD 图像去雾任务上，与 NSEN 相比，MixNet 在 PSNR 上取得了超过 2 dB 的显著提升。

picture.image

5 Conclusion

在本文中，作者提出了一种名为 MixNet 的简单而高效的框架来解决高效的 UHD-LLIE 问题。MixNet 包含一系列 FMBs，主要包含 GFML、LFML 和 FFL。GFML 通过简单的维度转换操作探索长程依赖性建模。

通过交换特征图，GFML 关联来自不同视点的特征。LFML 和 FFL 分别用于捕捉局部特征并将其转换为紧凑表示。在合成和实际数据集上的大量实验表明，与最先进的现有方法相比，提出的 MixNet 更高效，同时实现具有竞争力的性能。

参考

[1].MixNet: Towards Effective and Efficient UHD Low-Light Image Enhancement.

点击上方卡片，关注「AI视界引擎」公众号