参数减半，性能加倍，ResVMUNetX 结合 Mamba与 CNN 提升图像增强性能！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

在低光照条件下的图像增强是深度学习研究持续关注的领域。当前的方法大多基于深度学习框架，利用卷积神经网络提取图像的深层特征，但这些方法在捕捉图像的长距离信息方面存在不足。

诸如Retinexformer之类的深度学习算法尝试通过融入Transformer结构来改进全局信息的获取，但在增强效果、实时处理能力和算法可解释性方面仍有提升空间。针对现有算法中存在的问题，本研究提出了一种新颖的图像增强网络——ResVMUNetX，该网络采用误差回归方法，通过添加估计的光照补充，直接增强输入图像的亮度并恢复结构细节。

ResVMUNetX通过高效的VMamba架构优化了对长距离信息的捕捉。具体来说，网络使用改进的VMUNet作为特征提取的主干网络，对低光照输入进行误差估计，并通过直接对输入像素进行添加来实现初步增强。

随后，使用基于CNN的特别设计的去噪模块处理低光照输入，以提取局部细节并去除噪声。

这种方法有效地增强了低光照图像的清晰度和视觉质量，显著降低了参数和计算负担，同时通过状态空间模型的优化，显著提高了算法的计算速度。在LOL数据集上的评估结果表明，ResVMUNetX在图像质量和性能上都超过了现有的图像增强方法。

更重要的是，ResVMUNetX实现了高达每秒70帧的处理速度，不仅证实了其在图像增强方面的卓越效果，还展示了在实际应用场景中实现实时处理的潜力。

1 Introduction

低光照图像增强一直是计算机视觉和图像处理领域中的一个高度挑战性任务。在低光照条件下捕获的图像通常表现出昏暗和模糊的视觉效果，伴随着大量的细节丢失，这极大地影响了后续图像处理任务（如目标检测和图像分割）的执行。在实际检测场景中，低光照条件往往是不可避免的，这使得有效增强这些低光照图像成为图像处理研究中的关键问题。

传统的低光照图像增强技术，如直方图均衡化和伽马校正，通常采用一种忽略光照成分的策略，直接对输入图像的像素值进行操作。这种方法在处理复杂多变光照场景时，往往难以保持图像增强后的质量和自然度。随着对人类视觉系统研究的深入，基于真实世界物理现象的Retinex理论[7]的引入，将图像分解为光照和反射成分，为低光照图像增强提供了坚实的理论依据和先验知识。基于Retinex理论，许多深度学习方法，如RetinexNet[8]，已经显示出一定的增强效果。然而，在低光照条件下捕获的图像往往伴随着大量的噪声和色彩失真，当使用Retinex理论进行增强时，可能会导致噪声放大，从而降低图像质量。鉴于上述问题，基于Retinex理论的算法在实现预期的增强效果方面仍有待提高。

在深度学习驱动的图像处理领域，误差回归方法在提高图像质量方面已显示出其显著的有效性。该方法通过准确预测和校正图像中的失真，已经在传统图像处理任务中展现出卓越的性能。随着深度学习技术的发展，误差回归的概念也被应用于复杂的神经网络架构中，使这些模型能够学习到图像失真更为复杂和细致的特征。将误差回归方法与深度学习相结合，通过直接预测和处理误差，也为低光照图像处理开辟了新的途径。

卷积神经网络（CNN）模型因其出色的局部特征捕捉能力，被广泛应用于低光照环境下的图像增强。CNN 能有效识别并学习低光照图像中的空间信息，展示了其在低光照图像增强方面的能力。然而，CNN在捕捉和学习图像的长距离信息方面存在局限，导致处理后的图像常常缺乏全局和上下文信息，难以有效解决低光照图像中的噪声问题和细节丢失。为了减轻长距离信息缺乏的影响，研究者们将注意力转向了Transformer模型，这种模型通过自注意力机制感知全局信息并建模长距离信息[16, 17, 18]，从而有助于恢复低光照图像中的细节结构。这不仅弥补了CNN在处理全局信息方面的不足，而且在图像增强领域也取得了显著的成功。然而，基于Transformer架构的算法通常具有高计算复杂度和大模型参数，导致计算资源消耗巨大，难以满足实时处理的需求，这大大限制了算法的实际应用场景。

针对上述算法的问题和不足，本研究提出了一种基于误差回归的图像增强算法——ResVMUNetX。ResVMUNetX的训练分为两个主要阶段。在第一阶段，基于VMamba架构的核心特征提取网络VMUNetX被用来深入学习图像的全局特性，并准确估计低光照输入与参考目标之间的误差组分。通过在像素 Level 上将估计的误差组分叠加到原始低光照输入上，补偿了低光照输入与目标参考之间的失真，实现了初步的图像增强效果。考虑到原始低光照输入中存在大量噪声，第二阶段冻结VMUNetX部分，并设计DenoiseCNN来对低光照输入进行去噪。DenoiseCNN处理后的输入与VMUNetX部分输出的误差组分在像素 Level 上相加，以实现最终的增强。这种简单而高效的处理策略显著提高了图像的整体亮度和对比度，同时有效去除了原始低光照图像中的噪声。实验结果证实了这种方法在视觉效果上的显著提升，为实时或计算受限的应用环境提供了一种实用且高效的图像增强解决方案。

为了评估ResVMUNetX在提升低光照图像性能方面的效果，作者对广泛使用的低光照数据集LOL[19, 20]进行了大量的定量和定性测试。根据表1中呈现的数据，ResVMUNetX在此数据集上超越了大多数当前深度学习方法的最先进（SOTA）技术。

picture.image

此外，表2中的测试结果表明，ResVMUNetX在推理速度上也取得了显著的提升，远超之前的SOTA模型，并具备了实时处理能力。

picture.image

作者的研究主要贡献可以概括如下：

在低光照图像增强领域，作者引入了基于Mamba架构并受误差回归概念启发的ResVMUNetX网络，用于低光照增强。
为了减少输入低光照图像中的噪声，作者设计了一个专门的DenoiseCNN去噪模块来处理这些图像，其有效性已得到验证。
通过广泛的实验和数据分析，作者的方法不仅在图像质量上超越了众多高性能的深度学习算法，而且在推理速度上也取得了显著的优势。

2 Related Works

Low-light Image Enhancement

分布映射模型：在低光照图像增强领域的早期探索中，研究者提出了最直观的分布映射方法。该方法通过映射低光照图像的分布特性来放大值较低的暗区域。这种方法的经典技术包括直方图均衡化和基于S曲线的伽马校正。尽管这些技术显著提高了图像的可见性，但它们在扩展像素分布时未涉及图像的语义信息，导致常见的色彩失真和其他降低视觉效果的问题。

传统模型方法： Retinex理论[7]为图像增强提供了一个直观的物理框架，认为消除图像的照明成分可以恢复原始反射图，即正常亮度下的图像。随着这一理论的进一步应用，一个关键问题是如何准确估计图像的照明层[21, 22, 23]。基于这种方法的技术通常涉及人工设置先验知识，并需要精细的参数调整，可能导致增强后的图像出现不自然的伪影和色彩偏差，从而暴露了其不足的泛化性能和繁琐的优化过程。此外，这些传统方法常常忽视图像中的噪声，可能在增强过程中放大噪声，进而影响最终的增强效果。

深度学习方法：自2017年以来，深度学习方法在低光照增强技术领域引领了技术趋势[24]。这些方法通常以经典的Retinex理论作为结构框架，产生了一系列创新性工作。例如，Wei[8]等研究者成功地将Retinex分解理论与深度学习技术相结合，克服了基于CNN的方法在捕捉图像不同区域间长距离依赖关系上的局限性。Retinexformer[16]进一步引入了 Transformer 架构，通过其自注意力机制解决了长距离依赖问题，并将其与基于Retinex理论的 Transformer 设计相结合，使方法得到精炼和优化。然而，由于其自注意力机制， Transformer 模型在处理长序列数据时仍然面临巨大的计算挑战和复杂性。

State Space models

近期，状态空间模型（SSMs）逐渐成为研究领域的充满希望的新方向。作为一种对现有卷积神经网络（CNNs）和Transformer模型的创新替代架构，一种代表性模型——S4[25]（结构化状态空间序列模型）——在众多文献中被提出，主要用于在图像中建模长距离信息。该领域的进一步探索促进了多样化结构化状态空间模型的发展，这些模型具有复杂的对角机制[26, 27]、多输入多输出能力[28]、对角分解和低秩操作[29]，从而显著提高了其特征提取能力。值得注意的是，像Mamba[30]这样的现代SSMs不仅成功建立了长距离信息的依赖关系，而且相对于输入大小具有线性处理复杂性，使得它们的计算效率优于Transformers，因此吸引了各个研究领域的广泛关注。Mamba模型提出的可选择扫描机制与视觉领域中流行的基准模型相媲美，而Vision Mamba[31]进一步主张，纯SSM模型可以作为一种通用的视觉基础架构。这一观点通过实证研究得到了验证，在医学图像分割任务[32]中取得了重大进展。此外，在低级视觉任务中的研究也展示了积极的结果。在这些研究进展的启发和鼓励下，作者的工作利用Mamba模型在长距离序列线性分析方面的优势，并将其与误差回归理论结合用于特征处理，实现了卓越的低光照图像增强效果。这进一步突显了Mamba模型在低光照图像增强领域潜在的有效性和实际应用价值。

3 Method

根据图1的描述，本节对VMUNetX架构进行了简洁的分析。该网络主要由两个组件构成：VMUNetX，负责建模长距离信息；DenoiseCNN，采用经典的卷积神经网络结构进行去噪。ResVMUNetX的训练过程分为两个主要阶段。在第一阶段，基于VMamba架构的核心特征提取网络VMUNetX被用于对图像的全局特征进行深度学习。这一阶段主要涉及精确估计低光照输入与参考目标之间的误差成分，并将估计的误差成分以像素 Level 叠加到原始低光照输入上。这有效地补偿了低光照输入与目标参考之间的失真，从而实现初步的图像增强效果。在第二阶段，考虑到原始低光照输入中存在大量的噪声，冻结VMUNetX部分，并引入一个特别设计的DenoiseCNN对低光照输入进行去噪处理。通过将DenoiseCNN处理后的输入与VMUNetX在像素 Level 输出的误差成分相加，作者成功地实现了图像的最终增强。简而言之，算法的训练过程可以用以下形式表达：

picture.image

步骤

：

估计误差

初始输入

步骤

：

去噪

估计误差

初始输

入

去噪

VMUNetX

近期提出的VMUNet模型利用了Mamba架构中状态空间模型（SSM）对远程信息的有效处理能力，以及可变状态空间（VSS）块在精细捕捉上下文信息方面的优势，在医学图像分割任务中取得了显著成果[32]。Mamba架构采用选择性扫描2D（SS2D）技术对图像进行串行处理，能够在保持全局感受野的同时高效处理图像。然而，如果这种处理方法仅关注图像序列，可能会导致边缘细节和局部结构信息的丢失。为了克服这一局限，作者在Mamba架构的基础上集成了传统的卷积神经网络（CNN）技术，并提出了VMUNetX模型，旨在应用于低光照图像增强。VMUNetX能够利用Mamba模型高效捕捉长距离信息，并与CNN同时精细学习局部边缘信息。

在结构上，VMUNetX分为两个主要部分：VMUnet和“X”结构。如图1(a)所示，VMUnet部分主要由 Patch 嵌入层、编码器-解码器、投影层和经典的跳跃连接组成。"X"结构在编码阶段设计了一个卷积下采样模块和混合上采样模块，在解码阶段实现了上述信息的有效整合。在编码器中，与原始VMUNet使用四层编码不同，VMUNetX考虑到实际增强效果和计算成本，仅采用两层编码，避免了输入图像大小的限制。每一层通过VSS块进行特征提取。通过堆叠不同深度的VSS块，实现了多尺度特征获取，增加了通道数，实现了下采样。对于这两层VSS编码层，VSS块的数量设置为[2, 3]，通道配置为[C, 2C]。此外，作者设计了特殊的卷积下采样和混合上采样模块来处理不同层的特征图，并将其与解码器的输出整合。在解码器部分，与前述VSS编码层相对应，解码特征通过VSS块进行上采样并减少通道数，恢复特征图的大小。VSS块的数量和通道配置与编码器相对应，分别设置为[3, 2]和[2C, C]。最后，通过映射层获得的特征图大小恢复到原始输入大小，而跳跃连接则通过点式加法简单实现不同大小特征图的直接整合。

VSS模块：** VM-UNet架构的核心组件是视觉状态空间（Vision State Space，VSS）模块，该模块源自VMamba[29]框架，如图2(a)所示。该模块处理的输入首先经过层归一化，然后分为两条路径：第一条路径应用线性层和激活函数进行特征转换；第二条路径依次通过线性层、深度可分离卷积和激活函数，然后进入SS2D模块进行深入的特征提取。经过SS2D模块后，使用层归一化来标准化输出特征，这些特征随后与第一条路径输出的特征进行逐元素相乘。接下来的线性层整合这些特征，最后通过残差连接进行逐元素相加，形成VSS模块的最终输出。在VSS模块的实现中，默认选择SILU[33]函数作为激活函数。

picture.image

SS2D： SS2D结构主要由三部分组成：扫描扩展模块、S6特征提取模块和扫描合并模块，如图2所示。扫描扩展模块沿着四个不同的方向（从左上到右下、从右下到左上、从右上到左下以及从左下到右上）对输入图像进行序列化，确保对图像所有方向进行细致扫描，有助于捕捉多方向特征。随后，S6模块对从这些不同方向获得的序列进行特征提取。最后，扫描合并模块对这些不同方向的特性序列进行求和合并，使得处理后的特征图能够恢复到图像原始的空间维度。基于S4块的S6模块引入了选择机制，增强了模型辨别和过滤特征信息的能力，有效保留有价值信息的同时消除冗余。

残差混合上采样：在图3所示的混合上采样模块中，作者采用了一种将直接上采样与误差回归相结合的策略。其中，误差回归利用了特征图残差大小的处理方法，同时确保了特征信息的密集传递和有效控制通道数量。该模块包含两个平行的分支：一个通过卷积网络增强特征并进行上采样；另一个通过双线性插值直接进行上采样。两个分支的输出在最后通过加法合并，旨在结合两种不同特性的信息，从而丰富最终上采样特征图的表达能力。这种设计理念不仅借鉴了传统深度学习中的残差学习方法来增强模型的学习能力和加速训练收敛，还利用直接上采样分支来保留更多的原始特征信息。通过混合策略，上采样模块可以在特征增强和上采样过程中更有效地保持图像中的重要信息，使其适用于对图像细节要求较高的低光照图像增强领域。

picture.image

DenoiseCNN

在实际应用中，通过亮度调整增强低光照输入，先前的研究往往简单地将以得到的照明估计结果与输入的低光照图像进行乘法或加法运算，常常忽略低光照图像中的固有噪声成分。为了解决这个问题，作者专门设计了一个深度网络模块，名为DenoiseCNN，专注于消除低光照图像中的噪声。

如图2b所示，DenoiseCNN首先对输入的低光照图像进行亮度提升，这一步骤有助于捕捉图像的整体结构信息，之后将这些图像与原始图像合并，并送入预处理层。在预处理阶段，输入图像经过一系列卷积操作逐渐增强特征表达的丰富性，随后通过多层卷积堆叠细致地捕捉图像细节。此外，通过将Squeeze-and-Excitation（SE）模块集成到网络架构中，DenoiseCNN实现了通道特征响应的自适应重新校准，有效增强了模型对图像信息的关注并抑制噪声。在网络输出的阶段，DenoiseCNN逐步重建和恢复图像通道。最后，受到在图像去雾应用中暗通道先验成功的启发，对估计的图像进行暗通道处理，以进一步提高图像估计的自然度和结构清晰度。

Loss Function

设计一个合适的损失函数可以有效引导模型训练并提升其性能。在低光照图像增强任务中，依赖单一损失函数很难达到令人满意的结果。因此，参考Lin等人[35]的工作，作者在模型训练阶段设计并配置了多种损失函数，以驱动模型的学习并获得高质量的增强输出。

结构相似性损失（SSIM Loss）：对于低光照图像增强，常常会出现细节模糊和结构扭曲等问题，严重影响图像质量。为确保结构一致性并获得高质量图像，将结构相似性指数（Structural Similarity Index, SSIM）作为损失函数的一部分至关重要。SSIM损失函数专注于测量图像之间的结构相似性，这有助于获得高质量的增强结果。SSIM损失函数的定义如下：

其中，和分别表示估计图像和参考图像像素的均值，和表示方差，表示协方差，和是为了避免除以零而设置的常数。

感知损失（Perceptual Loss）：为进一步提升图像的视觉质量，作者还采用了感知损失[36]。通过使用VGG网络[37]计算图像的高层次特征信息，感知损失可以在上下文语义和结构信息方面衡量估计结果与参考图像之间的差异。感知损失的定义如下：

其中，表示VGG-16网络中第个块的第个卷积层的特征图，表示L1损失。

内部损失（Inner Loss）：在构建作者的模型时，除了传统损失函数外，作者还设计了一种新的损失函数，以确保更准确地反映预测图像与目标图像之间的误差。具体来说，作者提出了一种内部损失，其主要目的是在像素 Level 上测量预测图像与低光照目标图像之间的差异。内部损失的计算公式如下：[此处应继续提供内部损失的计算公式，但文本中未给出，故无法翻译]。

在本文中，作者采用了内积损失、直方图损失等多种损失函数来优化模型的性能。

内积损失：是模型预测输出的展平张量，而是低光照目标图像的展平张量。

直方图损失：鉴于图像的整体分布特性对模型性能的显著影响，本研究引入了直方图损失函数。该函数的目的是量化模型预测输出与目标图像在像素值分布上的差异。通过计算估计结果和参考目标图像的直方图分布，并评估这些分布之间的差异，可以使生成图像在像素值分布上与目标图像接近。此外，借鉴 Retinex 理论，作者设计了两种类型的直方图损失：直方图损失和直方图损失'。直方图损失专注于分析估计结果与参考目标之间的分布差异；而直方图损失'则专注于比较反射图的分布差异。具体来说，通过将参考图像的高光照输出除以其低光照输出得到参考反射图输出；通过将估计结果除以低光照输入得到估计反射图输出，然后基于这两者计算直方图损失'。这种方法有助于进一步优化模型性能，确保模型输出不仅在亮度上接近现实，而且在颜色和纹理细节上也与现实接近。直方图损失的定义可以参考以下公式：

其中，和分别代表预测结果和参考目标的直方图分布。

实验

实验在标准基准数据集DUTS [7] 和自行收集的真实世界数据集SCARED [22] 上进行。DUTS数据集包含10553张训练图像和5013张验证图像，而SCARED数据集包含1921张训练图像和960张验证图像。作者在两个数据集的验证集上评估了作者的方法，并将其与几种最先进的显著性检测方法进行了比较，包括BASNet [10]、MINet [19]、CPD [4]和SFNet [24]。

所有实验均使用PyTorch深度学习框架在一个拥有32GB内存的NVIDIA Tesla V100 GPU上实施。除非另有说明，作者从零开始训练所有模型，批量大小为8，共40个周期。学习率初始设置为2.5×10^-4，并在20和30周期时以0.1的因子衰减。

Datasets and Implementation details

LOL数据集性能评估：为了对ResVMUNetX进行系统和全面的性能评估，作者选择了广泛采用的低光照图像增强数据集——LOL数据集作为测试基准。该数据集分为两个版本：V1和V2。在LOL数据集中，每张低光照图像都配备了一幅相应的标准参考图像。作者通过比较网络输出增强图像与这些目标参考图像之间的差异，使用定量度量指标来全面评估模型的性能。在LOL v1版本中，数据集使用485张图像作为训练集，15张图像作为测试集。LOL v2数据集进一步划分为两个子集：LOL-v2-real和LOL-v2-synthetic。LOL-v2-real子集是通过在真实场景中调整ISO和曝光时间捕获的，包含689对训练图像和100对测试图像。LOL-v2-synthetic子集则专注于从RAW图像出发，通过分析低光照环境中的光照分布，合成低光照图像和正常光照图像对。这个子集总共包含了1,000对低光照/正常光照图像，选择900对用于训练，100对用于测试。通过上述实验设置，作者旨在全面验证并展示RetinexVMUNet在低光照环境图像增强任务中的实际作用和潜在能力。

实施细节：在PyTorch框架下，作者成功实现了ResVMUNetX模型，并在一个配备了 CUDA 11.7、Python 3.9和PyTorch 1.13环境的Linux系统（配备了NVIDIA RTX 4090 GPU）上进行了模型训练和测试。整个模型的训练过程大致可以分为两个阶段。在第一阶段，单独训练VMUNetX部分，其中VMUNetX输出的光照估计与低光照输入直接相加形成最终输出结果。在第一阶段的训练过程中，初始学习率设置为2e-4，每100个周期降低到原来的1.2倍，第一阶段持续400个周期。在第二阶段的训练中，冻结已经训练好的VMUNetX部分的参数，然后引入DenoiseCNN对低光照输入进行去噪。DenoiseCNN替换第一阶段的低光照输入和 VMUNetX 输出的光照估计进行相加，得到最终的增强结果。在第二阶段的训练过程中，初始学习率设置为2e-3，每100个周期降低到原来的1.2倍，第二阶段持续200个周期。在整个训练过程中，使用Adam优化器来迭代优化模型参数。为了降低模型的损失值，将Adam优化器的动量项b1设置为0.9，将RMSprop控制项b2调整为0.999。

Low-light Image Enhancement

定量结果：作者使用多种指标对ResVMUNetX与之前提出的各种SOTA增强算法进行了定量比较。所使用的指标包括：PSNR、SSIM和LPIPS。PSNR（峰值信噪比）用于测量两幅图像之间的视觉误差，数值越高，表明算法的增强效果越好；SSIM（结构相似性指数）用于估计两幅图像的相似性，数值越高，表明算法在保持高频细节和结构方面做得越好；LPIPS[41]（学习到的感知图像块相似性）用于评估算法生成的图像与真实图像之间的感知差异，数值越低，表明生成的图像越符合人类的视觉感知。与其它SOTA算法相比，ResVMUNetX在LOL V1和LOL V2合成数据集上的PSNR分别提高了1.16dB和0.419dB；SSIM分别提升了0.009和0.01，并且在LOLv2-real上也展现了主流的增强水平。在速度方面，无论是在模型参数还是计算复杂度等算法推理性能指标上，ResVMUNetX在上述方面均优于其他算法，并具有出色的增强效果。此外，对于尺寸为512*512的图像，ResVMUNetX能够达到每秒70帧的推理速度，是具有等效增强效果算法的数倍。

定性结果：图4通过放大不同算法的输出结果，展示了作者的ResVMUNetX相较于现有算法的比较优势，以便进行详细比较。从图中可以看出，之前的算法在处理过程中存在一些显著问题，包括颜色失真、细节丢失、图像噪声增加以及模糊的结构信息。特别是对于Zero-Dce和SCI这类无监督方法，图像显示出非常明显的噪声，图像的整体视觉效果很不自然，整体过暗或过亮。在Retinexformer和RetinexMamba的结果中，存在缺失的结构信息和不自然的伪影。对于SMNet的输出，图像整体仍然过暗，并且存在一些颜色失真；与上述算法的结果相比，ResVMUNetX显示出显著的性能提升。它能有效增强图像中低可见度区域的细节，改善在低对比度或低光照条件下的视觉效果。同时，作者的算法展现出卓越的降噪能力，避免了斑点和伪影的生成。此外，它还能准确保持图像的原始颜色信息，并清晰保留结构和纹理细节。

picture.image

Ablation Study

在LOL v1数据集上，作者进行了一系列消融实验，旨在评估五种不同网络架构的性能。这些架构通过移除或增加特定组件来比较它们的图像增强效果。

首先，作者测试了未修改的原始VMUNet模型的性能，以评估其基本的增强效果。
作者在2层VMUNet上集成了“X”结构，旨在通过多尺度提取方法优化编码层信息的处理。
作者还将设计好的DenoiseCNN融入VMUNetX中，以提高对低光输入图像的降噪能力。
此外，作者还评估了在原始VMUNet中单独添加DenoiseCNN的效果，以探索去噪模块对增强效果的影响。综合所有消融实验的结果，作者的RetsVMUNetX模型在PSNR和SSIM指标上均取得了最高性能。

与原始VMUNet相比，增加了“X”结构的VMUNetX能够更精细地捕捉边缘和细节信息。通过引入去噪模块，它成功地解决了原始输入中尚未去除的噪声问题，显著提高了图像质量。表4在消融实验中详细评估了不同损失函数对图像增强任务的影响。

结果显示，当移除结构相似性损失（SSIM Loss）时，结构相似性指数（SSIM）显著下降至最低，从而验证了SSIM Loss在控制图像质量和确保高质量输出方面的有效性。另一方面，移除感知损失后，由于无法捕捉图像的上下文语义信息，峰值信噪比（PSNR）指标明显下降。此外，内损失已被证明对平滑图像细节有积极影响；而直方图损失在调整图像的亮度和颜色纹理信息方面发挥着重要的支持作用。

picture.image

5 Conclusion

在本研究中，作者引入了一种基于Mamba架构的低光照图像增强框架——ResVMUNetX。该框架在VMUNet的基础上，增加了卷积神经网络（CNN）的上采样和下采样模块，旨在解决Mamba架构在获取二维图像边缘信息方面的不足。考虑到低光照图像固有的噪声问题，ResVMUNetX还集成了一个定制的DenoiseCNN去噪模块，专门负责消除噪声。

借鉴误差回归的思想，该框架将去噪后的低光照输入与光照补偿估计相加，最终实现有效的图像增强。

通过一系列广泛的定量和定性评估，结果表明ResVMUNetX在LOL数据集上超越了现有最先进的技术。与类似的图像增强算法相比，作者的框架不仅在推理速度上有了显著提升，而且还显示出在实时应用场景中的潜在适用性。

尽管ResVMUNetX已经取得了卓越的增强效果，但仍然存在一些问题，如颜色失真。此外，当前算法只能在GPU设备上进行实时推理。

因此，未来的研究将集中在进一步提高模型的推理速度，并将算法部署在各种边缘设备平台（如FPGA）上，以扩展其实用性和适用性。

参考

[1].RESVMUNetX: A Low-Light Enhancement Network Based on VMamba.

点击上方卡片，关注「AI视界引擎」公众号

参数减半，性能加倍 ，ResVMUNetX 结合 Mamba与 CNN 提升图像增强性能 ！

1 Introduction

2 Related Works

Low-light Image Enhancement

State Space models

3 Method

VMUNetX

DenoiseCNN

Loss Function

Datasets and Implementation details

Low-light Image Enhancement

Ablation Study

5 Conclusion

参考