ShadowMamba: 用于去影的边界区域选择性扫描状态空间模型 ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

图像阴影消除是一个典型的低级视觉问题，阴影的存在会导致某些区域亮度的突然变化，从而影响上游任务的准确性。

当前的阴影消除方法仍面临诸如残余边界伪影等问题，同时捕捉阴影边界处的特征信息对于消除阴影和消除残余边界伪影至关重要。

最近，Mamba在计算机视觉领域取得了显著的成功，通过线性复杂度的全局建模来建模长序列信息。

然而，当应用于图像阴影消除时，原Mamba扫描方法忽视了阴影边界的语义连续性以及同一区域内语义的一致性。

针对阴影图像的独特特性，本文提出了一种新的选择性扫描方法，称为边界区域选择性扫描。这种方法独立地扫描边界区域、阴影区域和非阴影区域，将同一区域类型的像素在长序列中拉近，尤其关注边界处的局部信息，这对于阴影消除至关重要。

这种方法与全局扫描和通道扫描相结合，共同完成阴影消除。

作者命名为ShadowMamba，这是第一个基于Mamba的阴影消除模型。大量实验结果显示，作者的方法在多个数据集上的大多数指标上超过了当前最先进的模型。

I Introduction

影子产生于物体挡住光线的时候，因此在图像采集过程中，它们是不可避免的。影子的存在不仅会导致图像丢失某些信息，而且还会影响下游任务的准确性，例如目标检测[1, 2]，实例分割[3, 4]，以及图像分类[5, 6]。因此，图像去阴影是一个关键任务。

阴影去除是典型的低级视觉问题，但它与其他低级视觉任务如图像超分辨率[7,8]，低光图像增强[9,10]，以及图像去雾[11]或去黄[12]不同，这些任务涉及处理整个图像，而阴影去除仅关注图像内的损坏区域。因此，它需要分别建模阴影区域，使其成为一个具有挑战性的任务。

传统阴影消除方法主要可以分为光照传输方法 [13, 14] 和阴影区域再光照方法 [15, 16]。这些方法依赖于阴影本身的物理建模，对于单一阴影类型是有效的，但在复杂背景场景中往往表现不佳。近年来，深度学习方法逐渐取代了传统方法，催生了许多基于卷积神经网络（CNN）和 Transformer 架构的阴影消除方法。这些方法基于亮度信息、阴影边界信息或区域信息模型阴影图像，并利用深度网络进行阴影消除。在这些方法中，阴影边界信息是有效的特征。由于阴影边界处强度和颜色的变化非常复杂，因此在边界删除阴影像素比在阴影区域内删除像素更具挑战性。因此，帮助模型理解阴影边界信息和局部特征对于阴影消除至关重要。

大多数当前方法在处理阴影边界后进行后处理。虽然这可以带来一些性能提升，但仅依赖平滑约束来实现阴影边界像素的平滑与细节保留，在平衡阴影去除与细节保留方面具有挑战性，从而限制了其有效性。一些方法[24, 25]直接对阴影边界进行建模，其中一种代表性监督方法是BA-ShadowNet[24]。它使用阴影边界 Mask 裁剪原始图像的边界像素，并将这些像素上的监督约束直接应用，将边界信息与阴影去除分支的信息融合。尽管这种方法有效地提高了边界伪影的去除，但它通过裁剪边界像素单独处理边界像素，完全忽略了边界像素与阴影或非阴影区域之间的语义关系，影响了模型对区域间亮度变化的理解。此外，这种方法使用的CNN架构无法全局建模所有边界像素，导致结果不理想。基于这个想法，作者设想开发一种可以有效全局建模所有边界像素并保留边界区域、阴影区域和非阴影区域之间关系的模型，从而提高基于边界的阴影去除方法性能。

最近，一种名为Mamba的改进结构状态空间序列模型[28]被提出。它能够以线性复杂度建模长序列关系，并通过选择性扫描机制引入了一种新颖的注意力形式，在很多任务上超过了 Transformer 模型[29, 30]。最初，Mamba是为一维（1D）数据序列建模而设计的，使用1D因果卷积处理输入。在计算机视觉领域，必须充分考虑像素在上下、左右等方向之间的关系，以确保扫描序列的空间连续性并增强语义连续性。因此，许多方法通过修改选择性扫描机制的扫描路径来提高二维（2D）图像数据的处理性能。Vim [31]和Vmamba [29]是第一批将Mamba应用于视觉领域的，设计了双向扫描和水平垂直交叉扫描机制。基于这一原理，提出了许多Mamba视觉模型，如Plain-Mamba [32]，Mamba-ND [33]和LocalMamba [34]。这些模型通过调整扫描顺序和增加语义相关性，显著提高了Mamba在图像任务上的性能。

根据之前的假设，如果Mamba的选择性扫描机制的扫描顺序能尽可能地跟随阴影边界，将阴影边界的像素拉近长序列中，同时保留阴影和非阴影区域的信息和连接，那么它有可能增强阴影去除的性能。

现有的大部分基于Mamba的方法都采用顺序扫描整个图像的方式。尽管LocalMamba [34]通过窗口捕获局部信息，但它仍然以顺序方式扫描所有窗口。在去阴影方面，顺序扫描同样可以用于去阴影，但它没有考虑到阴影图像的具体特征，因此无法实现良好的性能。顺序扫描忽略了阴影边界信息，导致阴影边缘像素之间的语义关系被破坏。此外，顺序扫描使得同一区域内的像素被来自其他区域的像素所隔开，影响了同一区域内像素之间的相关性，导致它们在长序列中的距离变大，从而阻碍了有效捕捉它们之间的语义关系。

根据这个，本文设计了一种新的边界区域选择性扫描机制，通过利用阴影图像的特征。这一机制受到了LocalMamba的局部扫描模式[34]的启发，并引入了额外的 Mask 输入来将图像划分为多个窗口。根据机制设计的规定，这些窗口被分为阴影区域、边界区域和非阴影区域，然后重新排列成一个新的序列。使用水平垂直交叉扫描依次扫描三个区域中的像素信息。这显著增强了同一类型区域内的像素之间的语义相关性，从而在阴影边界处更好地捕捉详细信息，从而提高阴影去除性能。此外，在本文提出的方法中，也应用了全局扫描，其中另一条分支用于全局扫描，以捕捉图像的全局信息以及原始像素之间的关系。图1详细解释了边界区域扫描机制与局部扫描机制之间的差异。

picture.image

本论文的主要贡献如下：

首次将状态空间序列模型Mamba应用于图像去阴影，并设计了一个基于U-Net的模型，称为ShadowMamba。该模型包括多个双分支选择扫描块（DSSB），其中两个分支分别捕获阴影图像的全局信息以及边界和区域的局部信息。
作者设计了一个边界区域选择扫描模块（BRSSM），它使用阴影 Mask 将划分的窗口分为阴影区域、边界区域和非阴影区域。它依次扫描这三种类型的窗口，以确保相同类型像素的语义连贯性，这有助于捕捉阴影去除所需的边界信息。
Shadowformer 在SRD、ISTD和ISTD+数据集的大部分指标上超过了最先进的方法，尤其是在处理软阴影方面表现出了显著的效果。这种新颖的架构有可能挑战在阴影消除领域中 Transformer 架构的主导地位，为研究行人提供了一个全新的视角。

II Related work

在本节中，作者介绍了图像去影的相关工作，Mamba的相关工作及其在图像修复领域的应用。

Image Shadow Removal

目前，去阴影工作除了少数基于物理建模的传统方法外，主要依赖于深度学习方法，主要基于CNN和transformer架构，其中一些模型使用如RNN和LSTM等顺序架构。

各种基于CNN的阴影去除方法如下：DHAN [35]通过优化网络结构来扩大感受野，从而实现更好的阴影去除效果。SP+M+I-Net [17]，EMDN [22]和PBID [23]采用线性照明模型，利用CNN估计阴影区域的照明参数。AEFNet [27]从自动曝光融合的角度实现阴影去除。CA-Net [18]和SG-ShadowNet [36]将从非阴影区域传递特征信息到阴影区域，实现照明信息或风格迁移以实现阴影去除。Inpaint4shadow [19]将阴影去除问题建模为图像修复和阴影去除的融合，通过微调图像修复网络实现卓越性能。BM-Net [37]利用阴影生成辅助阴影去除过程，使用不变的图像信息进行引导。BA-ShadowNet [24]利用边界信息进行阴影去除，证明了边界信息在阴影去除中的有效性。

Transformer （transformers）的注意力机制在模拟阴影和非阴影区域之间的关系以实现照明信息传递方面表现出色。SpA-former [38] 和 TSRformer [39] 通过修改网络结构实现直接阴影消除，从而扩大了感受野。CRFormer [20] 和 Shadowformer [21] 结合了 Transformer 和阴影消除的特性，利用跨区域注意力机制计算一个校正矩阵，该矩阵调整自注意力权重，从而间接实现非阴影区域到阴影区域的照明信息传递。

此外，基于上述架构的生成模型也有所应用。最近，基于扩散的阴影去除方法逐渐取代了基于GAN的方法。LFG-Diffusion [40]通过最小化阴影图像和非阴影图像的特征空间差异来获得潜在特征，因为潜在特征包含比显式特征更有用的信息。无监督模型BCDiff [25]模拟了阴影、非阴影和边界区域，并利用阴影区域的底层反射率在扩散采样过程中保持结构一致性。

State Space Models

近年来，状态空间模型（SSMs）在深度学习领域受到了广泛关注，成为CNNs和 Transformer 的有力竞争对手。SSM起源于现代控制理论，是一种描述每个时间步序列状态表示的模型，并预测其下一个状态。由于原SSM理论涉及连续函数，Hippo将其离散化，实现了并行训练和推理。S4将Hippo矩阵转换为正定矩阵和低秩矩阵，提高了计算效率。Mamba在借鉴前人工作的基础上，通过引入选择性扫描机制实现了一种新的注意力机制，能够用线性复杂度建模全局信息。通过硬件感知的算法，它提升了运行时速度，并在大多数任务中超过了 Transformer 的性能。

Mamba的出现似乎打破了 Transformer 的垄断地位，导致各种基于Mamba的工作在各个领域迅速涌现，包括文本、图像、视频以及多模态应用。Mamba的原始扫描方法设计用于一维数据，将其应用于其他领域时，忽视了相邻像素或帧之间的连续性。因此，修改其扫描方法已成为一个重要的研究焦点。为了应对视觉数据的固有非因果性质，Vim [31] 提出双向扫描并引入位置信息嵌入。Vmamba [29] 引入了一个交叉扫描模块，在2D图像空间内实现一维选择性扫描，并集成全局感受野。Plain-Mamba [32] 采用连续的zig-zag扫描模式，确保每个视觉 Token 始终与前一个扫描 Token 相邻。它还将可学习参数集成到状态方程的B矩阵中，以实现方向感知。Mamba-ND [33] 提出双向交叉扫描和多头机制，强调Mamba适应多维数据的关键要素是序列排列的设计。LocalMamba [34] 在每个窗口内执行局部扫描，然后依次扫描窗口，显著增强了模型捕捉详细局部特征的能力。它然后使用空间通道注意力模块选择最合适的扫描组合，过滤掉冗余信息。Videomamba [43] 和Vivim [44] 在处理3D数据时，提出三维（3D）双向选择扫描和时空选择扫描，通过加强帧与帧之间的语义相关性来增强模型性能。

Applications of Mamba in Image Restoration

在图像修复领域，许多任务也采用了Mamba模型并取得了显著的成果。VmambaIR [45]提出了全方向选择扫描，能够模拟不同特征维度的信息流。MambaIR [30]引入了局部增强和通道注意力机制，以提高Mamba在图像修复方面的性能。Pan-Mamba [46]采用了一种门控机制进行多输入特征融合，重点关注遥感图像的升采样。Retinexmamba [47]将整个架构分为光照估计器和损伤接收器，用于低光图像增强。FreqMamba [48]利用局部扫描扫描小波包分解频率分量图像，采用交叉扫描机制扫描原始图像，并利用傅里叶变换处理全局输入，最终产生无雨图像。这些研究突显了Mamba在图像修复领域的重要性和潜力。

III Methodology

在本节中，首先介绍了与状态空间模型相关的基本知识。接下来，呈现了ShadowMamba的整体架构，该架构由几个双分支选择扫描块（DSSB）组成，呈U-Net结构。DSSB通过两个独立的路径捕获全局信息和边界区域信息，并在合并的特征上进行通道建模，以增强模型的理解能力。最后，详细解释了边界区域选择扫描机制。这种机制使用 Mask 来区分窗口所属的区域，然后根据分类重新排列原始图像序列，对序列进行交叉扫描。

Preliminaries

SSM是一种用于描述动态系统的数学模型，它利用状态空间变量来表示系统的内部状态。在数学上，它通常通过状态方程和输出方程来表示：

picture.image

表示状态向量的时间导数，即下一个时刻的状态，矩阵和定义了状态和输入以及下一个状态之间的关系，矩阵和定义了状态和输入以及输出之间的关系。

上述过程适用于连续函数，在深度学习应用中，必须将其离散化。对于输入信号，使用零阶保持[42]，并结合时间尺度参数，将连续参数和转换为离散参数和，离散形式如下所示：

Mamba [28] 设计了一种在SSM框架中具有突出特点的选择性扫描机制。该机制可以根据不同的输入动态地调整和矩阵，使其能够自动选择重要特征。它实现了一种新颖的注意力机制，在保持线性计算复杂度的同时具有全局感受野。

Overall Architecture

选择U-Net架构[49]来设计ShadowMamba，因为它可以在不同尺度上捕捉全局特征。更重要的是，不同尺度可以获得不同的区域分类组合，从而提取有用的边界和区域信息。图2显示了ShadowMamba的整体架构。

picture.image

具体来说，给定一个阴影输入及其对应的阴影 Mask ，首先应用重叠嵌入，得到浅层特征。

然后，将这些浅层特征输入到一个由多个DSSB组成的U-Net结构中，解码输出为。最后，应用线性映射层，得到输出图像和输入图像之间的残差。

Dual-Branch Selective Scanning Block (DSSB)

DSSB 是 ShadowMamba 的核心组件，它由两个部分组成：特征提取部分和特征选择部分。

特征提取部分包括全局状态空间模块（GSSM）、边界区域状态空间模块（BRSSM）和通道状态空间模块（CSSM），它们分别负责提取全局信息、边界区域信息和通道信息。特征选择部分通过高效 FFN （EFFN）调节信息 Stream ，使用深度卷积和门控机制处理隐藏层特征。

Ii-C1 Gssm

GSSM直接展开像素并进行跨扫描，从阴影图像的多个方向捕获全局信息。它从整个阴影图像的角度获取有用的信息，同时保留原始像素关系。在具体结构设置方面，采用了Vmamba [29]中核心模块VSSB的配置。输入通过一个初始的线性嵌入层，输出被分为两个信息流。其中一个信息流经过3x3的深度卷积层和Silu激活函数，然后进入核心GSSM。GSSM的输出经过一个 LayerNorm 层处理，然后与其他信息流的输出相加，该信息流已经经过Silu激活。这种组合产生了最终的输出。

Ii-C2 Brssm

边界区域选择扫描机制（BRSSM）包括了作者设计的边界区域选择扫描机制。它使用窗口分类方法重新排序来自不同区域的像素，然后对这些窗口执行局部扫描[34]。这种机制确保了同一区域内的像素尽可能地靠近，不被来自其他区域的像素分开，从而增强了它们的语义相关性。此外，局部扫描方法更好地捕获了边界的详细信息，从而提高了阴影去除性能。在下一小节中，作者将详细解释边界区域选择扫描机制。在具体结构设置上，它与GSSM相同。将GSSM和BRSSM的输出特征合并后，它们被发送到CSSM进行下一步的通道扫描。

Ii-C3 Cssm

融合GSSM和BRSSM的融合特征产生了许多具有不同特征信息的通道，其中一些通道可能携带比其他通道更多的边界信息和张力变化，这对图像阴影消除至关重要。CSSM利用选择性扫描进行通道建模，增强了通道之间的相关性。这使得可以根据输入信息的改变实时调整和控制通道特征，确保模型可以优化其处理策略。此外，突出和加强最有益的通道特征。在特定结构方面，首先对所有通道的特征进行池化操作，然后沿着通道维度的正向和反向扫描特征。最后，使用残差方法将通道建模和空间建模的信息融合。

Ii-C4 Effn

类似于[45]，EFFN结构使用1x1卷积将特征映射到高维空间，然后使用深度卷积和注意力机制处理隐藏层特征。最后，1x1卷积被用来将特征映射回原始尺寸。通过控制信息 Stream ，EFFN可以突出重要特征并抑制无关特征。

Boundary-region selective scanning mechanism

边界区域选择性扫描机制是作者所提出方法的核心，专门用于图像阴影去除。当将2D图像展开成1D序列时，序列的排列非常重要，这一点已在许多研究中得到证实。尽管Mamba可以在长序列上进行全局建模，但如果在长序列中语义相关的像素距离较远，则可能对性能产生负面影响。换句话说，在状态空间模型中，语义相关像素越接近，建模效果越好。

阴影边界是阴影去除中至关重要信息，因此有必要确保阴影边界像素的语义尽可能连续，或者在长序列中的距离尽可能接近。对比度是阴影去除中最重要因素。在阴影图像中，由于像素的相似对比度，阴影区域内像素之间在语义上存在关联。然而，阴影和非阴影区域之间存在显著的对比度差异，这可以理解为语义关联较弱。

如果不遵循原始的Mamba[28]或V Mamba[29]扫描方法，扫描过程中，相同区域类型的像素经常被来自其他区域的像素干扰，导致阴影边界或其他区域像素在整个长序列中分散。确保同一区域像素之间的语义连贯性对于阴影消除至关重要，尤其是在边界区域。

受到LocalMamba [34]的启发，边界区域选择性扫描机制采用窗口作为排序的基本单位。这不仅允许阴影 Mask 区分阴影和非阴影区域，还分类了边界区域。然后，对重新排序的窗口进行局部扫描。这种方法确保了相同类型的像素在长序列中更接近，从而增强了它们各自的语义相关性。此外，它提高了模型对局部细节的理解，尤其是边界细节，从而增强了阴影去除性能。图3说明了边界区域选择性扫描机制的工作原理。

picture.image

具体而言，输入图像及其对应的 Mask 首先被分成大小相同的窗口。然后，阴影 Mask 窗口根据以下规则进行分类：

picture.image

表示窗口中的像素值集合。

当时，窗口内的所有像素都是0，属于类别0，表示窗口是非阴影区域的一部分。当时，窗口内包含0和1（255），属于类别1，表示窗口是非阴影区域的一部分。当时，窗口内的所有元素都是1（255），属于类别2，表示窗口是阴影区域的一部分。图(a)a也说明了作者的分类过程。对所有窗口进行分类，并将这些分类信息应用到阴影图像上，如图(b)b所示。根据类别重新排列窗口，并依次扫描非阴影区域窗口、边界区域窗口和阴影区域窗口，如图(c)c所示。这种机制采用四种扫描方法：水平、垂直、反水平、反垂直。窗口内部和窗口之间的扫描方法相同，允许更全面地捕捉边界信息。图(d)d提供了扫描序列的视觉模拟。可以看出，相同类型窗口之间的距离在长序列中较近，这种排列增强了相似像素块之间的语义相关性。此外，这种机制不像BA-ShadowNet [24]那样单独处理阴影边界，而是保留阴影和非阴影区域的内容，允许它们经历长时间序列建模。这保持了一定的相关性，并增强了模型对区域之间亮度变化的理解。

Loss Function

仅使用单一的Charbonnier损失[50]在作者的方法中用于保持像素一致性，如下公式所示：

picture.image

在此，代表真实的无阴影图像，代表预测出的图像输出。为避免数值不稳定，作者添加了一个小常数。

IV Experiments

Implementation Details

Iv-A1 Network

提出的ShadowMamba在PyTorch中实现，网络宽度为32通道。在U-Net结构中，每个层DSSB模块的数量分别为[2, 3, 3, 4, 3, 3, 2]。作者将批处理大小设置为1，边界区域选择扫描机制的窗口大小为8。训练使用RTX 4080 GPU，包括水平旋转和垂直旋转以及Mixup增强等数据增强技术[51]。使用AdamW优化器更新可学习参数，初始学习率为。使用余弦退火策略逐渐将学习率降低到。更多的实验设置请参见补充材料。

Iv-A2 Datasets

在实验阶段，作者使用了领域中常用的三个去阴影数据集：SRD [52]，ISTD [53]，和 ISTD+ [54]。SRD 数据集包括 2,680 对训练和 408 对测试的阴影和无阴影图像对，但没有提供 Mask 。类似于其他方法 [40, 21]，作者使用 DHAN [35] 提供的预测 Mask 进行训练和测试。ISTD 数据集包括 1,330 对训练和 540 对测试的三元组（阴影图像、 Mask 和无阴影图像）。由于 ISTD 中阴影和无阴影图像之间的照明不统一，ISTD+ 使用图像处理算法进行调整以解决这个问题。ISTD+ 包含与 ISTD 相同数量的三元组。

Iv-A3 Evaluation Metrics

类似于之前的工作[17, 23]，实验室颜色空间中的根均方绝对误差（RMAE）被用作评估指标。此外，峰值信噪比（PSNR）和结构相似性（SSIM）被用于评估RGB空间中的图像性能。需要注意的是，较低的RMAE表示更好的性能，而较高的PSNR和SSIM值代表更好的结果。

Comparison with State-of-the-Art Methods

所提出的ShadowMamba与最流行的最先进阴影消除模型进行了比较，包括SP+M+I-Net [17]，DHAN [35]，AEFNet [27]，CANet [18]，EMDN [22]，PBID [23]，SG-ShadowNet ，BM-Net [37]，Inpaint4shadow [19]，Shadowformer (ISTD, ISTD+ 数据集) [21]，以及LFG-Diffusion [40]。这些模型都是开源的，但由于这些研究中评估方法的不一致，如不同的评估指标或输入尺寸，比较的公平性可能受到影响。

使用统一的评估脚本来比较这些开源模型的结果集和ShadowMamba的结果集，将输入尺寸统一设置为256×256，以确保最大公平性。此外，还有一些与作者工作高度相关的非开源模型，作者直接使用了它们论文中报告的结果，包括BA-ShadowNet [24]，CRformer [20]和Shadowformer (SRD 数据集) [21]。

Iii-A1 Quantitative measure

表1、II和III分别展示了在SRD、ISTD和ISTD+测试集上的定量结果。可以看出，作者的方法在软阴影和硬阴影数据集上都展现了性能优势。

picture.image

在SRD数据集[52]上，作者的方法取得了显著的性能提升，超过了先前的最先进模型，如Shadowformer-Large[21]和Inpaint4Shadow[19]，以及最新的LFG-Diffusion[40]方法。SRD数据集具有更复杂的背景，并包含软阴影图像，这使得它非常适合ShadowMamba的边界区域选择扫描机制。通过将窗口作为基本单位，该机制可以充分捕获软阴影在不同尺度下的边界信息，从而自动区分毛毛细影、阴影和无阴影区域的亮度变化。

非边界方法在处理软阴影时，往往忽略毛毛细影，将整个阴影区域统一处理，这限制了它们的性能。在复杂背景下，阴影和非阴影区域之间的纹理相似性降低，在这种情况下，像Shadowformer[21]这样的区域照明传递方法无法充分利用其优势。相反，基于边界的方法在这些情况下通常更有效，因为它们不受复杂背景的影响，仅依赖边界信息。

在ISTD数据集[53]上，ShadowMamba相较于之前的方法实现了显著的性能提升。边界区域扫描机制利用边界先验知识来增强模型对阴影边界局部细节的理解，有效消除了边界伪影，从而提高了性能。与基于CNN的阴影去除方法相比，作者的模型专注于边界，同时也能实现全局建模，从而保持了阴影和非阴影区域的联系。与基于 Transformer 的CRformer[20]和Shadowformer-Small[21]相比，ShadowMamba在大多数指标上实现了优越性能。值得注意的是，ShadowMamba在实现全局建模的同时保持了线性复杂度，在处理高分辨率图像时具有优势。

在ISTD+数据集[54]上，与基于边界的光影去除模型BA-ShadowNet[24]相比，作者实现了在三个指标上的显著提升。这表明，与直接裁剪边界区域像素进行监督相比，同时保留阴影和非阴影区域的信息，并全局建模边界区域，使模型更好地理解区域间的亮度变化，从而更有效地平衡阴影区域的亮度恢复和去除边界伪影。

Iv-B2 Qualitative measure

为了进一步阐明ShadowMamba相对于其他方法的优势，作者在SRD和ISTD数据集上展示了视觉结果比较（如图4和图5所示）。在SRD数据集上，所提方法的视觉优势非常明显。在所有三行图像中，很明显，ShadowMamba的结果残留伪影更少，亮度更一致，对软阴影边界的处理更精细。在ISTD数据集上，与其他方法相比，所提方法在阴影边界伪影方面的差异更小，对非阴影区域的内容影响最小。如图第一行图像所示，所提方法更好地恢复了行人服装的原有颜色。

picture.image

Ablation Study

作者在ISTD数据集上针对ShadowMamba的不同变体进行了消融研究，以验证每个模块设计的效果。

Iv-C1 The effectiveness of each component

表4展示了每个组件对模型性能的影响，图6呈现了不同变体模型的视觉结果。GSSM分支是DSSB块的基石，确保了模型的性能下界。它利用交叉扫描从阴影图像的多个方向捕获全局信息，利用全局感受野从整个阴影图像的角度获取有用信息。BRSSM分支是DSSB块的关键组件。其内部区域边界选择扫描不仅捕获了阴影图像的局部信息，还增强了模型对阴影边界和区域等局部细节的理解。如表所示，添加BRSSM分支显著改善了阴影消除效果。CSSM是DSSB块的优化组件。它整合并优化了全局信息和边界区域信息的特征通道，进一步增强了模型的性能。EFFN在 Pipeline 不同 Level 之间管理信息流，添加EFFN提高了模型的性能。

picture.image

Iv-C2 The effectiveness of region boundary scanning

边界区域选择性扫描机制将窗口划分为三类：边界区域、阴影区域和非阴影区域，然后依次扫描这些类别。为了验证在阴影去除任务中这种方法的有效性，设计了两种变体模型来替换BRSSM模块，同时保持其他结构不变。表5呈现了这两种变体模型的结果。第一种变体模型，称为 Mask 扫描，使用 Mask 将图像直接划分为两个区域，并采用基本交叉扫描依次扫描这两个区域，而没有使用局部扫描。

虽然这种方法在保持区域内的语义连贯性，但它没有利用关键的边界先验信息，导致对局部细节的理解不足，尤其是在边界处。从结果来看，这种方法相比仅使用全局扫描略微提高了性能。第二种变体模型直接将连续局部扫描[34]应用于整个图像，如图(a)a所示，而不进行窗口分类。尽管这种扫描方法捕获了图像的局部细节，但它没有确保相同类型区域内的像素语义一致性，特别是在靠近边界的地方，导致性能没有显著提高。显然，将边界区域选择性扫描机制集成到性能中可以显著提高性能。这种增强是由于边界像素在长序列中更接近，并在多个尺度上有效地捕获了局部边界细节。

picture.image

Discussion

Iii-D1 The impact of mask noise

边界区域选择性扫描机制应用于提供精确阴影 Mask 的数据集。然而，对于某些不提供阴影 Mask 的数据集，通常需要使用阴影检测模型来获取 Mask 信息，例如在SRD [52]的情况下。在这些情况下，尤其是在复杂阴影场景中，噪声 inevitably 出现在 Mask 中，如图7所示。如果根据上述理想条件对区域进行分类，可能导致不准确的区域划分。尽管噪声具有一定影响，但最佳结果仍然出现在SRD数据集上。主要原因是在噪声存在的情况下，同一区域类型在长时间序列中的大多数窗口之间的距离已经非常接近，这对边界区域选择性扫描有利。此外，在具有大量噪声的场景中，CSSM强调全局扫描的通道信息，而EFFN控制更精确的边界区域扫描信息的 Stream ，这证明了作者的双分支方法在阴影去除任务中的优势。最后，作者试图通过设置阈值对窗口进行分类，例如，如果一个窗口包含95%的阴影像素，将其指定为阴影区域，但这种方法并未带来显著的改进。

picture.image

Iii-D2 ShadowMamba's advantage for high-resolution images

目前，基于 Transformer 架构的阴影消除方法已成为主流，得益于自注意力机制能够捕捉阴影和非阴影区域之间的相关性，从而促进照明信息传递。

尽管 Transformer 可以进行全局建模，但它们面临着高计算复杂性的问题。Swin-transformer通过窗口机制在某种程度上缓解了这个问题，但代价是失去了全局感受野，这会影响性能。因此，CRFormer [20] 和 Shadowformer [21]，分别基于 Vision transformer [55] 和 Swin-transformer [56]，面临相似的问题。

随着图像分辨率的提高，这些模型的计算成本呈指数增长。然而，作者的提出的 ShadowMamba 实现了全局建模，具有线性复杂度，在处理高分辨率阴影图像时具有显著优势。

参考文献

[0]. ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal.

点击上方卡片，关注「AI视界引擎」公众号