LFMamba | 基于SSM的图像超分辨率网络，超越CNN 与 Transformer ！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

近年来，由于现代神经网络的发展，光场图像超分辨率（LFSR）领域取得了重大进展。然而，这些方法通常在捕捉长距离依赖关系（基于CNN的方法）或遇到二次计算复杂度（基于Transformer的方法）时面临挑战，这限制了它们的性能。最近，具有选择性扫描机制（S6）的状态空间模型（SSM），以Mamba为例，已逐渐成为在各种视觉任务中优于传统CNN和Transformer方法的优秀选择，这得益于其有效的长距离序列建模能力和线性时间复杂度。

因此，将S6集成到LFSR中变得很有吸引力，特别是考虑到4D光场庞大的数据量。然而，主要的挑战在于设计一个适合4D光场的适当扫描方法，该方法能有效建模光场特征。

为了解决这个问题，作者在4D光场的富有信息量的2D切片上应用SSM，以充分探索空间上下文信息、补充的角信息以及结构信息。为此，作者精心设计了一个基本SSM块，该块具有高效的SS2D机制，有助于在这些2D切片上进行更有效和高效的特征学习。

基于以上两个设计，作者进一步引入了一个基于SSM的LFSR网络，称为LFMamba。在光场基准测试上的实验结果表明，LFMamba的性能卓越。

此外，作者还进行了广泛的消融研究，以验证作者提出方法的效率和泛化能力。

作者期望作者的LFMamba能为使用状态空间模型对光场进行有效的表示学习提供启示。

I Introduction

光场（LF）相机能够记录来自世界的光线的强度和方向，这使得它们在诸如深度估计[1]，重新聚焦[2]，以及显著性检测[3]等广泛而有价值的应用中发挥作用。然而，这些相机捕捉的光场图像常常牺牲单个子孔径图像（SAI）中的空间分辨率以同时捕获多个视角，这在某些应用中限制了它们的可用性。因此，有必要提高光场图像的空间分辨率，这项任务被称为光场图像超分辨率（LFSR）。

利用卷积神经网络（CNNs），Yoon等人[4]首次尝试使用SRCNN[5]来实现LFSR和光场图像角超分辨率（LFASR）。具体来说，他们首先使用SRCNN提高每个SAI的分辨率，然后通过另一个SRCNN结合相邻的高分辨率SAI进行新视角合成，以增加角分辨率。尽管与传统方法相比有了显著的改进，但单独对每个SAI进行超分辨率处理仍然不是最优的，因为它忽略了不同SAI之间丰富的角信息。随后，一系列更复杂网络的提出旨在充分利用光场固有的丰富的空间-角信息，进一步提高了重建的准确性。尽管取得了进展，但卷积的自然局部缩减偏见限制了探索光场的非局部关系。此外，静态学习的核权重使得这些网络对于具有各种未见场景的分布外输入光场缺乏灵活性。

Transformer[22]最初在自然语言处理领域引入，已证明在建模长距离依赖和根据输入动态调整权重方面是有效的。因此，它在各种视觉任务中得到了广泛应用，如图像分类[23, 24]，目标检测[25, 26]，语义分割[27, 28]，以及图像恢复[29, 30]，成为视觉领域的实际主导架构。近年来，大量基于Transformer的方法被提出以解决LFSR 。这些方法通常利用自注意力机制从不同视图[31, 33, 34]或特定的光场子空间域建立长距离的相互关系，有效挖掘全局特征，从而进一步提高重建质量。然而，自注意力计算的二次计算复杂性阻碍了它们对光场内在属性的效率和全面探索。

近期，状态空间模型（SSMs）作为一类新颖且有前景的序列建模基础架构逐渐兴起。其中，Mamba [41]作为一种具备选择性机制（S6）的SSM，使其具有基于内容的推理能力，在包括语言、音频和基因组学在内的多种模态上，其性能和效率均超过了Transformer。受到这些进展的启发，相关研究开始探索Mamba在视觉任务中的潜力，证明了Mamba在视觉领域中的可行性和优越性。

自然地，一个问题产生了：作者如何有效地将Mamba集成到LFSR中？

要回答这个问题，作者首先应该认识到主要的挑战是——设计一个合适的扫描4D光场的方法，以充分探索光场的有用信息，考虑到LF数据的高维度和复杂性。

为了解决这个问题，作者最初从不同的角度设计了三种可能的解决方案，如图1所示。第一种，也是最直接的想法是将4D光场按照不同的顺序平铺成一个1D序列。然而，考虑到总共种排列方式，要遍历整个顺序空间以确保对光场的全面建模是不切实际的，由于空间和角度标记高度交织，空间上下文和角度信息可能难以探索。第二种观点是将光场视为一个3D图像序列，并按照[45]中的顺序进行平铺，以探索图像序列之间的关系。

虽然这可能揭示相邻视图图像之间的结构信息，但这也可能未能充分利用嵌入在整个序列中的基本空间上下文和角度信息。最后，受到视觉状态空间模型[43, 47]的启发，作者可以采用Mamba对4D光场的信息性2D切片（即子孔径图像（SAI）、宏像素图像（MacPI）和极平面图像（EPI））进行独立的空间、角度和EPI特征提取，这更有效且更容易实现。

picture.image

基于以上分析，作者引入了LFMamba，一种基于SSM的新型LFSR网络。具体来说，为了在光场的2D切片上实现有效的特征提取，作者首先仔细设计了一个基本SSM块，这是LFMamba的核心组件。基本SSM块集成了作者提出的有效的SS2D，显著减少了参数，同时性能下降最小。通过在光场的2D信息切片上使用基本SSM块，LFMamba实现了对各种光场特征的彻底探索。总之，作者的贡献如下：

作者首次将状态空间模型（SSM）整合到LFSR任务中，通过在LFs的2D信息切片上采用SSM，这有助于有效且全面地探索LFs的空间上下文信息、补充的角信息以及结构信息。作者设计了一个基本SSM模块，特点是作者提出的有效的SS2D机制。作为LF的2D切片的基本特征提取器，它在几乎不损失表达性的情况下显著减少了参数数量。作者提出了一个基于SSM的网络LFMamba用于LFSR。在LF基准测试上的实验结果表明，与最先进的方法相比，LFMamba的有效性和效率。作者进一步通过将LFMamba应用于LF角超分辨率任务来展示作者方法的泛化能力。

II Related Work

Light Field Image Super-Resolution

光场图像超分辨率（LFSR），旨在提高每个子视图像（SAI）的空间分辨率，近年来受到了广泛关注。自从Yoon等人[4]首次将卷积神经网络（CNN）引入这一领域以来，已有众多基于学习的方法被提出，并展示了性能的逐步提升。受到LFCNN[4]的启发，Yuan等人[50]采用了更强大的单图像超分辨率（SISR）网络EDSR[51]来提高SAIs的空间分辨率，随后又采用了另一个EPI增强网络来优化结果。此后，提出了几个多流网络来探索不同SAIs之间的关系。Wang等人[11]设计了两双向循环网络，以迭代地模拟水平与垂直SAIs之间的空间关系。Zhang等人[12, 15]引入了一个多分支网络来学习堆叠SAIs在四个方向上的子像素位移信息。Jin等人[14]提出了一种由权重共享多流网络实现的全向一方法，该方法结合了所有视图以互补信息的提取和利用。除了这些方法，Yeung等人[13]提出了空间-角度可分离卷积（SAS-Conv）以近似4D卷积同时实现效率。Wang等人[17]和Liu等人[19]提出了LF-InterNet和IINet，其中空间和角度特征是互动提取的。Wang等人[16]利用可变形卷积将空间特征对齐到中心视图，解决了视差问题。最近，Cheng等人[20]结合了空间-角度相关卷积与SAS-Conv，并提出了空间-角度多功能卷积。Wang等人[18]为LFSR、光场角度超分辨率和深度估计提出了一种通用的光场解缠机制。Van Duong等人[21]进一步完成了[18]，同时考虑了空间间和角度间的关系。

尽管这些方法的设计和架构复杂，但性能达到了瓶颈，因为它们依赖于卷积层，由于有限的感受野能力，在利用非局部空间-角度信息方面面临关键挑战。作为回应，一些研究者开始转向Transformer架构，利用其强大的长距离依赖建模能力来突破这一限制。Wang等人[31]提出了一种双分支网络，该网络沿着水平和垂直SAI序列建立长距离依赖关系。Wang等人[33]提出了一种局部-全局聚合网络，通过结合CNN和Transformer。遵循SAS-Conv方案[13]，Liang等人[32]用Transformer层替换了卷积，从而实现了更优的性能。Wang和Lu[34]使用Transformer来学习SAIs之间的多粒度关系。Liang等人[36]提出了EPIT，它采用Transformer在学习EPI上的非局部空间-角度相关性，达到了最先进的性能。尽管结果充满希望，但二次计算复杂度和内存占用在这一领域实现高效和有效的LFSR方面提出了重大挑战。值得注意的是，Cong等人[35]提出了一种受PVT[52]启发的子采样空间Transformer来减少计算开销。然而，改进有限，计算复杂度仍然是二次的。在这一领域，更先进的亚二次复杂度注意力机制（例如，swin[24]，线性注意力[53]，flash注意力[54]）或最近具有线性复杂度的状态空间模型（SSMs）[37, 40, 41]是所需要的。

State Space Model

状态空间模型（SSMs）[37, 38, 39]，起源于经典控制理论，最近作为深度学习中进行状态空间变换的有力 Pillar 而受到关注。它们在长距离依赖建模中与序列长度线性扩展的显著特性，引起了研究者的极大兴趣。例如，结构化状态空间序列模型（S4）[37]是深度状态空间建模在长距离依赖方面的开创性工作。随后，基于S4并引入了MIMO（多输入多输出）和高效并行扫描的S5层[38]被提出。此外，H3[40]也取得了令人鼓舞的结果，缩小了SSMs和Transformers在自然语言处理方面的性能差距。Mehta等人[55]将门控单元集成到S4中，进一步推进了S4的改进，并导致了门控状态空间层的开发。S4nd[56]是扩展SSMs适用性到连续数据域（如图像和视频）并弥合序列与空间建模之间差距的先驱。最近，Mamba[41]，一种具有选择性机制（S6）和高效硬件设计的数据相关SSM，在自然语言处理任务中超越了Transformers，同时展示了与输入长度线性扩展的特性。随后，许多研究将Mamba引入到各种视觉任务中，包括图像分类，生物医学图像分割，以及图像恢复[46, 47, 48]，并在准确性和效率方面取得了可比较或更优的性能。

III Method

在本节中，作者首先介绍光场的状态空间模型（第III-A节）。然后在第III-B节中详细阐述LFMamba的整体架构。之后，作者详细说明LFMamba如何通过作者提出的基本SSM块学习空间-角度特征（第III-C节）和结构特征（第III-D节）。接着，在第III-E节中，作者详细介绍了基本SSM块。最后，在第III-F节中，作者总结了使用LFMamba实现LFSR的总体算法。

State Space Model for Light Field

状态空间模型（SSM）是一种线性时不变系统，它将一维连续模拟映射到响应，这个过程可以通过线性常微分方程（ODEs）来表述

其中输出来源于输入信号和隐藏状态，系统的参数包括状态转移矩阵，以及投影矩阵和。为了将SSM整合到深度学习中，需要对ODEs进行离散化处理，在S4 [37]中，和通过零阶保持（ZOH）进行离散化，以生成使用时间尺度参数的离散参数和

离散化后，方程（1）的离散版本可以重写为，

最后，输出可以以全局卷积形式计算，这使得训练可以高效地并行化。

分裂的核如下： [\mathbf{\bar{K}} = (\mathbf{C}\mathbf{\bar{B}}, \mathbf{C}\mathbf{\bar{A}}\mathbf{\bar{B}}, \cdots, \mathbf{C}\mathbf{\bar{A}}^{\mathbf{L}-1}\mathbf{\bar{B}}),] [y = x * \mathbf{\bar{K}}] 其中是输入序列的长度，而表示结构化的卷积核。

到目前为止，SSM的离散化促进了有效的训练，但由于其数据独立和时间不变的性质，在内容感知压缩方面受到限制。因此，选择性的SSM（Mamba或S6）[41] 引入了数据相关参数，这些参数通过一个简单的线性投影层从输入数据中导出，确保它对嵌入在输入数据中的上下文信息有所了解。

然后，每个2D光场（LF）切片可以被投影到高维空间，并展平以生成一个1D序列，这作为SSM系统的输入。以为例，作者首先将其投影以生成高维特征。每个然后被重新塑形为一个长度为的1D序列，即。随后，可以像方程(3)中的一样输入到SSM系统中，以预测相应的输出。通过这种方式，有效地提取了光场（LFs）的空间上下文信息。因此，可以对，和执行类似的处理，以充分利用光场（LFs）的角信息和结构信息。

基于上述原理，作者引入了一个基本的SSM块（见第III-E节），它将这些2D切片嵌入作为输入。作者进一步开发了一个基于此的新型SSM网络，称为用于光场超分辨率（LFSR）的LFMamba，作者将在下一部分详细介绍LFMamba。

Overview of LFMamba

对于LFSR问题，给定一个低分辨率的光场（LF）图像，LFSR的目标是重建一个高分辨率的光场图像，其中是放大因子。遵循先前的工作 [18, 32]，光场图像被组织成一个子孔径图像数组，并将其转换为YCbCr颜色空间，只对Y通道进行超分辨率处理。

如图2(a)所示，LFMamba主要由四个部分组成：初始特征提取模块（IFE），空间-角度特征学习模块（SAFL），光场结构特征学习模块（LSFL），以及高分辨率光场重建模块（HLFR）。具体来说，遵循 [32]，输入的光场图像首先通过级联卷积层处理以提取初始空间特征，其中表示通道维度，在作者的实现中设置为64。然后，这些特征将传递到SAFL模块以捕获空间上下文特征和补充角度信息。之后，中间特征将被LSFL模块处理以融合光场的结构信息生成。随后，作者通过连接以上三个特征，并使用卷积层来实现多级特征利用。

picture.image

最后，遵循大多数先前的工作 [18, 32, 36]，融合特征将通过像素混洗层和卷积层生成最终的HR LF图像。

Spatial-Angular Feature Learning

SAFL模块致力于全面整合LF中固有的空间上下文信息和补充的角向信息。为此，作者设计了一个空间SSM块和一个角向SSM块，并采用了一种简单但有效的空间-角向可分离建模方案[13, 32]，如Fig. 2(a)所示，空间SSM块和角向SSM块交替使用三次，并带有局部跳跃连接。

其中表示SAFL模块，和分别代表空间SSM块和角向SSM块。

空间SSM块旨在提取每个单独SAI的空间上下文信息。具体来说，对于一个给定的输入4D光场特征，作者首先将其 Reshape 为其2D SAI形式，以方便更有效的空间特征提取，其中表示批量大小。在此之后，采用两个基本SSM块（见图Fig. 2(b)和第三节E部分的详细介绍）进行空间特征提取。之后，将特征 Reshape 回其4D形式以进行进一步处理，可以表示为

其中和表示增强后的特征，表示基本SSM块。

角向SSM块采用了类似的处理方法，作者将输入的4D光场特征 Reshape 为2D宏像素形式（即），通过另外两个基本SSM块进行角向特征学习，并最终将特征 Reshape 回其4D表示。

LF Structure Feature Learning

在提取了光流场（LFs）的空间上下文信息和互补的角信息之后，进一步挖掘LFs的结构属性对于重建准确的高分辨率LF图像至关重要。在LSFL模块中，作者根据水平方向和垂直方向的EPI与场景深度的高度相关性，经验性地采用基本的结构感知模块（SSM）块来利用LF的结构信息。如图2(a)所示，在LFSL模块中，作者交替进行三次EPI-H和EPI-V SSM块以实现LF结构学习。EPI-H/V SSM块也遵循之前的流程，将输入的LF特征 Reshape 为相应的形式（即，），然后输入到基本的SSM块中。与[36]类似，作者在水平和垂直EPI SSM块之间共享参数。然后，作者将详细介绍LFMamba的核心组件，即基本的SSM块。

Basic SSM Block

作为LFMamba的基本组成部分，基本的SSM块负责有效地建立每个2D LF切片的长距离依赖关系，作为Transformer块的替代。如图2(b)所示，遵循Transformer的设计理念，基本的SSM块采用了两阶段结构。在第一阶段，给定一个输入的2D特征（省略了批量维度），作者使用了一个LayerNorm（LN）操作，然后是作者的提出的有效的S6块来建立每个像素的长距离依赖关系，并且在输入和输出之间采用可学习的 Short-Cut ，缩放因子为。

接下来，在第二阶段，作者对进行LayerNorm归一化，遵循[47]，作者使用一个卷积（Conv）层来捕捉局部细节，然后是一个通道注意力（CA）层来增强通道交互。最后，在这一阶段作者也使用了一个可学习的缩放因子来进行残差学习。

高效的S6。最初的Mamba是在1D序列的休闲建模中引入的，这提出了显著的挑战。如图2(c)所示，高效的S6块遵循在[43]中引入的视觉状态空间（VSS）块的设计范式，该范式采用双流结构。尽管[43]展示了强大的建模能力，但作者惊讶地发现，直接使用VSS块[43]中的原始SS2D与具有更多参数的现有领先方法相比，只能实现次优结果。简单地通过增加更多层或扩展通道维度来提高性能，将导致模型尺寸增大和执行时间延长，这是不令人满意的。为此，作者提出了一个新颖的高效SS2D（ESS2D）机制，并将其集成到高效的S6块中。因此，对于给定的输入特征，高效的S6的整个过程可以描述为

其中SiLU表示sigmoid加权线性单元激活函数[59]，DWConv表示深度卷积，表示哈达玛积。

如图3所示，上面的子图展示了在[43]中提出的原始SS2D。为了便于建模非因果的2D图像，SS2D将输入特征复制四次，每个副本都会以不同的顺序展平成1D序列以进行长期依赖学习。最后，通过将它们相加可以得到输出。相比之下，ESS2D沿着通道维度将输入数据分为四组，然后每个数据组在四个方向上展平成1D序列以进一步提取特征。最终，每个数据序列恢复到原始的2D数据并拼接在一起。这种简单的变化显著减少了参数数量，这主要发生在图2(c)中的两个线性投影层，同时牺牲的学习能力很少。这使得作者可以在空间/角度/EPI-H/V SSM块中最终级联两个基本的SSM块，以进一步增强建模能力。

picture.image

值得注意的是，作者提出的ESS2D与[57]中的并行视觉曼巴层（PVM）相似，但也存在一些主要差异。首先，PVM同样沿着通道维度将输入数据分为四组，但四个部分的扫描顺序是相同的。其次，PVM是一个配备有四个并行曼巴块的多分支结构，曼巴块对应于作者提出的有效S6块，这意味着在[57]中的输入划分操作发生在送入曼巴块之前，而作者的操作发生在有效S6块内部。关于PVM的更详细介绍，请参考[57]。

Algorithm of LFMamba for LFSR


        
          
1: Input:  
   Light field image L with dimensions H x W x S x V;  
   Low-resolution image I with dimensions H x H;  
  trade-off parameter α.  
  
2: Initialize:  
   Registers R1 and R2 with the same dimensions as I;  
   R1,I are initialized with the same value, and R2 is initialized to zero.  
  
3: Perform the following steps iteratively for t = 0 to T-1:  
   3.1: Compute the gradient ∇ of I:  
        ∇ = ∇x(I) + ∇y(I).  
   3.2: Update R1 and R2:  
        R1 = R1 - α * ∇.  
   3.3: Compute the light field image LSR using R1 and R2:  
        LSR = LFMamba(R1, R2).  
   3.4: Compute the gradient ∇ of LSR:  
        ∇ = ∇x(LSR) + ∇y(LSR).  
   3.5: Update R2:  
        R2 = R2 + α * ∇.  
   3.6: Compute the high-resolution image IHR from the light field image LSR:  
        IHR = HRRenderer(LSR).  
  
4: Output:  
   High-resolution image IHR.

算法1 LFMamba用于光场图像的超分辨率

picture.image


        
          
1: 输入：  
   光场图像L，维度为H x W x S x V；  
   低分辨率图像I，维度为H x H；  
   权衡参数α。  
  
2: 初始化：  
   寄存器R1和R2，其维度与I相同；  
   R1和I初始化为相同值，R2初始化为零。  
  
3: 对以下步骤进行迭代，对于t = 0到T-1：  
   3.1: 计算I的梯度∇：  
        ∇ = ∇x(I) + ∇y(I).  
   3.2: 更新R1和R2：  
        R1 = R1 - α * ∇.  
   3.3: 使用R1和R2计算光场图像LSR：  
        LSR = LFMamba(R1, R2).  
   3.4: 计算LSR的梯度∇：  
        ∇ = ∇x(LSR) + ∇y(LSR).  
   3.5: 更新R2：  
        R2 = R2 + α * ∇.  
   3.6: 从光场图像LSR计算高分辨率图像IHR：  
        IHR = HRRenderer(LSR).  
  
4: 输出：  
   高分辨率图像IHR。

IV Experiment

Dataset and Implementation Details

遵循先前的工作[16, 18]，作者选择了五个LFSR基准测试（即，EPFL[61]，HClold[62]，HClnew[63]，INRIA[64]，STFgantry[65]）用于训练和评估。更具体地说，作者从原始的LFS中使用了中心的子孔径图像，并将它们裁剪为和的 Patch 用于和的超分辨率，然后通过双三次下采样生成低分辨率的 Patch 。数据增强是通过随机90度旋转以及水平和垂直方向的翻转来进行的。作者选择损失作为作者的损失函数，Adam作为作者的优化器，其中和。初始学习率设置为，并在总共60个周期内每15个周期减半。批量大小设置为2进行训练。所有实验都在一台配备RTX 2080 Ti GPU的PC上进行。

Comparison to state-of-the-art

作者将作者的方法与十五种最先进的方法进行了比较，包括一种单图像超分辨率方法[60]，十种基于CNN的光流场图像超分辨率方法[12, 13, 14, 15, 16, 17, 18, 19, 20, 21]以及四种基于Transformer的光流场图像超分辨率方法[31, 32, 35, 36]。作者使用PSNR和SSIM作为定量评价指标来评估性能。对于一个包含个场景的数据集，作者首先得到每个场景个SAIs的平均指标，然后通过平均个场景的指标来得到这个数据集的指标。

定量结果。表1展示了作者的方法与其他最先进方法之间的定量比较。LFMamba在五个数据集上的和超分辨率方面均取得了具有竞争力的结果，同时保持了适中的模型大小。总体而言，在超分辨率方面，LFMamba与LF-DET [35]的表现非常接近，平均PSNR仅低0.03dB，但平均SSIM高0.0007。而对于更具挑战性的超分辨率，LFMamba在PSNR上平均高出0.14dB，在SSIM上平均高出0.0009。特别值得注意的是，在具有更复杂结构的真实世界光流场数据集EPFL和INRIA上，LFMamba的性能显著提高，这突显了LFMamba有效探索光流场内在结构的能力。然而，值得注意的是，在具有大视差的数据集上，LFMamba的性能有些不稳定。例如，在HCInew数据集（视差范围：[-4, 4]）上，超分辨率方面，它比LF-DET高出0.14dB，但在STFgantry数据集（视差范围：[-7, 7]）上，它分别落后于LF-DET和EPIT 0.29dB和0.33dB。为了解决这种不平衡，作者采用了几何组装策略来进一步提高整体性能并缩小在STFgantry数据集上LFMamba、EPIT和LF-DET之间的性能差距，这为和超分辨率分别带来了平均PSNR 0.17dB和0.15dB的提升。

定性结果。作者还展示了不同方法在更具挑战性的超分辨率任务上取得的定性结果。如图4所示，LFMamba 在恢复锐利边缘和复杂纹理方面表现出色，这是大多数竞争方法无法比拟的。例如，在 EPFL 数据集中的 ISO_Chart_1 场景中，许多方法在重建数字 '2' 和 '3' 之间的水平线时遇到困难，而 LFMamba 则有效地完成了这项任务。在 EPFL 数据集中的 Red&White_Building 场景中，作者可以观察到只有作者的 LFMamba 能够重建清晰完整的禁止停车标志的斜红线。在 HCnew 数据集中的 Origami 场景中，LFMamba 成功恢复了红色罐子上的斑点和线条，表明了 LFMamba 的有效性。

picture.image

计算效率。为了评估 LFMamba 的计算效率，作者比较了不同最先进模型在超分辨率任务上的模型参数、FLOPs、内存消耗和推理时间。对于参数和 FLOPs，如表格 I 所示，与基于 CNN 的前三种方法，即 IINet [19]、DistgSSR [18] 和 HLFSR [21] 相比，作者的 LFMamba 在参数或 FLOPs 更少的情况下取得了更好的性能。与基于 Transformer 的方法相比，尽管 LFMamba 具有更多的网络层，但作者的 LFMamba 仍然保持了适中的模型大小，这归功于作者提出的高效的 S6 块。

在推理时间和内存消耗方面，作者通过平均五个测试数据集中的23个场景的推理时间来评估这些指标，并在GPU上测量峰值内存使用量。由于卷积操作本质上由于计算复杂性和现代GPU加速算法而比自注意力计算更高效，作者选择了一种基于CNN的方法，DistgSSR [18] 作为 Baseline 模型，以及其他基于Transformer的方法和作者的LFMamba进行比较。结果如图5所示，作者的LFMamba在性能和效率之间取得了良好的平衡。总的来说，LFMamba的推理时间快于LFT和LF-DET，与DPT相当。然而，LFMamba与EPIT之间仍存在差距，因为EPIT在具有较小特征尺寸的EPIs上采用自注意力，而且EPIT只有十个Transformer层，而作者的LFMamba有24个SSM层。此外，LFMamba消耗的可接受内存占用（由圆圈大小反映）表明，它可以在有限资源的条件下有效地超分辨率LF图像。需要注意的是，所有模型的推理都是在相同的环境下使用Nvidia 2080Ti GPU进行的。

picture.image

Ablation Study

LF结构特征学习。如前所述，LF的结构特征对于重建高分辨率LF图像是不可缺少的。为了探究作者提出的LFMamba的有效性，作者开发了三种模型变体。

首先，作者移除了所有的EPI-H/V SSM块，并构建了一个带有五个空间-角度SSM块的模型，记为'w/o EPI'以说明LF结构学习的必要性。

其次，作者通过学习双向子孔径图像序列的关系，如图1中间所示，进行LF结构学习，记为'w/3D'。最后，作者颠倒了空间-角度特征学习和LF结构学习的顺序，记为'w/ reverse'以研究空间-角度信息和LF结构学习顺序的影响。

从表2的前三行可以看出，首先，缺乏LF结构学习导致大多数数据集上的性能下降，尤其是对于真实世界数据集（即，EPFL，INRIA）。其次，从3D图像序列的角度学习LF结构信息有助于探索STFgantrty数据集，而在其他数据集上则是次优的。因为当视差较小时，空间和角度信息在恢复细粒度细节方面贡献更多。第三，优先提取空间-角度信息，表明在空间-角度特征学习之后，可以最大化LF结构学习的有效性。

picture.image

Mamba 与 Transformer的比较。作者开发了三种模型变体'w/ LFT'，'w/ EPI'和'w/ LFT_EPIT'，以研究Mamba和Transformer之间的性能比较。具体来说，'w/ LFT'意味着作者用LFT [32]中的空间和角度Transformer替换空间和角度SSM。'w/ EPI'意味着作者用EPIT [36]提出的非局部Transformer块替换EPI-V/H SSM。而'w/ LFT_EPIT'表示两者都发生。从表2的中间三行可以看出，在空间和角度上使用Transformer导致除了STFgantrly有小幅改进外，整体性能下降。非局部Transformer块的集成给STFgantry数据集带来了显著的鲁棒性，但也不能避免在其他数据集上的性能下降。

多级特征融合策略。作者通过引入两种模型变体来探索多级特征（即，和）使用的影响。首先，作者不使用特征融合，记为'w/o fusion'。这导致整体性能下降，但令人惊讶的是，这对STFgantry数据集有益，表明多级特征的使用促进了内在LF信息的探索。其次，作者用元素求和操作替换拼接操作，作者发现这甚至比'w/o fusion'的结果还要差，证明了作者多级特征融合策略的有效性。

图6：通过使用不同LFSR方法生成的 SR LF图像，SPO [66]实现的深度估计结果。选择均方误差乘以100（MSE 100）作为定量指标。

picture.image

基本SSM块的数量。作者进一步探讨了空间/角度/EPI-H/V SSM块中基本SSM块数量的影响。如表3所示，在 SR任务上，当作者使用一个基本SSM块时，模型已经达到了与EPIT [36]平均PSNR相同的性能，但参数更少，FLOPs更低。然而，使用三个基本SSM块未能带来一致的改进。因此，作者在LFMamba中最终使用了两个基本SSM块。

picture.image

Angular Consistency

作者还从以下三个角度研究了不同模型的角度一致性。首先，作者通过重建EPIs的忠实度来衡量角度一致性。如图4所示，例如在EPFL数据集中的_ISO_Chart_1_场景，所有其他方法重建的EPI左半部分呈现出了走样结果，而作者的结果则更平滑，这得益于LF结构学习。其次，作者使用SPO [66]算法进行深度估计的超分辨率结果来衡量角度一致性。作者从具有真实深度图的HClold数据集中选择了_buddha_和_monasRoom_作为测试目标，并使用均方误差作为定量指标。如图6所示，在_monasRoom_场景中，作者的LFMamaba获得了最佳分数，在_buddha_场景中获得了第二高分，这表明了高的角度一致性。最后，作者通过比较一些代表性场景的所有视图的PSNR分布来评估超分辨率的角度一致性。如图7所示，作者的LFMamba在获得低标准差的同时能实现卓越的性能，表明LFMamba可以在所有角度视图中重建高质量的高分辨率LF图像，展示了其高的角度一致性。

picture.image

LFMama for LF Angular SR

为了研究作者提出方法的泛化能力，作者通过简单修改HR LF重建模块并保持其他部分不变，将作者提出的LFMamba应用于LF角度超分辨率（LFASR）任务。具体来说，作者以 LFASR任务为例，在得到深度融合特征（即）之后，在角度维度上执行一个没有填充的卷积，以生成角度稀疏下采样特征。然后，应用一个卷积，随后是像素Shuffle操作，以生成最终的输出。

按照[18, 67]中的方法，作者为实验选择了两个数据集HClold [62]和HClnew [63]，这两种都是基于CNN的网络。表4中显示了定量结果，尽管LFMamba-ASR在两个数据集上的模型尺寸最小，但它在这两个数据集上取得了最佳的PSNR/SSIM平均分数。从误差图中可以看出，LFMamba-ASR能够更准确地重建中央视图的SAI。在选择的挑战性场景“dishes”和“stillLife”中，LFMamba-ASR重建的中央视图SAI显示出更少的伪影。这些结果证明了作者提出方法的有效性和泛化能力，利用SSM学习LF特征的能力。

picture.image

V Limitations and Future Work

尽管LFMamba相较于现有的领先LFSR方法展现了其竞争力，但它仍然存在一些局限性，并且可以通过更细致的设计来进一步改进。例如，作为一个纯粹基于SSM的网络，当视差较小时，LFMamba擅长恢复锐利的边缘和细粒度纹理，但在视差增大时遇到了障碍。实验结果表明，在基本的SSM模块上进行更稳健的改进，或者SSM与Transformer的结合是值得尝试的。此外，由于这项工作主要关注于扫描方法获取LFs，未来研究可以更广泛地考虑探索其他先验知识，例如LFs的频域分析。

VI Conclusion

在本工作中，作者将最近先进的Selective State Space Model，即Mamba，集成到光场图像超分辨率（LFSR）中。作者从分析可能的方法开始，最终选择在LFs的信息丰富的2D切片上应用Mamba，以全面探索空间上下文信息、补充角信息以及LF结构信息。

基于此，作者提出了LFMamba，一个基于作者提出的基本SSM块的纯SSM网络，其特点是所提出的有效的SS2D机制，这使得高效且有效地探索丰富的LF信息成为可能。

广泛的实验证明了LFMamba在性能和效率方面与基于最新卷积神经网络和Transformer的LFSR方法的竞争力。

作者进一步通过将LFMamba应用于LFASR任务来探索作者方法的一般化能力，并取得令人鼓舞的结果，进一步表明作者提出的方法可以从表征学习的角度有效地学习内在的LF特征。

参考

[1].LFMamba: Light Field Image Super-Resolution.

点击上方卡片，关注「AI视界引擎」公众号