Mamba 模型研究综述 | 从 CNN 到 ViT 再到 Mamba ,推动计算机视觉进步 !

图像处理机器学习数据库

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

正在出现的Mamba方法成为了一种新颖的方法,可以克服计算机视觉领域中卷积神经网络(CNNs)和视觉 Transformer (ViTs)所面临的挑战。

尽管CNNs在提取局部特征方面表现出色,但它们往往在不需要复杂架构修改的情况下难以捕捉长程依赖关系。

相比之下,ViTs有效地模拟了全局关系,但由于其自注意力机制的四次方复杂度,它们在计算成本方面存在高问题。

Mamba通过利用选择性结构状态空间模型有效地捕获具有线性计算复杂度的长程依赖关系来解决这些限制。

本调查分析了Mamba模型的独特贡献、计算效益和应用,同时确定了挑战和潜在的未来研究方向。

作者为推进计算机视觉领域对Mamba模型的理解和增长提供了基础资源。

有关这项工作的概述可以在https://github.com/maklachur/Mamba-in-Computer-Vision 中找到。

  1. Introduction

深度学习的进化极大地推进了计算机视觉领域,其中卷积神经网络(CNNs)(Wang等人,2019年)发挥了关键作用。CNNs通过卷积层捕捉多个尺度上的特征并构建空间层次,实现了从像素数据中直接学习复杂模式。尽管取得了成功,但CNNs在捕捉长程依赖性方面存在固有的挑战,这需要更深层次和更复杂的架构,这会增加计算成本并降低效率。

为了提高序列建模和全局上下文理解,循环神经网络(RNNs)[126]最初被开发,随后引入了 Transformer (Transformers),在深度学习领域取得了重大突破。尤其是具有长短时记忆(LSTM)单元的RNNs,在处理顺序数据时提高了捕获时间依赖的能力。然而,它们的顺序性质限制了并行处理,降低了速度并降低了可扩展性[22, 53]。

通过其自注意力机制, Transformer 通过允许模型动态优先考虑输入数据的不同部分[142],克服了这一限制。为了处理图像,开发了 视觉 Transformer (ViTs),并将其视为一系列的 Patch ,比卷积神经网络[120]更有效地捕获全局依赖性。然而,尽管ViTs在各种计算机视觉任务中表现出强大的性能,但由于其自注意力机制的四次方复杂度,特别是在高分辨率和实时应用中,面临计算效率的挑战。

混合模型应运而生,以解决传统架构的局限性,通过将CNNs、RNNs和Transformer的优势集成到计算机视觉任务中。例如,卷积长短时记忆网络(卷积LSTM)[133]通过在LSTM单元内集成卷积操作,增强了模型捕捉空间-时间关系的能力。同样,MobileViT将CNN的局部特征提取与Transformer的全局上下文建模相结合[106]。混合架构旨在实现高性能和计算效率之间的平衡,但由于组件优化的要求,增加了复杂性。

最近,状态空间模型(SSMs) 受到了关注,作为一种有前途的替代方案,尤其是在处理具有长期依赖关系的时间序列数据时,有效地管理长程依赖关系至关重要 。在这个领域,结构化状态空间序列(S4) 模型是一个显著的发展,它利用状态空间表示来实现线性计算复杂度。因此,长序列可以有效地处理,同时保持精度 [39]。S4 模型通过集成循环和卷积操作来实现这一目标,这有助于减少序列建模通常 associated 的计算需求。

基于SSMs的基础原则,Mamba模型[37]在序列建模方面实现了重大突破。Mamba将状态空间理论与先进的深度学习技术相结合,使用选择性状态表示,该表示根据输入数据动态调整。

这种选择性状态机制可以动态过滤掉次要信息,专注于输入序列的最相关部分,从而降低计算开销并提高效率[37]。Mamba架构采用了一种面向硬件的、基于扫描的算法,专为GPU优化,避免了传统卷积SSM的低效性。这使得训练和推理更快,能够更有效地处理视觉数据,并实现计算机视觉的转型方法[203]。

Mamba模型在视频处理[8]、长时序序列处理[12]、远程感知[12]、大型空间数据集处理[159]以及高效精确的高分辨率数据处理[159]等任务中具有特别优势。卷积神经网络(CNNs)和 Transformer (Transformers)由于高计算需求面临可扩展性问题,而Mamba模型通过提供线性可扩展性[12],在序列长度上实现线性扩展,使其成为实时和大规模应用的理想选择。

将状态空间原理与选择性注意力机制相结合,Mamba模型为处理复杂视觉任务提供了稳健的方法,使计算机视觉解决方案更加高效和可扩展。图1(a)定性比较了CNN、Transformer和Mamba框架,图1(b)基于各种指标在ImageNet-1K[124]数据集上提供了定量比较。

picture.image

虽然最近的一些调查论文已经探讨了Mamba模型的各种方面,例如SSMs[154],在计算机视觉[93, 170, 188]中的应用,以及医学图像分析[52]等,但作者的论文通过在模型分类、扫描方法、应用领域、与CNNs和Transformer的比较分析以及未来方向等方面展现出独特的视角,如表1所示。

picture.image

作者的工作主要贡献如下:

  1. 作者对计算机视觉中的Mamba模型进行了全面的概述,突出了它们的独特特征,并对其进行了与CNNs和Transformer的比较分析。

  2. 作者提出了一种新型的分类方法,根据计算机视觉中的应用领域对Mamba模型进行分类,以指导研究行人根据自身需求选择合适的模型。

  3. 作者展示了Mamba模型核心组件(扫描方法)的优势和劣势,以及它们的具体应用场景。

  4. 最后,作者概括了Mamba模型中的关键挑战,并提出了未来研究的方向,以进一步提高它们在计算机视觉领域的应用。

  5. Taxonomy of Mamba Models


2024年初,Mamba在视觉任务上的适应性开始发展,出现了如VMamba(Vim,2020)和Vision Mamba(Vim,2020)等模型。这些初始模型推动了视觉处理领域的边界,为复杂挑战提供了高效的解决方案。为了方便未来研究者,作者开发了一个全面的分类法,如图2所示。这种分类突显了基于Mamba模型的广泛应用,涵盖了九个类别,在医学图像分析方面做出了重要贡献。

picture.image

  1. Overview of Mamba Models

在本节中,作者提供了基于Mamba的视觉模型的基本流程,如图3所示。该流程从输入图像的修补开始,然后进行一系列扫描操作,旨在提取多尺度特征。

修补后的图像经过Mamba块,该块通常由线性投影、卷积层、SiLU激活和SSM操作组成,以提取最佳特征。根据具体任务,许多模型然后集成CNN和transformer块以提高性能。现在,作者将在下一节中探讨Mamba块的内部工作原理。

picture.image

Fundamentals of Mamba Models

本文节主要概述了Mamba模型的结构和关键技术细节。

3.1.1. State Space Model

SSMs(序列模型)是深度学习中的一个基本模型类别,专门针对序列数据。这些模型将一个一维的输入序列 ,存在于实向量空间 中,映射到同一空间中的输出序列 ,通过一个中间潜在状态 ,存在于 中。这些模型的动态由一组线性变换(Song等人,2017年)控制,由以下方程描述:

picture.image

在这里,, 和 是适当维数的系统矩阵,分别规定状态转移、输入和输出映射。这些矩阵定义为 ,,和 。

对于实际应用,连续时间模型需要转换为离散时间模型以在数字系统中实现。这种离散化通常通过零阶保持假设实现,即在采样时间尺度(正实数)上,将连续时间系统参数和转换为它们的离散对应物。离散化后的系统表示为:

picture.image

翻译:产生的离散模型方程为:

picture.image

为了提高计算效率,可以通过全局卷积操作同时计算整个序列的输出,从而提高可伸缩性和处理速度。这可以表示为:

picture.image

其中 表示卷积操作, 表示序列的长度, 是从 SSM(Simple Stack Machine)推导出的核,专门用于高效处理序列。

3.1.2. Selective State Space Model

基于传统的SSM框架,名为“Mamba”的Selective SSM(Song等人,2017)引入了一种动态和自适应机制来管理连续状态之间的交互。与传统SSM所使用的固定转换参数和不同,Mamba模型具有输入相关的参数,从而实现了更灵活和语境 Aware 强的参数化。

在Mamba模型中,参数和并不是静态的,而是作为输入序列的函数进行计算。这种动态计算使得模型可以根据输入序列的具体情况自适应其行为,从而提供更精细的数据理解和处理。这些参数的维度为和,其中、和分别表示批量大小、序列长度和状态数量。Mamba模型保证了序列长度上的线性可扩展性,并展示了在各种领域(特别是计算机视觉任务)上的强大性能。

Vlamba(Vlamba,2017)和Vision Mamba(Vim) (Vlamba,2017)首次通过将图像转换为2D patches并采用各种扫描技术,将Mamba应用于视觉任务。Vlamba采用交叉扫描,沿着水平和垂直轴处理图像块,而Vim将图像视为一序列的扁平2D patches,并使用位置嵌入应用双向SSM。

然而,这些初始模型在与全相位ViT模型竞争时面临挑战,特别是在捕捉空间关系和高效处理高分辨率图像方面。

为了解决这些挑战,后续出现了许多工作,扫描已成为基于Mamba框架的框架的不可或缺部分。它在有效捕捉输入图像不同部分的时空关系和上下文信息方面起着关键作用。

Scanning Methods in Mamba

扫描是Mamba中的一个关键过程,将2D视觉数据转换为1D序列以实现更高效的模型处理,同时出现了各种方法来在保证空间完整性与计算效率的同时兼顾准确性。

不同的扫描技术在Mamba模型中具有不同的目的。例如,局部扫描(Vlamba,2017)将图像划分为较小窗口,并独立处理每个窗口。这种方法保留了局部细节,但可能无法捕捉到图像的更广泛上下文。

相比之下,全局扫描 在一次遍历中处理整个图像,捕获更广泛的模式,但可能错过更精细的细节。

多头扫描将图像块分割为多个子空间,使得模型能够捕捉复杂模式的同时管理计算资源。另一方面,双向扫描同时处理图像的水平和垂直方向。这种方法有效地捕获了空间信息,但需要更多的计算资源。

为了说明各种遍历路径,图4提供了扫描技术如顺序、折线、螺旋、径向和希尔伯特曲线扫描的全面概述。顺序扫描,无论是水平还是垂直,都是直接但可能难以捕捉长程依赖性。折线扫描通过在每行或每列之后改变遍历方向来平衡局部和全局信息。螺旋和径向扫描强调全面覆盖,从中心向外或从边缘向内移动。它们在医疗成像和遥感等应用中特别有用,其中详细的空间分析至关重要。

这些不同的遍历路径使Mamba模型能够适应不同数据集的特征和各种任务的要求。这些基本方法可以组合成更复杂的扫描方法,如图5所示。例如,作者可以通过将顺序扫描(图4(行A))的第一、二、五和七列与折线扫描(图4(行C))的第三、二、八和五列相结合,推导出全向选择扫描(图5(f))[135; 196]。

picture.image

picture.image

扫描技术可以通过结合不同的遍历方向(局部、全局或空洞)与连续或不连续的模式进行增强。这种适应性优化了局部和全局特征的捕捉。例如,空洞扫描(也称为高效或跳过扫描)使用跳过机制来捕捉细粒度细节,同时保持计算效率。与其他扫描技术(如顺序或之字形)结合使用时,它可以提供更优的空间理解。

图5展示了Mamba模型中实现的几种扫描方法,每种方法都具有独特的权衡。视觉Mamba [203],VL-Mamba [118]和Motion Mamba [194]都采用了双向扫描(图5(a)),通过水平和垂直地遍历图像块来捕捉全局上下文。这种方法有效地捕获了全局上下文,但计算成本很高。

同样,Vivim [178]采用了空间-时间选择性扫描,将3D双向扫描(图5(b))[73]扩展到引入时间维度。这种方法在视频处理中捕获了空间和时间特征,但计算成本也很高。VL-Mamba [118]使用Cross-scan(图5(c))来捕获不同的空间特征。VMamba [94]和VMRNN [140]使用了一种相似的技术,称为2D选择性扫描(SS2D),从四个方向向中心扫描。

其他方法更注重更有效地平衡局部和全局上下文。LocalMamba [59] 和 FreqMamba [197] 使用局部扫描(图5(d)),也称为窗口选择扫描。这种方法将图像划分为小窗口,捕捉局部依赖性,但可能错过全局上下文。ZigMa [55] 采用Zigzag扫描(图5(e)),以Zigzag模式进行,以捕捉多样化的空间特征。然而,在融合特征时,这种方法可能具有很高的计算需求和复杂性。VmambaIR [135] 和 RS-Mamba [196] 使用全方位选择扫描(图5(f)),在所有方向上扫描以收集全面的空间信息。

虽然这种方法可以捕获广泛特征,但计算成本很高。PlainMamba [173] 实现连续2D扫描(图5(g)),通过按顺序处理相邻 Token 来保持空间连续性。然而,这种方法可能会忽略细微的细节。Motion Mamba (2019) 使用层次扫描(图5(h)),在多个 Level 捕捉特征。

虽然这种方法增强了特征提取,但也增加了模型的复杂性。最后,EfficientVLambda (2018) 使用高效的2D扫描(ES2D),也称为空洞选择扫描(图5(i))。这种方法采用跳过采样来平衡全局和局部特征提取,优化了性能和计算成本。

扫描方法的有效性取决于具体的任务和数据集。例如,2019年关于遥感图像语义分割的研究发现,简单的扫描策略与更复杂的策略在额外计算成本上表现相似。这一发现表明,虽然先进的扫描技术可以捕获更丰富的空间-时间关系,但并不总是能带来显著的性能提升。

因此,选择适当的扫描机制需要仔细考虑任务需求、数据特征和可用的计算资源。作者在表2中给出了现有扫描方法的特殊特性、优缺点和潜在用例。未来的研究可以探索根据图像内容动态调整的适应性扫描方法,整合在训练过程中学习的优化模式。

这一方向有可能提高Mamba模型在各种计算机视觉应用中的效率和准确性。

picture.image

  1. Mamba in Computer Vision Applications

这一部分展示了Mamba模型在各种计算机视觉任务中的贡献和多样性,包括通用框架4.1,图像分类,目标检测和分割4.2,图像增强4.3,生成和修复4.4,3D点云4.5,视频处理4.6,遥感4.7,医学图像分析4.8,以及多模态模型4.9。

作者在图6中呈现了Mamba模型的分布,突显了它们在各种计算机视觉任务中的使用。

General Purpose

通用Mamba框架旨在用于分类、检测和分割任务,具有良好的灵活性和适应性。VLambda(2019)通过VSS模块和SS2D模块将一维扫描与二维视觉数据相结合,从而提高性能。而Vision Mamba(2020)则利用双向Mamba块和位置嵌入克服了单向扫描的局限性。

尽管取得了进步,捕捉全局上下文仍然具有挑战性。Vim-F(2018)通过Fast Fourier Transform(FFT)利用频域信息增强全局感受野,而Mamba-R [145]则通过注册 Token 在特征图上减少伪影,从而获得更清晰的输出。

随着模型的发展,平衡长程依赖学习与计算效率变得越来越重要。为了优化这些方面,MSVMamba [134] 提供了一种平衡的解决方案,它结合了多尺度2D扫描方法与卷积 FFN (ConvFFN)。FractalV Mamba [139] 通过适应不同图像分辨率的分形扫描曲线增强了空间关系建模。

LocalMamba [59] 进一步通过引入带窗口的选择扫描方法,在不同的网络层动态调整扫描策略,从而超越了 ViTs和CNNs。EfficientV Mamba [116] 解决了平衡准确性与计算需求之间的挑战,它将基于空洞的选择扫描与高效的skip sampling相结合,成功降低了FLOPs,同时保持了高性能。

将Mamba的性能扩展到高维数据带来了新的挑战。Mamba-ND [74]通过在不同维度上交替序列顺序来应对这些挑战,同时保持SSM的线性复杂度,并在图像分类和天气预报任务中实现高精度。为了增强图像建模的灵活性,SUM [54]将Mamba框架与U-Net结构相结合。同时,Heracles [115]通过将局部和全局SSM与注意力机制相结合,解决了高分辨率图像和时间序列分析的复杂性。

MambaMixer [5] 提出了一种双 Token 和通道选择机制,以提高视觉和时间序列任务中的跨维度和内部通信。 SiMBA [114] 旨在提供一种更简单且有效的设计。它集成了 Einstein FFT(EinFFT)用于通道建模,为图像和时间序列任务中的 SSM 设定了新的标准。 PlainMamba [173],重点关注空间连续性和方向感知,已成为各种视觉识别任务的竞争选项。表3 说明了通用 Mamba 模型的概述。

picture.image

Image Classification, Object Detection, and Segmentation

Mamba在图像分类、目标检测和分割任务上通过捕捉局部和全局特征提高了性能。在图像分类中,InsectMamba [150] 解决了高伪装和农业场景中物种多样性等挑战。该模型通过将SSMs与CNNs和Multi-Head Self-Attention相结合提高了准确性。类似地,Res-VMamba [9] 通过将Mamba机制与深度残差学习相结合,在细粒度识别方面树立了新标准。

此外,RSMamba [14]和SpectralMamba [180]等Mamba模型已在复杂遥感数据分类方面证明有效,将在第4.7节详细讨论。Mamba的灵活性扩展到医学图像分类。

像MedMamba [185]和MamML [28]这样的模型通过优化各种成像模式下的特征提取,提高了分类性能和诊断准确性。

在目标检测领域,融合Mamba [24]通过将特征映射到隐状态空间来减少不同模态之间的差异,从而提高跨模态检测的准确性。然而,在小型目标检测,尤其是在航空图像中,由于数据量小和背景噪声,仍然具有挑战性。

SOAR [143]通过将小波let变换(WLT)与轻量级YOLO v9架构相结合来解决这个问题。

Mamba-YOLO [156]在YOLO架构的基础上,通过将小波let变换与LSBlock和RGBlock模块相结合,以提高对局部图像依赖关系的建模,从而实现更精确的检测。

此外,MIM-ISTD [16]采用嵌套Mamba架构来提高红外小目标检测(ISTD)。在3D目标检测中,Voxel Mamba [186]使用无组的SSM来增强点云数据中的特征提取。这种方法克服了在连续化过程中保持 Voxel 空间相邻性的挑战。

此外,HTD-Mamba [130]专注于超光谱数据,将金字塔SSM与光谱对比学习相结合,并采用空间编码光谱增强,以捕捉长程依赖关系并有效地融合多分辨率光谱特征。

分割任务也受益于Mamba架构,尤其是在高分辨率图像方面。例如,RWKV-SAM(Kumar等人,2018年)通过结合Mamba和RWKV线性注意架构,精确地分割高分辨率图像。VAMba-CS(Mamba等人,2018年)采用了一个基于VAMba的编码器-解码器网络,提升了建筑表面自主裂纹检测性能。

picture.image

Image Enhancement

麻省理工学院的研究团队Mamba在各个领域显著提升了图像增强技术。在内窥镜成像中,曝光异常通常会导致图像质量不佳。FD-Vision Mamba(FDVM-Net)通过在C-SSM块内结合卷积层和SSM来解决这个问题。这种方法将相位和幅度信息分别处理,以实现高质量的图像重构。水下成像面临独特的颜色失真和模糊问题。PixMamba(PixMamba,2018年)通过使用双级架构,有效地捕获全局上下文信息,同时在水下图像上提高图像质量并管理计算成本。

类似地,WaterMamba 使用空间-通道全向选择扫描(SCOSS)块来解决水下图像问题,以有效地管理依赖关系并建模像素和通道信息流。为了减少FLOPs,MambaUIE&SR(Mamba等人,2018年)将VSS块与动态交互块集成在一起。

低光图像增强的挑战在于平衡亮度与降噪。RetinexMamba(Chen等人,2019年)将传统Retinex方法与SSMs相结合,利用创新的照明估计器和修复器来保持图像质量和处理速度。LLEMamba(Mamba等人,2018年)通过在深度展开网络内引入一个重新照明引导的Mamba架构来推进低光增强。

这种方法通过Retinex优化和Mamba深度先验实现解释性和失真之间的平衡。

对于单图像去雾,UVM-Net 通过结合局部特征提取与Bi-SSM块,解决了处理长程依赖性的挑战,从而有效地管理计算资源。

Mamba模型在超分辨率任务中也取得了显著的改进。DVMSR(Mamba等人,2018年)利用Vision Mamba和残差状态空间块(RSSBs)提高效率,而无需牺牲性能。FourierMamba 通过将Mamba集成到傅立叶空间并进行斜交编码,改善了图像去雨效果。

在光学多普勒断层扫描中,SRODT(Mamba等人,2018年)通过采用基于SSM的学习方法,在A扫描内捕捉连续和交互信息,从而提高了B扫描重建的准确性。

MLFSR(Mamba等人,2019年)和LFMamba(LFMamba,2018年)将SSM块应用于光场图像超分辨率,捕捉空间和角相关性,从而显著提高了性能。

遥感技术面临独特的挑战,如雾霾和低分辨率图像。HDMba 通过使用窗口选择扫描模块捕捉局部和全局光谱-空间信息 Stream ,从而在超光谱图像去雾中改善场景重建。

为了便于对传统和Mamba模型进行评估,BVI-RLV引入了一个综合数据集及其框架用于低光视频增强。表5提供了关于图像增强的Mamba模型的总结。

picture.image

Generation and Restoration

在图像生成领域,DiS模型(Mamba等人,2018年)用SSM替代了传统的U-Net类似架构,从而降低了计算开销,并产生了高分辨率图像。这一能力对于卫星图像和高清内容创作应用至关重要。

进入医学领域,MD-Dose(Mamba,2018年)利用Mamba的扩散模型模拟癌症治疗的辐射剂量分布,提供精确、患者特定的剂量映射,从而提高治疗效果。从DiS到MD-Dose的转变展示了Mamba在需要详细输出领域的灵活性。

同样,Gamba将高斯插值与Mamba的状态空间块相结合,用于从单视图输入进行高效的3D重建,这在考古学中特别有用,因为数据往往有限。ZigMa [55]进一步推动了视觉数据生成的速度和内存利用率,生成高质量图像和视频。

为了生成高分辨率图像,Diffusion Mamba (DiM) 将 Mamba 的效率与扩散模型结合,通过多方向扫描和轻量级局部特征增强实现,引入了一种“弱到强”的训练策略,用于生成高分辨率图像 [141]。DiM2 利用可扩展的扩散技术和双向 SSMs,保持了线性复杂度,并在图像和视频生成方面超过了扩散 Transformer [108]。

扩展到 3D 建模,DiM-3D 用 Mamba 架构替换了传统注意力,实现了多样化、高保真的 3D 形状生成 [107]。此外,Dimba 将 Transformer 和 Mamba 层结合,实现了高效的文本到图像扩散 [30]。

在图像修复中,Mamba被精心设计以提高清晰度和恢复细微细节。MambaIR [135]采用双向水平与垂直(BD H/V)光栅扫描来增强自然图像,充分利用像素数据以获得高分辨率输出——这种方法对于需要保留细微细节的应用至关重要,例如卫星图像。CU-Mamba [23] 采用 U-net 架构,以高效地学习和恢复具有复杂纹理的图像,解决由复杂图案和退化纹理带来的挑战。

VmambaIR [135] 引入了一种 OSS 机制,用于处理来自多个方向的图像,有效地管理复杂图案和退化纹理。Serpent 模型 [128] 采用分层架构,通过使用多个 SSM 处理庞大的数据集,同时减少计算需求,以应对大规模的修复任务。

对于从RGB图像进行光谱重建,GMSR(GMSR,2019)提出了Gradient-guided Mamba,该方法利用了Mamba的计算效率和GM块内的全局感受野。该模型在降低参数和FLOPS的同时保持了高精度,有效地解决了光谱梯度注意力机制的挑战。表6提供了关于图像生成和修复中Mamba模型的概述。

picture.image

Point Cloud Analysis

Mamba在解决大数据量、非结构化和高计算挑战的基础上,推动了点云分析的发展。PointMamba(2019)通过将一系列的点进行对齐,实现了对3D点云的高效处理。这种方法将参数减少了44.3%,将FLOPs减少了25%,在准确率上超过了基于 Transformer 的模型。

同样,Point Cloud Mamba(PCM)(Gray,2019)通过将3D点云转换为1D序列,通过保持空间相邻性,增强了建模。结合高级位置编码,这种方法在 ScanObjectNN和ModelNet40等基准测试上实现了最先进的表现。

针对大规模点云中的噪声问题,3DMambaIPF 提出了一种可微渲染损失,以保留几何细节并增强去噪结构的逼真度。该模型在合成和实际数据集的高噪声环境中都能处理。3DMambaComplete(朱等,2021)通过使用超点生成模块,将稀疏输入转换为稠密输出,在点云补全方面表现出色。

它通过在重建过程中保留局部细节而设立了新的基准。Mamba3D [44] 专注于使用局部范数池化(LNP)块进行精确几何特征提取,并利用双向SSM集成全局特征。此外,Point Mamba [91] 采用基于八叉树的组织系统,将数据点组织成保留空间局部性的z级曲线,以便进行有效的SSM处理。

对于更高级的应用,Mamba4D [89] 针对4D点云视频理解,通过使用Intra-frame Spatial Mamba和Inter-frame Temporal Mamba块解耦空间和时间特征,有效捕捉长时间范围内的运动依赖关系,同时减少GPU内存使用。OverlapMamba [163] 旨在实现位置识别,将视觉表示压缩为序列,从而提高闭环检测。

PointABM [13] 结合双向SSM和多头自注意力,捕捉全面特征,增强点云分析。Mamba24/8D [77] 引入了一种多路径序列化策略,并配合ConvMamba块,有效处理长程依赖关系。

最后,PoinTramba [155] 通过整合Transformer和Mamba架构,优化点云识别和分割,采用双向重要性感知排序(BIO)策略。表7提供了点云分析中Mamba模型的总结。

picture.image

Video Processing

Mamba 通过解决长序列管理和高效处理高分辨率数据等挑战,在视频处理方面取得了进步。ViS4mer [61] 直接针对长程视频理解中的自注意力机制的低效性。通过将短程特征提取的Transformer编码器与多级时间S4解码器相结合,ViS4mer 使数据处理速度提高了2.5倍,使用的内存比纯自注意力模型少8倍,并在长格式视频分类中实现了最先进的技术。

此外,VideoMamba Suite [10]展示了基于Mamba模型的AI在各种视频理解任务中的多样性。将Mamba的应用程序分为诸如时间建模、多模态交互和时空处理等角色。这些分类揭示了Mamba在不同视频处理需求方面的适应性。RhythmMamba [207]解决了远程生理测量中捕捉准周期rPPG模式所面临的挑战。

在骨骼动作识别中,Simba [8]将Mamba与U-ShiftGCN相结合,通过增强空间和时间建模实现SOTA结果。

进一步探索高级应用,Matten [34] 引入了潜在扩散机制与空间-时间 Mamba-Attention,以产生具有最小计算成本的高质量视频。同时,DeMamba [11] 通过引入 GenVideo 数据集和详细 Mamba 模块,解决了检测 AI 生成的视频的挑战,从而增强了不同视频类型中检测方法的有效性和可靠性。

在视频理解中,VideoMambaPro [98] 解决了 Token 处理中的限制,在保持视频动作识别任务的高效性的同时,实现了最先进的视频动作识别任务准确率。SSM Event Vision [209] 引入了具有可学习时间尺度的事件相机数据中的状态空间模型,可以适应不同的推理频率。

此外,SSM Diffusion [112] 捕获了视频生成的时序动态,保持了线性记忆复杂度,同时实现了具有竞争力的Frechet视频距离(FVD)分数。最后,Selective Structured State-Spaces (SSSMLV) [148] 专注于建模长视频中的长期时空依赖性。为了提高其有效性,它采用了一个轻量级的 Mask 生成器来选择性地处理有用的图像 Token 。VideoMamba [73] 还通过有效地管理局部冗余和全局依赖关系,实现了视频理解的效率,为视频理解设立了新的基准。表8提供了在视频处理中使用的Mamba模型总结。

picture.image

Remote Sensing

Mamba的计算能力使其能够处理来自卫星和航空影像的高维数据,使其适用于遥感应用。为了分类光谱图像,SpectralMamba [180] 直接将光谱数据集成到分类过程中,有效解决了高维性和跨波段相关性带来的挑战。HSIMamba [175] 在传统模型基础上进一步改进,通过引入双向处理来区分光谱签名中的细微差异,这对于植被分析和土地覆盖变化检测等应用至关重要。此外,3DSS-Mamba框架(Sandola等人,2017年)提供了3D-Spectral-Spatial方法,使用光谱-空间 Token 生成模块和新型选择性扫描机制。RSMamba(Sandola等人,2017年)、SS-Mamba(Sandola等人,2017年)和Mamba(Sandola等人,2017年)通过各种创新技术提高了地形分析的准确性。其中,RSMamba引入了位置敏感的动态多路径激活,有效处理2D非因果数据,并提高不同地形上的分类准确性。

SS-Mamba和Mamba进一步优化了这一方法,分别采用光谱-空间Mamba块和双向扫描机制,确保精确的空间-光谱融合,从而实现准确分类。然而,在语义分割中,基于Mamba的模型RS3Mamba(Mamba,2017)和Samba(Sandola等人,2017)采用了双分支网络和编码器-解码器架构。这些方法通过增强全局和局部数据理解,优化高分辨率图像中多级语义信息的提取。

在全色增强中,将低分辨率的多光谱图像与高分辨率的全色图像合并以增强视觉细节是一个重大的挑战。Pan-Mamba(Pan-Mamba,2019)通过使用通道交换和跨模态Mamba块来解决这个问题,这些块有助于在不同图像模式之间进行高效的数据交换。这种方法显著增强了空间和光谱细节,产生了高质量的全色增强图像,同时保留了输入源的必要信息。同样,高光谱图像去噪,需要保留关键细节并消除噪声,HSIDMamba(Hamb et al., 2019)出色地处理了这个问题。它使用连续扫描块和双向扫描来保持光谱数据的完整性。

此外,变化检测,是遥感的关键方面,需要精确识别多时相图像之间的差异。在利用不同的扫描机制和空间差异引导的SSM方面,ChangeMamba 和 RSCaMa 在该领域表现出色,有效管理双时相特征交互,并提供精确的空间变化检测。这种能力对于监测环境变化、城市发展和灾害影响评估至关重要。图像融合,旨在在不损失细粒度的情况下整合空间和光谱数据,由LE-Mamba解决。

它分别使用U形网络中的Mamba块和局部增强的视觉Mamba块。为了应对大规模图像和物体变化的限制,CM-UNet(Sandola等人,2017)结合了基于CNN的编码器与基于Mamba的解码器,以增强全局-局部信息融合。此外,RSDehamba(RSDehamba,2019)将SSM框架集成到U-Net架构中,用于遥感图像去雾,而FMSR(Sandola等人,2017)采用多级融合架构进行超分辨率。

像Seg-LSTM(Hochreiter和Schmidhuber,1997),PyramidMamba(Sandola等人,2017)和CDMamba(Sandola等人,2017)则细化多尺度特征表示,以提高分割准确性和变化检测精度。最后,VMRNN(Sandola等人,2017)将视觉Mamba块与LSTM集成,以在空间时间预测任务中平衡效率和准确性。

picture.image

Medical Image Analysis

Mamba在医学图像分析方面非常流行。本节探讨了Mamba模型在各种医学图像分析任务中的应用,例如分类、分割和重建。

4.8.1. Medical Image Classification

MedMamba(Sandola等人,2017年)通过将卷积层与自编码器(SSM)相结合来解决CNNs和ViTs的挑战。在发挥SSM优势的基础上,BU-Mamba(Mamba,2017年)将Vision Mamba应用于乳腺超声图像分类,实现了更好的性能,尤其是在处理有限数据时。然而,由于全切片图像(WSIs)的千兆像素 Level ,特征提取变得复杂,因此分类WSIs具有挑战性。为了解决这个问题,Mam MIL(Mamble,2017年)将双向SSM与2D上下文感知块相结合,以提高WSIs特征检测,同时保留空间关系并减少内存占用。

MambaMIL(Sandola等人,2017年)通过使用序列重排Mamba(SR-Mamba)优化组织样本排列,同时改进特征提取并降低过拟合。Vim4Path(Vim4Path,2017年)利用DINO框架进行自监督学习,进一步改进特征编码,使WSI分析取得了显著提高。

对于3D医学影像,CMViM 通过使用对比 Mask Vim自动编码器,提高了多模态数据的融合。该模型在影像模态之间细化表示,并增加了阿尔茨海默病诊断的准确性。视觉Mamba(Mamba等人,2017年)通过使用动态状态表示和选择性扫描算法,增强了3D MRI处理,有效地捕获了空间信息,并提高了早期检测的准确性。表10提供了医学影像分类中使用的Mamba模型详细总结。

picture.image

4.8.2. Medical Image Segmentation

U-Mamba(Mamba等人,2017年)是早期将SSMs应用于医学图像分割的方法之一。它在一个U-Net框架内使用混合CNN-SSM块结构来捕捉长程依赖性,而传统方法往往难以处理。利用SSM的优势,Mamba-UNet* [19] [159]和VM-UNet [123]通过对称和不对称的编码器-解码器结构进行改进。这些模型在各种医学图像数据集上表现良好,包括腹部和皮肤病变成像。

为了进一步提高性能,Swin-UMamba [90] 将 Mamba 与 Swin Transformer 的高级注意力机制相结合,以利用 ImageNet 的预训练获得好处。VM-UNet V2 [190] 引入了语义和细节融合(SDI)机制来优化特征融合,而 H-vmunet [161] 通过选择性扫描解决了长程特征提取中的冗余问题。LightM-UNet [83] 通过使用残差视觉 Mamba 层,优先考虑了计算效率。UltraLight VM-UNet [162] 显著减少了参数,同时保持了准确性,而 LMa-UNet [147] 利用大窗口 SSM 块进行有效的长程特征捕捉。

为了改善空间和通道的集成,TM-UNet [138] 引入了 Triplet-SSM 模块,而 Mamba-HUNet [125] 则专注于层次上采样。P-Mamba [181] 通过使用基于 DWT 的 Perona-Malik 扩散块的双分支框架,解决了降噪和高效特征提取的问题。

在弱监督学习中,Weak-Mamba-UNet [157] 探索了将 CNNs、ViTs 和 Mamba 架构相结合以解决基于涂鸦标注的挑战。Semi-Mamba-UNet [100] 通过自监督对比学习增强从无标签数据中的特征学习。ProMamba [166] 专注于多指(polyp)分割,通过将 Vision Mamba 与 Prompt 技术相结合。MUCM-Net [183] 和 AC-MambaSeg [111] 针对皮肤病变分割,将 Mamba 与先进的特征提取技术相结合。

虽然 MUCM-Net 优化了 Mamba 层以强调移动部署,但 AC-MambaSeg 专注于使用 CBAM 基础的注意力机制 [121] 改善特征提取和背景噪声抑制。对于显微镜实例分割,ViM-UNet [2] 提供了更大的全局视野。解决降低分辨率和信息损失的挑战,HC-Mamba [169] 采用膨胀和深度可分卷积。

为了提高局部特征建模,SliceMamba [27] 引入了双向切片扫描模块,而 xLSTM-UNet [15] 结合了 Vision-LSTM 来捕捉长期依赖关系,并超越了传统分割模型。

3D医学图像分割面临独特的挑战,由于数据复杂性和大容量。SegMamba [168] 通过其Tri-Orientated Mamba (ToM)模块,从轴位、矢状和冠状平面提取特征,实现全面的解剖学覆盖。LightM-UNet [83] 通过集成残差Vision Mamba层,提高了效率,使其非常适合临床环境。LKM-UNet (LKM-UNet, 2017) 使用大核SSM块建模长程空间依赖性,超越小窗口 Transformer 和传统CNN。nmMamba 通过MICCSS块结合CNN和SSM,增强了空间和通道关系建模,有助于改进标志点检测、分类和3D分割任务。T-Mamba (Memba et al., 2018) 通过结合频率域特征,进入更复杂的模态,提高了分割质量。

在医学视频目标分割中,Vivim (Vivim, 2017) 通过时间Mamba块确保帧间边界的连贯性。此外,TokenUnify (LKM-UNet, 2017)和CAF-MambaSegNet (Zhao et al., 2018) 引入了创新的2D分割解决方案。通过随机 Token 预测累积错误,利用Mamba进行有效长序列建模。

CAF-MambaSegNet 消除了传统卷积和自注意力机制,使用通道聚合和空间聚合模块独立提取特征,实现有效分割,同时降低了计算复杂性。表11和表12分别介绍了Mamba模型在2D和3D医学图像分割方面的概述。

picture.image

picture.image

4.8.3. Medical Image Reconstruction

在医学影像重建中,将来自MRI、CT和PET的原始数据转换为高质量图像对于精确的诊断和治疗至关重要。然而,这个过程面临着挑战,包括噪声、伪影和计算效率的需求。为了应对这些问题,MambaMIR(Memba等人,2018年)被开发出来,用于快速进行MRI和SVCT任务。它通过使用任意 Mask 机制增强了基于蒙特卡罗的不确定性估计,从而减少了噪声和伪影。尽管这种方法提高了图像的清晰度,但进一步优化的需求导致了MambaMIR-GAN 的创建。这个变体通过引入对抗训练来锐化图像并提高视觉质量。

为了更好地重构多模态MRI数据,集成多模态MRI数据面临挑战,这催生了MMR-Mamba(Memba等人,2018年)。该模型利用目标模态引导的交叉Mamba(TCM)模块在空间域和频域信息集成,以及选择性频谱融合(SFF)模块以恢复高频细节。

自适应空间-频谱融合(ASFF)模块还整合了跨两个域的数据,为多模态MRI重构提供强大解决方案。表13展示了在医学图像重建中MMR-Mamba模型的概述。

picture.image

4.8.4. Other Tasks in Medical Imaging

麻省理工学院的研究行人开发了一种名为Mamba的技术,在各种医学影像任务上取得了显著的进步,这些任务超越了传统的应用,如分类和分割。例如,V MambaMorph(Vamba,2017)使用混合V Mamba-CNN网络解决复杂的多模态图像对齐问题,但处理复杂的结构仍然具有挑战性。同样,Motion-Guided Dual-Camera TrackerMGDC Tracker 通过交叉摄像机模板策略和基于Mamba的运动预测改进了内窥镜跟踪。然而,在不同的环境中保持一致的准确性仍然是一个挑战。

在放疗领域,MD-Dose(Memba等人,2018年)通过基于Mamba的扩散模型增强放疗剂量预测。这种方法提高了精度,但需要更好的解剖学整合。与此同时,BI-Mamba(Memba等人,2018年)通过捕捉胸部X光中的长期依赖关系,在心血管风险预测中减少了辐射暴露。尽管这些方法具有这些优势,但使用低分辨率成像实现高精度仍然是一个挑战。

然而,当扩展到不同大小的数据集时,它们仍面临挑战。此外,SMamba-UNet [64] 和 Deform-Mamba [63] 通过利用自先验引导网络提高图像分辨率,但捕捉细粒度细节仍然是一项复杂的任务。

最后,SR-Mamba [6] 通过捕捉视频中的长时间时序关系来推进手术阶段的识别。它简化了训练并提高了准确性,但需要在不同手术过程中保持一致表现,因此还需要进一步的完善。

Multimodal

多模态模型处理各种数据类型,如图像、文本、音频和视频,关键挑战在于将异质数据融合以利用每个模态的互补信息。SurvMamba [18]通过将病理图像和基因组数据整合来提高生存预测。它采用了一个层次化交互Mamba(HIM)模块来捕获详细的多模态内部交互,以及一个交互融合Mamba(IFM)模块来合并这些模态,从而产生全面表示。同样,TransMA [160]通过一个3D Transformer和分子Mamba进行特征对齐,预测离子化脂质纳米颗粒(LNPs)的性质,从而加速mRNA药物筛选。

在大型语言和视觉模型中,Meteor 通过将详细推理嵌入多模态框架来提高性能。CMViM(Membo等人,2018年)通过使用 Mask Vim自编码器重构3D医学图像,并结合临床数据进行更个性化的诊断,从而改善了阿尔茨海默病分类。SpikeMba 利用尖峰神经网络(SNNs)解决时间视频定位问题,并提高了局部化和上下文理解。

Mamba模型在多个领域的先进应用中展现了其灵活性。对于多模态图像融合,FusionMamba(Membo等,2019年)通过使用动态VSS块结合CT、MRI和红外可见图像的信息来捕获全局和局部细节。MambaDFuse(Membo等,2019年)通过双阶段特征融合方法进行了优化,提高了目标检测的准确性。ReMamber(ReMamber,2019年)、TM-Mamba(Membo等,2019年)和Cobra(Corba等,2019年)将视觉和文本数据集成到诸如图像分割和运动文本对齐等任务中。

Sigma(Siggia,2019年)通过将RGB与热或深度数据融合,增强了语义分割,提高了精确度。

picture.image

  1. Comparative Analysis with Traditional Frameworks

本文对Mamba()、CNN()和Transformer()模型进行了广泛的比较。在作者的分析中,作者关注了关键指标,如参数数量(以百万计,)、浮点运算(以十亿次计算,)、Top-1精度(%,)、平均交并集()、特定IoU阈值下的平均精度()、可扩展性,以及在包括图像分类、目标检测、语义分割、视频行为分类和遥感在内的核心计算机视觉任务中的性能。模型按照大小进行分类 Tiny()、Small()、Base()、Medium()、Large()和Huge() 以确保在不同尺度上的公平比较。通过评估,作者突显了它们的优缺点,以便了解它们在这些任务中的适用性。

picture.image

Image Classification

作者对比了CNN、Transformer和Mamba等五款在ImageNet-1K数据集(Siggia,2019)上表现最优秀的模型进行图像分类。

结果如表16所示,按照Top-1准确率(%)对模型进行排名。为了公平起见,作者排除了参数超过10亿(如Coca(Membo等人,2019))的模型,以及使用预训练阶段额外数据的模型。在图7(a)中,作者绘制了Top-1准确率(%)与参数数量和FLOPs之间的关系。

最高性能的模型是混合模型,而SwinV2-B(Siggia,2019),这是一款Transformer模型,排名第三。性能最优秀的混合模型Heracles-C-L(Membo等人,2019)与SwinV2-B(Siggia,2019)相比,Top-1准确率高出1.3个百分点,但参数数量减少了11.26%,FLOPs减少了38.45%。这表明,Mamba混合模型在Transformer仅有的模型中具有优势。

picture.image

picture.image

Object Detection

作者在COCO数据集(Membo等人,2019年)上评估了五个性能最优秀的模型,使用了Mask R-CNN(Mask等人,2016年)框架,分别在1x(12个周期)和3x(36个周期)的训练计划下进行。作者将模型根据分数进行排名。结果汇总在表17和图7(d)中。从图7(d)中可以看出,Mamba模型、VMamba-S(Vamba等人,2019年)、LocalVMamba-S 和GroupMamba-T(Corba等人,2019年)在1x计划中表现出色。值得注意的是,GroupMamba-T 在仅比最佳模型InternImage-B(Kumar等人,2017年)低1.1个的情况下,使用了65.21%更少的参数和44.31%更少的FLOPS。

对于3x计划,VMamba-S(Zhu等人,2018年)和VMamba-T(Zhu等人,2018年)在顶级五个模型中表现强劲。具体来说,VMamba-T(Zhu等人,2018年)与InternImage-B(Kumar等人,2017年)相比,仅降低了0.8个,同时消耗了56.52%更少的参数和45.91%更少的FLOPS。这表明VMamba在显著降低计算成本的同时,保持了竞争力,使其适用于资源受限的环境。

picture.image

Semantic Segmentation

作者分析了语义分割领域表现最佳的五个模型。结果分别显示在表18和图7(c)中。它们分别给出了单分割(SS)和多分割(MS)设置下的mIoU分数。在作者的分析中,作者排除了使用额外数据集进行预训练的任何模型,以确保公平性。在表18中,Mamba模型VMamba-B(朱等,2018年)在mIoU(SS)上比之前的基于CNN的SOTA模型InternImage-B(Kumar等,2017年)提高了0.2点,在mIoU(MS)上提高了0.3点,且计算成本相似。VMamba-S(朱等,2018年)和LocalVMamba-S(朱等,2018年)模型在较低的参数计数和FLOPs下也显示出有竞争力的mIoU分数。

值得注意的是,VMamba-S在mIoU(SS)上达到了50.6,mIoU(MS)上达到了51.2,而LocalVMamba-S分别达到了50.0和51.0。有趣的是,没有一个基于Transformer的模型进入前五名,这表明CNN和Mamba模型可能是语义分割任务的有效选择。

picture.image

Video Action Classification

作者将Kinetics 400数据集视为视频动作分类的流行数据集,具有400个人类动作类别。作者在表19和图7(b)中展示了Top-1准确率(%)排名前五的模型,并附有它们的参数和FLOP大小。Mamba模型VideoMambaPro-M 是第二好的模型,在Top-1和Top-5准确率(%)方面分别落后于基于Transformer的顶级模型TubeVit-H 0.6和0.4个百分点。然而,它比TubeVit-H消耗了89.08%更少的参数和73.92%更少的FLOPs。

因此,它展示了基于Mamba的模型在计算效率方面优于基于Transformer的模型。其他模型如TubeVit-L和TubeVit-B(Vaswani等人,2017)也表现良好,但计算成本较高。VideoMambaPro-S 在低参数计数和FLOPs的情况下,实现了Top-1准确率88.5%,进一步展示了Mamba的效率。

Remote Sensing

作者评估了在SYSU-CD数据集(Shi等人,2018年)上表现最佳的五个模型,这些模型基于F1分数进行了二进制变化检测。结果汇总在表20和图7(a)中。ChangeMamba-B(Shi等人,2018年)排名第二,其F1分数比Transformer基础的SOTA,A2Net 低0.86个点。然而,ChangeMamba-B的参数数量和FLOPs显著较高,表明Mamba模型目前在这个任务上缺乏计算效率。

此外,将CNN和Transformer相结合,RCTNet(RegNet) 和CDMaskFormer(Shi等人,2018年)表现良好,但在计算成本方面与ChangeMamba模型更为平衡。另一个Mamba变体ChangeMamba-S(Shi等人,2018年)实现了有竞争力的F1分数,但仍然消耗比其他顶级模型更多的资源。

picture.image

  1. Potential Limitations and Future Prospects

尽管Mamba模型取得了显著的进展和有前景的能力,但几个限制阻碍了它们的更广泛应用和最佳性能。

本节概述了这些潜在的局限性和未来前景,以确保Mamba模型能够发挥其全部潜力。

Limited Generalizability: Domain-Specific Biases and Hidden State Accumulation

尽管Mamba具有全球接受域,但它通常很难在不同领域之间进行泛化。这一限制源于两个关键因素。首先,选择性扫描过程在隐状态中捕获了特定领域的信息(Kumar等人,2017年),从而创建了偏向训练数据的压缩表示,这限制了模型在新领域的适应性。

其次,双向扫描等扫描方法通常会加强特定领域的偏见(Kumar等人,2017年)。例如,在自然图像上训练的模型可能优先考虑纹理模式,而在医学扫描上训练的模型可能专注于解剖学形状,从而限制了学习领域无关特征(Kumar等人,2017年)。

为了解决隐状态累积问题,可以在Mamba架构中的隐状态直接应用 dropout 层或权重归一化技术。这些技术在训练过程中引入受控噪声或约束,以帮助模型学习更通用的表示(Kumar等人,2017年)。此外,开发新的扫描机制以避免捕获特定领域的偏见至关重要。

例如,域自适应扫描,根据输入进行调整,或通过集成可学习的 Mask 以选择性地关注相关特征,可以提高泛化性(Kumar等人,2017年)。

Challenges in Selecting an Effective Scanning Mechanism

Mamba,最初是为了处理一维序列数据而设计的,当将其选择性扫描方法适应到多维视觉数据(Kumar et al., 2017)时,面临着重大的挑战。一个主要的挑战是准确捕捉图像的复杂空间依赖性和层次结构。传统的扫描技术,如线性或栅格扫描,通常无法保留进行详细图像分析所需的精细空间关系。这一限制源于Mamba的一维顺序处理与视觉信息固有的多维性质之间的不匹配。此外,在多个方向上进行扫描的冗余性增加了计算需求,进一步复杂化了适应视觉数据的过程。

为了提高Mamba在视觉方面的效果,已探索了多种有前途的策略。开发多维选择性SSM可以使视觉数据处理更加高效,同时保留Mamba的计算优势。引入受人类视觉处理启发的层次扫描模式或使用注意力引导的扫描机制,可以增强模型处理复杂视觉数据的能力(Wang et al., 2019)。此外,关注图像中最有信息价值的稀疏块的扫描技术,可以优化大规模视觉任务的计算效率和性能。对不同扫描技术的实验研究为这些策略提供了宝贵的洞察(Kumar et al., 2017)。

Limited Pre-trained Model Availability and Community Support

深度学习架构的适应性高度依赖于预训练模型的可用性。目前,与更成熟的架构(如Transformer)相比,Mamba的预训练模型选择有限。尽管存在一个显著的2.8亿参数Mamba模型(Mamba,2019),但预训练模型总体种类和数量仍然有限。这种稀缺性限制了它们在各种下游任务中的应用。此外,Mamba研究社区相对较新,参与其发展的研究行人较少。这种状况降低了创新速度并限制了开发行人可用的资源。

为扩大预训练模型的可用性,需要在多种数据集上进行大规模的预训练。这些预训练模型能够针对特定任务进行微调,从而减少训练时间并提高整体性能。此外,在Mamba研究社区内促进合作与知识共享至关重要。组织研讨会、开发开源仓库和创建讨论论坛等举措可以促进发展,增强知识交流,并加速架构的开发(Kumar等人,2020年)。

  1. Conclusion

在这项工作中,作者全面概述了Mamba在计算机视觉领域的最新应用。作者首先讨论了传统架构的局限性,特别是卷积神经网络(CNN)和变换器(Transformer)。

最重要的是,作者强调了Mamba与传统架构之间的权衡,解决了诸如二次复杂度、归纳偏置和长距离依赖等约束。

此外,作者提供了一个结构化的Mamba应用分类法,展示了一个通用的流程,并可视化了Mamba模型中使用的各种扫描方法。此外,作者还介绍了不同扫描方法的具体优势、弱点以及潜在的应用场景。

然后,作者在不同的应用领域进行了比较分析,使用各种数据集进行了定量评估,展示了Mamba模型与传统架构的性能对比。

最后,作者识别了一系列关键挑战,以激发研究并进一步推进这一新兴领域。作者希望这份调查能够作为Mamba的有价值参考资料,并提供启发创新、指导未来研究的见解。

参考文献

[0]. Mamba in Vision: A Comprehensive Survey of Techniques and Applications.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论