悉尼大学提出Efficient-VMamba | Mamba质的飞跃！速度精度远超MobileViT与RegNet - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

在轻量级模型开发的前期工作中，主要集中在对基于CNN和Transformer的设计上，然而却一直面临着持续的挑战。CNN擅长于局部特征提取，但会牺牲分辨率；而Transformer能提供全局范围，却提高了计算需求。这种精度与效率之间的持续权衡仍然是一个重大障碍。

最近，状态空间模型（SSMs），如Mamba，在各种任务中，例如语言建模和计算机视觉，展示了卓越的性能和竞争力，同时将全局信息提取的时间复杂度降低到。受到这一启发，本研究提出探索视觉状态空间模型在轻量级模型设计中的潜力，并引入一种新型的名为Efficient-VMamba的高效模型变体。

具体来说，Efficient-VMamba通过有效的跳过采样，集成了基于空洞的选择性扫描方法，这些构成了旨在利用全局和局部表现特征的构建块。此外，作者还研究了SSM块与卷积的结合，并引入了一种结合了附加卷积分支的高效视觉状态空间块，进一步提升了模型性能。

实验结果表明，EfficientVMamba在降低计算复杂度的同时，在各种视觉任务上取得了具有竞争力的结果。例如，具有1.3G FLOPs的Efficient-VMamba-S，在ImageNet上将1.5G FLOPs的Vim-Ti的准确度提高了5.6%。

自从AlexNet被提出以来，深度神经网络在计算机视觉领域取得了重大突破。然而，这些模型通常比较重，需要大量的计算资源。为了解决这个问题，对于计算能力有限的实际应用来说，轻量级架构至关重要。在本文中，作者提出了一种基于状态空间模型的效能网络，旨在平衡准确性和计算效率。

代码：https://github.com/TerryPei/EfficientVMamba

1 Introduction

卷积网络，如ResNet，Inception，EfficientNet等模型，以及基于Transformer的网络，例如Swin-Transformer，Beit，和Resformer，已被广泛应用于视觉任务中，包括图像分类、检测和分割，取得了显著成果。最近，Mamba，一种基于状态空间模型（SSMs）的网络，在诸如语言建模的序列建模任务中展示了与Transformers相媲美的性能。受到这一启发，一些工作开创性地将SSMs引入到视觉任务中。在这些方法中，Vmamba 通过引入一种SS2D方法，从多个方向扫描图像以保持2D空间依赖性，从而脱颖而出。

然而，这些不同架构所实现的令人印象深刻的性能通常来自于模型规模的扩大，这在资源受限的设备上应用它们构成了一个关键挑战。为了追求轻量级模型，许多研究致力于在保持有竞争力的性能的同时减少视觉模型的资源消耗。早期关于高效卷积神经网络（CNNs）的工作主要集中于使用有效的组卷积，轻量级跳跃连接等方法来简化原始的卷积块。

而近期，由于将Transformers的全局表示能力成功融入视觉任务，一些研究提出了减少Vision Transformers（ViTs）的计算复杂性的方法，并在轻量级模型中融合ViTs与CNNs。然而，ViTs的轻量化通常以自注意力中全局捕捉能力的损失为代价。由于全局自注意力的时间复杂度，在大分辨率下，其计算和内存成本会急剧增加。因此，现有的高效ViT方法只能在划分的窗口内执行局部自注意力，或者在较低分辨率的更深层次仅进行全局自注意力。ViTs向CNNs的这种尴尬的权衡和回滚阻碍了进一步提高轻量级模型的能力。

在本文中，回顾了之前提到的SSMs中的线性缩放复杂度，作者受到启发，通过将SSMs融入模型设计中，以在轻量级视觉模型中获取高效的全球捕获能力。其卓越性能在图1中得到了展示。作者通过首先引入跳过采样机制实现这一点，该机制减少了在空间维度上需要扫描的标记数量，并在保持标记间的全局感受野的同时，节省了SSMs序列建模中的多次计算成本，如图2所示。

picture.image

另一方面，考虑到卷积在只需要局部表示的情况下提供了更高效的特征提取方式，作者在原有的全局SSM分支旁边增加了一个卷积分支，并通过通道注意力模块SE对它们进行特征融合。最后，为了合理分配各种块类型的能力，作者在浅层和高分辨率层构建全局SSM块，而在深层采用高效的卷积块（MobileNetV2块）。通过在图像分类、目标检测和语义分割任务上的实验，最终的网络的效率SSM计算和卷积的有效整合，与之前的基于CNN和ViT的轻量级模型相比，展示了显著的改进。

picture.image

作者提出了一种基于扩张的的选择性扫描策略，该策略通过一种新颖的跳过采样和重新组合空间域中的块来实现。该策略改进了构建块，以便高效提取全局依赖关系，同时降低计算复杂度（从降低到，步长为）。

作者引入了一个双路径模块，它结合了作者的高效扫描策略以捕获全局特征以及一个卷积分支以高效提取局部特征，并搭配一个通道注意力模块来平衡全局特征与局部特征的融合。此外，作者提出了一种更优的SSM和CNN块分配方式，即在早期高分辨率阶段推广使用SSM以实现更好的全局捕获，而在低分辨率阶段采用CNN以提高效率。

作者在图像分类、目标检测和语义分割任务上进行了大量实验。图1中展示的结果和图解表明，EfficientVMamba有效地减少了模型的FLOPs，同时与现有的轻量级模型相比，取得了显著的性能提升。

2 Related Work

Light-weight Vision Models

近年来，视觉任务领域主要由卷积神经网络（CNNs）和视觉Transformer（ViT）架构主导。将这些架构轻量化以提升效率的研究方向已成为实际且充满前景的途径。对于CNNs来说，在提高图像分类准确度方面已取得了显著进展，如ResNet，RegNet，DenseNet等有影响力的架构的发展所示。这些进展不仅在准确性上设定了新基准，同时也提出了对轻量化架构的需求。这种需求通过基于因式分解的各种方法得到了解决，使得CNNs更加适合移动设备。

例如，Xception引入的可分离卷积在这方面起了重要作用，促成了如MobileNets，ShuffleNetv2，ESPNetv2，MixConv，MNASNet，和GhostNets等先进的轻量级CNN的发展。这些模型不仅用途广泛，而且相对容易训练。在CNN之后，Transformers在诸如图像分类、目标检测和自动驾驶等视觉任务中获得了显著的关注，迅速成为主流方法。

Transformers的轻量化版本是通过多种方法实现的。在训练方面，采用了复杂的数据增强策略和技术，如Mixup，CutMix和RandAugment，这在CaiT和DeiT-III等模型中可以看到，它们在不依赖大型专有数据集的情况下展示了卓越的性能。从架构设计角度来看，努力集中在优化自注意力输入分辨率和设计计算成本较低的关注机制上。诸如PVT-v1模仿CNN的特征图金字塔，Swin-T和LightViT的分层特征图和移位窗口机制，以及在Deformable DETR中引入（多尺度）可变形注意力模块等创新，都是这些进展的例证。还有针对ViTs的NAS。

State Space Models

状态空间模型（SSM）是一系列架构的集合，它封装了一种序列到序列的转换，有潜力处理具有长依赖关系的标记，但由于其计算量和内存使用较高，训练起来具有挑战性。然而，近年来的研究使深度状态空间模型逐渐与CNN和Transformer竞争。特别是，S4采用了一种正常加低秩（NPLR）表示，通过利用Woodbury恒等式进行矩阵求逆，有效地计算卷积核。然后Mamba 通过输入特定的参数化和可扩展、硬件优化的算法增强了SSM，使得在处理语言和基因组学中的长序列时设计更简单、效率更高。在SSM成功的基础上，应用该框架到计算机视觉任务的研究激增。

S4ND首次将SSM模块引入视觉任务，便于将1D、2D和3D的视觉数据作为连续信号进行建模。Vmamba 开创了一种基于mamba的视觉 Backbone 网络和跨扫描模块，以解决由于1D序列和多通道图像之间的差异引起的方向敏感性问题。同样，Vim 通过利用双向状态空间建模，在没有图像特定偏见的情况下，为视觉任务引入了一种有效的状态空间模型，用于依赖数据的全局视觉上下文。Mamba Backbone 网络在各类视觉任务中的出色表现激发了一系列研究，专注于将基于Mamba的模型适配到特定的视觉应用。

最近的工作如Vm-unet、U-Mamba和SegMamba 已经将基于Mamba的 Backbone 网络适配到了医学图像分割，集成了例如Vm-unet中的U形架构、U-Mamba中的编码器-解码器框架以及SegMamba中的全体积特征建模等独特特性。在图表示的领域，GraphMamba 将图引导的消息传递（GMB）与消息传递神经网络（MPNN）在Graph GPS架构中整合，增强了图嵌入的训练和上下文过滤。此外，GMNs 提出了一种全面的框架，包括标记化、可选的位置或结构编码、局部编码、标记序列化，并使用一系列双向Mamba层处理图。

3 Preliminaries

State Space Models (S4)

状态空间模型（SSMs）是深度学习中使用的一种通用序列模型家族，其受到能够在连续方式下映射一维序列的系统的影响。这些模型通过使用一个可学习的潜在状态，它不是直接可观测的，将输入的 -维序列转换为输出序列。映射过程可以表示为：

其中 , 和。

离散化。离散化的目的是将连续微分方程转换为离散函数，使模型与输入信号的采样频率对齐，以便进行更有效的计算。沿着[11]的工作，可以使用零阶保持规则将连续参数（，）离散化，给定采样时间尺度：

其中 , 和。

为了简化计算，可以使用全局卷积方法有效地同时执行方程2的重复应用。

其中，表示卷积操作，而是SSM核。

Selective State Space Models (S6)

Mamba 通过引入选择性状态空间模型（S6）来提高SSM的性能，允许连续参数随输入变化，增强序列间的选择性信息处理，这通过选择机制扩展了离散化过程：

在这里，和是将输入投影到一个N维空间的线性函数，而则将一个 -维的线性投影扩展到必要的维度。在视觉任务方面，VMamba 提出了2D选择性扫描（SS2D），它通过扫描四个方向性的特征序列来保持2D图像结构的完整性。每个序列在S6块中独立处理，然后被组合起来形成一个全面的2D特征图。

4 Method

为了设计对资源受限设备友好的轻量级模型，作者提出了EfficientVMamba，其总结如图3所示。在4.1节中，作者引入了一种高效的选择性扫描方法来降低计算复杂性，并在4.2节中构建了一个块，该块同时考虑了全局和局部特征提取，集成了SSMs和CNNs。关于架构设计，4.4节深入探讨了针对不同模型尺寸量身定制的各种架构变体。

picture.image

Efficient 2D Scanning (ES2D)

在深度神经网络中，通过池化或步长卷积进行下采样可以以较低的计算成本拓宽感受野；然而，这会牺牲空间分辨率。先前的工作[46, 57]展示了应用基于扩张的策略可以在不牺牲分辨率的情况下拓宽感受野。

受到这一观察的启发，为了减轻选择扫描的计算复杂度，作者提出了一种有效的二维扫描（ES2D）方法，通过跳过特征图上每个块儿的采样来缩小视觉选择扫描块（SS2D）。对于一个输入特征图，作者不是交叉扫描整个块儿，而是以步长跳过扫描块儿，并将其分割成选定的空间维度特征：

其中，，而操作表示对每个通道的矩阵进行切片，从高度（）上的和宽度（）上的开始，每隔步跳过。这个过程将完全扫描方法分解为局部和全局稀疏形式。对局部感受野的跳过采样通过选择性地扫描特征图较小的块来降低计算复杂性。以步长，作者间隔采样块，与SS2D中的相比，每次扫描和合并操作处理的数据量从减少到，这提高了特征提取的效率。

在ES2D中，对全局空间特征图的重新分组涉及到将处理过的块组合起来，以重建特征图的全局结构。这种整合捕捉到更广泛的上下文信息，平衡特征提取中的局部细节和全局上下文。因此，作者的设计旨在简化扫描和合并模块，同时保持状态空间架构中全局集成的核心优势，目的是确保特征提取在空间轴上保持全面。

Efficient Visual State Space Block (EVSS)

基于高效选择扫描方法，作者引入了高效视觉状态空间（EVSS）块，该块旨在协同融合全局和局部特征表示，同时保持计算效率。它利用一个经SqueezeEdit修改的ES2D来捕获全局信息，并定制了一个卷积分支来提取关键的局部特征，两个分支都会经历随后的Squeeze-Excitation（SE）块。

ES2D模块通过实施4.1中提出的智能跳跃机制，旨在高效地抽象全局上下文信息。它以步长有选择地扫描地图，减少了冗余，同时不牺牲结果空间维度特征中全局上下文的表示质量。与此同时，实证证据一致认为，卷积操作在特征提取方面更为高效，特别是在局部表示足够的情况下。作者添加的卷积分支通过步长为1的卷积专注于识别细微的局部细节。随后的SE块自适应地重新校准特征，允许网络自动在特征图上重新平衡局部和全局的感知域。

各个SE块的输出通过逐元素相加的方式结合起来构建EVSS的输出，这种双通路可以表示为：

在公式中，代表第 l 层的特征图，而SE() 是挤压激励操作。每个通路都使用一个SE块，EVSS确保全局和局部信息的相关特征动态地重新平衡，以强调最显著的特征。这种融合旨在保留广阔的全局视角和复杂的局部细节的完整性，促进全面的特征表示。

Inverted Insertion of EfficientNet Blocks

作为一个广泛接受的共识，卷积运算的计算效率要高于基于全局的模块，如Transformer。先前在轻量级工作上的努力主要集中在前期使用计算效率高的卷积来减少标记数量以降低计算复杂性，随后在后期整合基于全局的模块（例如，具有计算复杂度的Transformer）来捕捉全局上下文。

例如，MobileViT 在前两个下采样阶段采用纯MobileNetV2块，而在后期仅在低分辨率下整合自注意力操作。EfficientFormer 引入了两种类型的基块，前三个阶段使用带有局部池化的卷积块，仅在最后一个阶段使用类似Transformer的自注意力块。

然而，在基于Mamba的模块上的观察是相反的。在SSM框架中，全局表征的计算复杂度是，这意味着在阶段的前端或后端放置局部表征模块可能是合理的。

picture.image

通过表6中的实证观察，作者发现将这些局部表征模块放置在阶段后期的层中会得到更好的结果。这一发现显著偏离了之前基于CNN和基于Transformer的轻量级模型的设计原则，因此作者称之为反向插入。因此，作者设计的阶段架构是EfficientNet块（带有SE模块的MobileNetV2块）的反向插入，它在前两个阶段使用EVSS块4.2来捕捉全局表征，在后续阶段使用反向残差块来提取局部特征图：

其中是第层的特征图。在瓶颈之间直接使用捷径的反向插入设计在内存使用上要高效得多。

Model Variants

为了充分证明作者提出模型的有效性，作者详细介绍了基于[61]中提到的普通结构所衍生的架构变体。这些变体被命名为EfficientVMamba-T，EfficientVMamba-S和EfficientVMamba-B，如表1所示，分别对应于模型的不同规模。

picture.image

EfficientVMamba-T是最轻量级的，拥有600万参数，其次是拥有1100万参数的EfficientVMamba-S，而EfficientVMamba-B最为复杂，拥有3300万参数。在计算负载方面，以FLOPs衡量，模型的负载呈现出并行增长，EfficientVMamba-T为0.8G，EfficientVMamba-S为1.3G，EfficientVMamba-B为4.0G，这与它们的复杂度和特征大小直接相关。

5 Experiments

为了严格评估作者各种模型变体的性能，作者在第5.1节展示了图像分类任务的成果，在第5.2节探讨了目标检测性能，并在第5.3节探索了图像语义分割。在第5.4节，作者进一步进行了消融研究，全面检验了 atrous 选择性扫描的效果，SSM-Conv融合块的影响，以及将卷积块整合到模型不同阶段的意义。

ImageNet Classification

训练策略。遵循之前的工作，作者用基础批处理大小为1024和AdamW优化器来训练作者的模型，共300个周期。采用余弦退火学习率计划，初始值为，并设有20个周期的预热。对于训练数据增强，作者使用随机裁剪、AutoAugment（采用策略_rand-m9-mstd0.5_）以及以每个图像0.25的概率随机擦除像素点，然后在每个批次中采用MixUp策略，混合比率为0.2。在模型上采用指数移动平均，衰减率为0.9999。

微型模型 ()。在追求效率的过程中，表2展示了微型模型的结果。EfficientVMamba-T以76.5%的Top-1准确率达到了最先进性能，与那些需要更高计算成本的对标模型相媲美。仅消耗0.8 GFLOPs的计算资源，作者的模型在准确率上超过了PVTv2-B0 6%，并且在计算需求更少的情况下，比MobileViT-XS高出1.7%。

picture.image

小型模型（）。EfficientVMamba-S在准确性上显示出显著的提升，达到了78.7%的Top-1准确率。这比DeiT-Ti和MobileViT-S分别达到的72.2%和78.4%要高得多。

值得注意的是，EfficientVMamba-S在保持高准确率的同时，还具备计算效率，仅需要1.3 GFLOPs，与DeiT-Ti相当，并且低于MobileViT-S的2.0 GFLOPs。

基础模型（）。EfficientVLambda-B 在表中第二组取得了令人印象深刻的首位准确率81.8%，比DeiT-S高出2%，比Vim-S高出1.5%。这个基础模型展示了将大量参数（3300万）与适度的计算需求（4.0 GFLOPs）相结合的可行性。相比之下，具有类似参数数量（2200万）的VLambda-T需要更高的5.6 GFLOPs。

Object Detection

训练策略。作者在MSCOCO 2017 数据集上评估了EfficientVLambda模型在目标检测任务中的有效性。作者的评估框架依赖于mmdetection库。为了与轻量级 Backbone 网络进行比较，作者遵循PvT 使用RetinaNet作为检测器，并采用1训练计划。

而对于与更大 Backbone 网络的比较，作者的实验遵循Swin中详细描述的超参数设置。作者使用AdamW优化方法来细化在ImageNet-1K上进行预训练的网络权重，持续12和36个周期。对于EfficientVMamba-T/S/B变体，全面应用0.2%的路径丢弃率。学习率从开始，在第9和第11周期时降低十倍。在训练过程中实施了多尺度训练和随机翻转，批次大小为16，遵循评估目标检测系统的标准程序。

结果。作者在表3中总结了RetinaNet检测器的结果。值得注意的是，每个变体在减小尺寸的同时，都显示出性能的提升。EfficientVMamba-T模型以仅1300万的参数和37.5%的平均精度(AP)脱颖而出，比拥有2130万参数的ResNet-18高出5.7%。EfficientVMamba-T的性能还超过了PVTv1-Tiny 0.8%，并且在参数数量上与之相匹配。仅拥有1900万参数的EfficientVMamba-S，获得了39.1%的可观AP，超过了拥有3770万参数的更大的ResNet50模型，后者尽管参数更多，但AP仅为36.3%。

picture.image

在高层次梯队中，拥有4400万参数的EfficientVMamba-B，获得了42.8%的AP，显著领先于ResNet101和ResNeXt101-32x4d，突显了即使参数量较小，作者的模型的高效性。值得注意的是，拥有1300万参数的PVTv2-b0获得了37.2%的AP，而EfficientVMamba-T紧随其后，这表明在相似的参数预算下具有竞争力的性能。关于与其他 Backbone 网络在Mask R-CNN上的比较，请参见附录。

Semantic Segmentation

训练策略。与VMamba 的设置保持一致，作者将一个UpperHead整合到预训练模型结构中。采用AdamW优化器，作者将学习率初始化为。微调阶段包含次迭代，并使用批量大小为16。尽管标准的输入分辨率为，作者也进行了输入为的实验，并应用多尺度（MS）测试来扩大作者的评估范围。

结果。 EfficientVAMaba-T模型的mIoU达到了38.9%（SS）和39.3%（MS），尽管参数数量大大减少，但仍超过了ResNet-50的42.1% mIoU。EfficientVMamba-S实现了41.5%（SS）和42.1（MS）的mIoU，比DeiT-S + MLN表现得更好，尽管其计算足迹更低。EfficientVMamba-B达到了46.5%（SS）和47.3%（MS），优于更重的VMamba-S。这些发现证明了EfficientVMamba系列在语义分割中准确性与计算效率的平衡。

Ablation Study

atrous选择性扫描的效果。作者在表5中实施了实验来验证atrous选择性扫描的有效性。从SS2D升级到ES2D显著降低了计算复杂度，从0.8 GFLOPs降低，同时保持了73.6%的竞争力准确度，比微小变体提高了1.5%。同样，在基本变体的情况下，利用ES2D的模型不仅将GFLOPs从VMamba-B的4.2降低到4.0，还显示出准确度从80.2%增加到80.9%。

结果表明，EfficientVMamba模型是通过跳过采样实现计算复杂度降低而保持全局感应场以保持竞争性能的关键因素之一。GFLOPs的降低也揭示了ES2D在显著降低计算开销的同时保持甚至提高模型准确度的有效性，证明了其在资源受限场景中的可行性。

SSM-Conv融合块的效果。在SE块后集成卷积分支提升了作者模型的性能。对于小方差，添加局部融合特征提取将准确度从73.6%提升到75.1%。在EfficientVMamba-B的情况下，引入融合机制使准确度从80.9%提升到81.2%。

观察到的性能提升揭示了额外的卷积分支增强了局部特征提取。通过集成融合，模型可能从更多样化的特征集中受益，这些特征集捕捉了更广泛的空间细节，提高了模型的泛化能力，从而提升了准确度。这表明，策略性地添加这类分支可以有效地通过提供输入特征图的全面和更细微的响应领域来增强模型的性能。

不同阶段注入卷积块的比较。在本文中，作者得到了一个有趣的观察，即基于SSM的模块EVSS在网络早期阶段更为有益。相比之下，之前关于轻量级ViTs的工作通常在网络的早期阶段注入卷积块，并在深层阶段采用Transformer块。如表6所示，作者比较了在EfficientVMamba-T的不同阶段注入卷积块的性能，结果表明，在深层阶段采用Inverted Residual块比在早期阶段表现更好。对于作者的轻量级VSSMs和ViTs之间相反现象的解释是，Transformer中的自注意力具有更高的计算复杂性，因此在高分辨率下的计算效率较低；而专为高效建模长序列设计的SSMs，在捕获高分辨率下的全局信息方面更为高效和有益。

6 Conclusion

本文提出了EfficientVMamba，一种轻量级的状态空间网络架构，它巧妙地结合了全局和局部信息提取的优势，解决了模型准确性与计算效率之间的权衡问题。通过融合基于扩张的的选择性扫描和有效的跳跃采样，EfficientVMamba确保了全面的全局感受野覆盖，同时最小化计算负担。

将这种扫描方法与卷积分支整合，并通过Squeeze-and-Excitation模块进行优化，能够强有力地重新平衡全局和局部特征。此外，创新性地使用倒置剩余插入进一步精化了模型的多层阶段，增强了其深度和有效性。实验结果确认，EfficientVMamba不仅将计算复杂度降低到，而且在各种视觉任务中也能提供具有竞争力的性能。EfficientVMamba所取得的成绩凸显了它作为一个强大的框架，在轻量级、高效和通用视觉模型发展中的潜力。

Appendix

Comparisons with Other Backbones on Mask R-CNN.

作者还研究了EfficientVMamba作为Mask R-CNN计划中的轻量级 Backbone 网络的性能动态，如表7所示。对于Mask R-CNN 1计划，EfficientVMamba-T模型，拥有1100万个参数和60 FLOPs，达到了35.6%的平均精度（AP）。这比拥有3100万个参数和207G FLOPs的ResNet-18高出1.6%。EfficientVMamba-S拥有更多的参数，3100万个，以及197G FLOPs，达到了39.3%的AP，比拥有4400万个参数和260G FLOPs的ResNet-50高出0.5%。

picture.image

作者最大的模型，EfficientVMamba-B，在拥有5300万个参数和减少的计算量252G FLOPs的情况下，显示出43.7%的更高AP，比VMamba-T高出2.8%。在Mask R-CNN 3 MS计划方面，EfficientVLambda-T保持了38.3%的AP，比ResNet-18的表现高出1.4%。小型变体记录了41.5%的AP，比参数数量相近的PVT-T提高了0.5%。最后，EfficientVMamba-B实现了45.0%的AP，比VLambda-T有了显著2.2%的提升。

Comparisons with MobileNetV2 Backbone

作者比较了不同的架构，并揭示了在特定阶段集成作者的创新块EVSS与倒置残差（InRes）块的显著性能差异。这导致表8显示，在小型和基础变体中的所有阶段一致使用InRes可以获得良好的性能，基础变体的准确度显著达到81.4%。当EVSS被应用于所有阶段（MobileNetV2的策略）时，作者发现两种变体的准确度都有轻微下降，这表明架构一致性与计算效率之间存在细微的平衡。

picture.image

作者融合方法结合了初期阶段的EVSS和后期阶段的InRes，将小型和基础变体的准确度分别提升到76.5%和81.8%。这种策略利用了EVSS在早期阶段的效率以及InRes在高级阶段的卷积能力，从而通过利用两种块类型的优势优化了网络性能，并且计算资源有限。

Limitations

视觉状态空间模型在处理序列长度时具有线性时间复杂度，这在高分辨率下游任务中表现出显著的增强，这与先前的基于CNN和基于Transformer的模型形成了对比。

然而，状态空间模型（SSMs）的计算设计本质上比卷积和自注意力机制都要复杂，这增加了高效并行处理的性能复杂性。未来在优化视觉状态空间模型（SSMs）的计算效率和可扩展性方面仍存在着有希望的研究潜力。

参考

[1].EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba

点击上方卡片，关注「AI视界引擎」公众号