点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
由于动态状态空间模型(SSMs)在捕捉近似线性的长期依赖性方面具有显着的性能,Mamba在NLP任务中表现出令人瞩目的性能。这激发了基于Mamba的视觉模型的快速开发,从而在视觉识别任务中取得了有前途的结果。然而,这种模型不可以通过特征聚合、交互和选择来在层间提取特征。
此外,为卷积神经网络(CNNs)或视觉 Transformer (ViTs)设计的现有跨层特征聚合方法在Mamba型模型中由于计算成本高而不切实际。因此,本文旨在为基于Mamba的视觉 Backbone 网络引入一种高效的跨层特征聚合机制。
受到人眼视网膜 ganglion 细胞的启发,作者提出了一种新的稀疏跨层连接机制,称为 SparX,有效提高了跨层特征交互和重用。
具体而言,作者构建了两种不同类型的网络层:ganglion层和普通层。前者具有更高的连接性和复杂性,使特征可以以输入相关的依赖方式进行多层聚合和交互。
相比之下,后者具有较低的连接性和复杂性。通过交错这两种类型的层,作者设计了一种具有稀疏跨连接层的新视觉 Backbone 网络,实现了模型大小、计算成本、内存成本和与对应物的准确性之间的优秀折衷。
例如,SparX-Mamba-T 在更少的参数下,将 V Mamba-T 的 top-1 准确率从 82.5% 提高到 83.5%。而 SparX-Swin-T 相对于 Swin-T 实现了 top-1 准确率的 1.3% 提高。
大量实验结果表明,作者的新型连接机制在各种视觉任务上都具有优越的性能和泛化能力。
代码将在 https://github.com/LMMMEng/SparX 公开可用。
1 Introduction
语义上下文建模在计算机视觉任务中起着重要的作用,包括图像分类、目标检测和语义分割。近期的研究探索了大规模核卷积来扩大感受野来获得强大的远程模型能力。然而,具有大规模卷积核的CNN和Vision Transformers都存在局限性。CNN的性能仍然落后于高级ViTs,而后者在处理高分辨率输入时,由于其平方复杂度,计算成本会大幅增加。
得益于动态状态空间模型(SSMs),其能够以近线性复杂度捕获长期依赖性,Mamba Gu和Dao(2024年)在自然语言处理(NLP)任务上表现出色。在此基础上,Zhu等人(2024年);Yang等人(2024年);Liu等人(2024年);Huang等人(2024年);Behrouz,Santacatterina和Zabih(2024年);Pei,Huang和Xu(2024年)等人提出了基于Mamba的视觉模型,以实现视觉任务上的优秀结果。这些工作通过利用SSMs,这主要用于从同一层中的标记中捕获空间上下文信息,使视觉模型实现了线性时间的远程模型能力。然而,不同层中的标记特征可能存在互补性和冗余性,因为它们在不同 Level 和粒度上捕获图像特性和语义。因此,需要从不同层提取有用信息,并通过聚合、交互和选择来消除冗余。然而,现有的基于Mamba的视觉模型无法实现跨层特征提取,限制了SSM的潜力。
尽管跨层特征交互和重复使用已被证明能够有效提高CNN和Vision Transformers(如DenseNet [16]和FcaFormer [23])的性能,但这些方法并不直接适用于Mamba-based视觉模型。
如图4所示,当VMamba重构为DenseNet风格的网络(DSN)时,吞吐量减少了近50%,同时GPU内存使用增加了1GB。同时,如图5所示,将Spatial Cross-Attention(SCA)作为FcaFormer的多层特征交互模块会导致与简单特征 ConCat 相比,GPU内存使用超过80%,这是由于注意计算的平方复杂性。因此,设计一个有效的连接模式以促进Mamba-based模型中的跨层特征交互,是一项重大的挑战。
不同于现有研究主要关注改进基于Mamba的密码混合器,在本工作中,作者提出了一种新颖的架构设计,显著提高了基于SSM(Sub-Sequence Modulated)视觉模型的性能。作者的设计受到人类视觉系统中的视网膜神经节细胞(RGCs)的启发。RGCs作为人视觉系统中的信息传输枢纽,将视网膜输入与中枢神经系统中的视觉处理中心连接起来[17]。由于RGC层的复杂神经架构和多样化的细胞组成[13, 14],它与视觉系统中的其他细胞层之间有更多的连接,从而促进了与其他层之间的复杂神经交互。受到这种生物机制的启发,作者提出了一种名为SparX的新颖稀疏跨层连接机制。作者定义了两种基于SSM的基本层,即正常层和神经元层。前者的信息流动较少,从前一层接收一个输入并连接到少数后续层。相比之下,后者与后续层建立更多连接,并编码来自多个前一层输入。神经元层和正常层的组合模拟了人类视觉系统中非RGC层与RGC层的组合。
现有文献[15]也证实RGCs产生多样化的细胞间通信,包括RGC-RGC相互作用和RGC-非RGC相互作用。受到这一前提启发,作者在神经元层中引入了一种新的动态多层通道聚合器(DMCA),旨在有效地促进跨多个层之间的自适应特征聚合和交互。此外,为了保持速度和降低内存消耗,作者引入了一种跨层滑动窗口,其中只允许每个神经元层与其他相同滑动窗口中的神经元层相连接。
通过在馈向前网络中层次交互地混叠神经元层和正常层,作者设计了一种新的基于Mamba的视觉背板,名为SparX-Mamba。除了基于Mamba模型的固有优势外,作者的SparX-Mamba在性能和计算成本之间实现了优秀的权衡。值得一提的是,SparX-Mamba与普通通过堆叠相同层设计构建的视觉模型不同,从而在所有层之间获得相似的特征提取能力。与SparX-Mamba相比,SparX机制也成功应用于层次视觉Transformer,如Swin[15],所产生的模型也具备了上述对于原Transformer模型的优势。
图1显示,提出的SparX-Mamba 在参数数量更少的情况下,优于最近提出的VMamba 以及经典的CNN和Transformer基础模型。例如,与VMamba-T进行比较,SparX-Mamba-T在ImageNet-1K上的Top-1精度达到83.5%,显著超过了VMamba-T(82.5%)。在与UperNet集成进行ADE20K数据集的语义分割时,SparX-Mamba-T在mIoU方面比VMamba-T优秀1.7%。另外,当集成至Mask R-CNN进行COCO 2017数据集上的目标检测时,SparX-Mamba-T在AP(平均精度)上比VMamba-T高出1.3%,甚至超过了VMamba-S,其复杂度几乎是SparX-Mamba-T的1.5倍。同时,SparX-Mamba的轻量级和基础版本也显示了与VMamba显著的性能提升。此外,表8显示,作者的Sparx-Swin-T与Swin-T的Top-1精度对比提高了1.3%。
总之,作者的主要贡献有三点:
第一,受人类视觉系统中的RGCs启发,提出了一种新颖的跳跃连接机制名为SparX,它动态地、稀疏地配置交叉层连接,从而实现多样化的信息流和 improved feature distillation。
第二,在Mamba和Transformer的基础上,作者提出了两种通用的视觉背骨,SparX-Mamba和SparX-Swin,由两种功能不同的层组成,其中一种负责相对较远的层之间的通信。
第三,作者进行了在图像分类、目标检测和语义分割任务上的广泛实验。
结果表明,作者新的网络架构在性能和计算成本之间取得了显著的平衡。
2 Related Work
卷积神经网络(CNNs)
卷积神经网络(CNNs)作为计算机视觉领域中最常用的深度学习架构而崭露头角[16, 17, 15]。
黄等人在2017年提出了CNNs中一个明显的变化,即从传统的较小的卷积核设计转变为更注重大核的设计。显著的例子包括ConvNeXt(刘等人,2022年)、RepLKNet(丁等人,2022b, 2024年)和SLAK(刘等人,2023年)。最近,InceptionNeXt(余等人,2024年)通过将经典Inception网络与ConvNeXt相结合,在性能上取得了显著的进步。
视觉Transformer(ViT)
为了将Transformer从NLP任务应用到计算机视觉任务中,视觉Transformer(ViT)[5, 21]将图像分割为视觉token,通过patch embedding实现多头自注意力(multi-head self-attention,MHSA),从而能够学习token与token之间的依赖关系。为了进一步生成层次化特征表示并提高模型效率,许多后续工作采用了金字塔架构设计,包括窗口注意力(窗口自注意力,window attention,Liu等人,2021年;东等人,2022年;潘等人,2023年)、稀疏注意力(Yang等人,2021年;王等人,2022年;任等人,2022年;吴等人,2023年)以及卷积-注意力混合模型(Dai等人,2021年;赵等人,2021年;李等人,2022年,2023年;余等人,2024年a)。
视觉Mamba
由于Mamba(管和道,2024年)在NLP任务中取得了惊人的性能,许多研究行人将Mamba转移到计算机视觉任务。作为Mamba的核心,SSM可以模型长程依赖关系并以接近线性的复杂度进行近似,并已经在视觉任务中表现出优秀的性能。例如,ViM(朱等人,2024年)引入了双向SSM模块并构建了一个类似于ViT(道斯等人,2021年)的同质化架构。同样,PlainMamba(杨等人,2024年)也构建了一个同质化架构,并进行了连续二维扫描。VAMba(刘等人,2024年)扩展了扫描方向,包括四个方向,并是一个早期SSM分层架构。随后,一系列分层视觉Mamba模型被提出,包括MambaMixer(Behrouz等人,Santcatterina和Zabih,2024年)、LocalMamba(黄等人,2024年)和EfficientVMamba(佩尔、黄和徐,2024年)。
Short-Cut 路径
ResNet(何等人,2016年)提出了深度CNN中的残差连接,以减轻梯度消失和梯度爆炸问题,通过绕过短路径实现。为了多样化信息流,DenseNet(黄等人,2017年)进一步引入了稠密连接,它们使用所有前层输出的集合来计算一个层输入。DPN(陈等人,2017年)利用ResNet和DenseNet中的 Short-Cut 路径构建了一个双路径网络。在密集预测任务的领域,U-Net(Ronneberger,Fischer和Brox,2015年)和FPN(林等人,2017年)利用 Short-Cut 路径在编码器和解码器之间弥合低级细节和高级上下文之间的差距。本工作提出了一种新的 Short-Cut 路径机制,该机制可以动态配置稀疏跨层连接,从而使性能优于现有方法。
跨特征注意力
跨特征注意力可以通过改善不同特征之间的交互增强特征表示。例如,许多工作(Chen,Fan和Panda,2021; Lee等人,2022; Wang等人,2023a; Ren等人,2022年;Wu等人,2023年)提出了通过生成多尺度token来执行跨特征注意力,然后将它们输入到自注意力或跨注意力层中,以模拟多尺度交互。最近,FcaFormer(张、胡和王,2023年)在同一个层中的空间token与前层表示性tokens之间引入了跨层特征交互。与现有方法不同,作者引入了一种新型的按通道跨特征注意力机制,该机制可以动态集成前层特征通道,从而促进高效的跨层特征交互。
3 Method
Sparse Cross-Layer Connections
概述
受人类视觉系统中视网膜神经节细胞(RGGs)的工作方式启发,作者提出了一种名为SparX的新颖稀疏交叉层连接机制。目标是高效建模跨层通信,生成多样信息流,并在分层次视觉架构中提高特征重用。在本节中,作者使用分层次视觉Mamba作为参考网络架构,但作者的方法也可应用于分层次视觉Transformer。如图2所示,SparX有三个构建组件:动态位置编码(DPE)(Chu等人,2022年),Mamba块和新提出的动态多层通道聚合器(DMCA)。其中,DPE利用了残差3x3深度卷积(DWConv),在现代视觉backbone网络(Li等人,2023年;Chu等人,2021年;Guo等人,2022年)中得到了广泛应用。Mamba块有效地捕获了长程依赖关系,具有近线的计算复杂度。然而,原始的Mamba块(Gu和Dao,2024年)不适合直接嵌入视觉backbone中。因此,作者使用VSS块,自引入以来在VAMba Liu等人(2024年)中表现出良好的性能。提出的DMCA动态聚合、选择和编码跨层特征,从而产生强大而健壮的特征表示。
在这些基本组件之外,作者在SparX中构建了两种类型的网络层:神经节层('DPE→DMCA→VSS'块)和通用的层('DPE→VSS块')。通用层和神经节层在前后馈网络中交错,以实现稀疏方式的有效建模跨层特征交互。以下是基本组件和作者整体网络结构的具体说明。
连接规则
在普通的密集连接黄等人(2017年)中,每个层都与所有前面的层相连。尽管DenseNet的计算量较低,但需要重复访问许多先前的特征图,这导致高的内存成本和低的速度。尽管Pleiss等人(2017);黄等人(2019年)已经做出了降低内存成本的努力,但密集连接在需要将模型扩展到更深和更广的架构时仍然面临挑战。因此,原始的密集连接机制在Mamba模型中的计算成本过高,Mamba模型的 Token 混合器比标准卷积更复杂。为此,作者提出SparX,可以高效地集成到最近的Mamba模型中。在SparX中,作者引入了两个新的规则,包括稀疏布置神经节层和使用跨层滑动窗口来控制交叉层连接的密度。
稀疏神经元层(Sparse Ganglion Layers)旨在设计一个子集,该子集中的层均匀地间距设置为神经元层,而其余所有层均为普通层。要控制神经元层的密度,作者定义了一个超参数,称为步长(stride,S),它表示在两个最近神经元层之间的普通层数加一。
作者进一步定义了两种跨层连接类型:
(1) 神经元层与普通层之间的内连,(2) 两个神经元层之间的间连。为了设置稀疏跨层连接,神经元层只与其最近的前置神经元层以及自身之间进行内连,而与其他前置神经元层之间进行间连。跨层连接的原因在于,神经元层可以被看作是一个信息交换中心,它收集最近普通层的信息并与其他神经元层进行交换。
为了确保网络或层的最终输出包含丰富的语义信息,网络或层的最后 layer 通常是神经元层。例如,如果作者有一个 8 层的网络,并将步长(stride,S)设置为 2,那么正常层的索引为 {1,3,5,7},而神经元层的索引为 {2,4,6,8}。
跨层滑动窗口 提出了一种进一步改进计算效率的方法,灵感来自空间滑动窗口。这种设计背后的动机是,尽管使用了稀疏连接,深层次网络可能仍然由于需要存储和访问大量早期特征图而面临较高的内存成本。为此,作者引入了一个新的超参数
,它限制一个神经元层只能与其最近的 个前置神经元层之间进行间连。根据这些两个新规则,即使在没有直接连接的情况下,信息也可以通过相对较少的内连和间连从较浅的层流向较深的层。图2 说明了具有 S=2 和 M=2 的 SparX 的一个示例。为了从前一层中选择互补特征,并动态地建模多层交互,作者提出了一种高效的动态多层通道聚合器(DMCA)。如图3所示,令 表示神经元层的特征, 表示来自前一层神经元层和正常层的特征,其中 和 分别表示通道和空间维度,各自不同。
首先,将前层的特征拼接起来,并将其通道维数扩展到 2C 使用线性层。然后,将扩展后的特征均匀地分割到通道维度的两个部分,分别为 和 。接着,作者设计了一种群体通道交叉注意力(GCCA)机制,其中 query_、_key 和 value 分别指 、 和 。具体而言,作者将通道数划分为多个组,并在每个组内计算通道间的交叉注意力。在作者的实验中,组数(G)始终设置为 4。因此,在作者的 GCCA 中,所有组的总体注意力向量 的大小为 ,以避免在采用大空间分辨率时出现高昂的计算和内存开销。
另一方面,channel-wise cross-attention计算一个注意力矩阵,衡量从 query 和key 中每个变换的通道对之间的相似度,而空间维度被消除。需要注意的是,空间分辨率直接影响计算这个注意力矩阵的成本,因为它决定了 query 和 key 中每个通道的维度。一个关键的观察是,注意力矩阵的大小与 query 和 key 的空间维度无关,其空间减少版本可以用于计算原始注意力矩阵的近似值。基于这一观察,作者采用了空间降维策略来提高计算效率。具体地说,作者使用空间降维器将 query 和 key 中的空间标记数从N压缩到N/r。在作者进行实验的过程中,确定r的规则是将N/r设置为网络最终阶段标记数,这一方法遵循PVT(Wang等人,2021,2022)的规定。尽管这种操作在PVT中可能与空间降维操作相似,但它为不同的目的服务。
在PVT中,空间降维被用来计算空间标记到区域的注意力,对于_key_和_value_进行降维应用。在作者这里,作者使用空间降维策略来高效计算通道到通道的注意力,对于_query_和_key_进行降维应用。计算好注意力矩阵后,它被用于聚合_value_的通道,保持原始空间分辨率。来源于channel-wise cross-attention的最终特征可以被视为在_query_的引导下_value_的选定特征。最后,作者将,和拼接在一起,然后经过线性层将通道数量降至2C。从 channel-wise cross-attention 计算的结果可以通过下面的形式表示:
其中是指用于通道投影的线性层,即且。同时,表示一种空间降维器,实现为strided DwConv,而且。
总的来说,SparX引入了两个灵活的超参数,即和,这使得扩展网络变得更浅更宽变得更容易和更高效。此外,引入了DMCA,实现了强跨层特征交互,从而产生了更强大和鲁棒的代表性。
Network Architecture
基于提出的稀疏跨层连接方法,作者开发了一种名为SparX-Mamba的新Mamba视觉backbone,它是一个四阶段的层次化架构,包含三个不同的变体:微型,小和基础。在第一阶段,由于使用大分辨率输入时的计算开销很高,因此不包括任何神经突层。也就是说,第一阶段只包含两个正常层。在第二阶段,作者将第二层指定为神经突层,它与前一层的内连接。由于第三阶段的层数更多,作者对三个变体设置不同的超参数。如表1所示,由于微型模型的相对较浅的深度,作者设置S为2,而在小和基础模型中,作者设置S=3,以避免深度模型的计算开销。在第四阶段,由于这一阶段处理最低分辨率的特征,导致相对较小的计算开销,因此作者将所有层都设置为神经突层。此外,为了方便不同阶段的通信,每个阶段的第一个神经突层连接到前一个阶段的下采样最终特征的版本。此外,跨层滑动窗口只在每个阶段内部应用,以防止由于存储过多特征而导致的高内存消耗。
4 Experiments
在本节中,作者对代表性的视觉任务进行实验评估,首先从图像分类开始。然后,预训练模型被转移到下游任务,包括目标检测和语义分割。所有实验都在8块NVIDIA H800 GPU上进行。由于页面限制,在本节中作者只能展示部分结果,而在附录A中提供了更多的实验结果。
Image Classification
实验设置 对于图像分类任务,作者使用ImageNet-1K数据集[14],并严格遵循DeiT [15]中描述的实验设置,以确保公平比较。作者的方法与其他代表性模型进行了比较:基于CNN的方法(CNN-Extended,InceptionNeXt,SLaK和UniRepLKNet)[13],基于Transformer的方法(Focal-Transformer[14],PVTv2[15],Swin[14],CSWin[14]和UniFormer[13]),以及基于Mamba的方法(PlainMamba[15],ViM2[1],VMMaba[13],EfficientVMMaba[13])。
结果 表2展示了作者的模型在与其他CNN,-Transformer和Mamba基础方法的比较中具有显著优势。例如,SparX-Mamba在top-1精度上分别比CNN-Extended-T/Swin-T高出1.4%/2.2%。与最近的VMMaba-T相比,作者的模型在更少的参数和FLOPs下实现了1.0%更高的top-1精度。此外,即使使用更大的模型,SparX-Mamba也保持了明显的优势。
值得注意的是,尽管作者的方法复杂度与VMMaba一致,但表2中包含的一些代表性方法显然具有更少的FLOPs或参数。这些方法的性能包含在表2中,以补充说明,但不是直接与作者模型进行比较。同时,作者还与更先进的CNN和Transformer模型进行了更全面的比较。如Appendix A.5所示,作者的SparX-Mamba在ImageNet-1K分类中表现出竞争力,并在下游任务上显露出明显的优势。
Object Detection and Instance Segmentation
设置。为了评估作者的网络架构在目标检测和实例分割方面的性能,作者在COCO 2017数据集[13]上进行实验。作者使用Mask R-CNN框架[12],并采用与Swin[13]中相同的实验设置。 Backbone 网络最初在ImageNet-1K上预训练,然后在该基础上再训练12个周期(1倍周期)以及36个周期(3倍周期+多尺度训练)。由于页面限制,基于不同IoU阈值的结果在附录表7中给出。
结果。如表3所示,作者的模型在目标检测和实例分割方面在其他模型上的性能优越。具体而言,SparX-Mamba-T在使用1倍周期微调时,与VMMaba-T相比,实现了0.7%/0.4%更高的/,而在使用3倍周期微调时,则超过了VMMaba-T的1.3%/1.0%的/。
值得注意的是,SparX-Mamba-T甚至在使用3倍周期微调时,超过了具有更多Params和FLOPs的VMMaba-S。此外,作者的方法还与其它优秀的视觉 Backbone 网络相比,表现出优越的性能。
Semantic Segmentation
设置。语义分割实验在ADE20K数据集[16]上进行。作者使用了两种分割框架,语义FPN(S-FPN)[17]和UperNet[18]。为了确保公平的比较,作者将所有的 Backbone 网络都初始化为ImageNet-1K预训练权重。此外,作者严格遵循了之前工作[13]中描述的训练设置。
Ablation Studies
实验设置:为了评估SparX中单个组件的有效性,作者对图像分类和语义分割进行了全面的消融研究。首先,作者使用与第4.1节相同的训练设置在ImageNet-1K数据集上训练每个模型变体。然后,作者使用S-FPN框架和与第4.3节描述的相同的训练配置在ADE20K数据集上微调预训练模型。
与DenseNet类似网络的比较:基于SparX-Mamba-T,作者进行了以下实验:(1)为了验证作者稀疏交叉层连接的正确性,作者将SparX中的步长(S)设置为2,通过删除滑动窗口并连接每个扇区层与所有先前的扇区层和常规层来建立交叉层连接。这种设计被称为"Dense Ganglion Connections (DGC-Mamba-T)"。 (2)为了验证作者的模型在DenseNet[16]方面的优越性,作者将S参数设置为1,并删除交叉层滑动窗口,从而设计一个类似于DenseNet的网络。这种模型被称为"DenseNet-style Network (DSN-Mamba-T)"。
如表4所示,作者观察到DGC和DSN两种类型的高密度交叉层连接(DGC和DSN)与VMamba相比在计算开销方面有明显增加,尤其是在吞吐量明显减少和内存使用明显增加方面,这可能会阻碍对更大模型的扩展。相比之下,作者的SparX只在吞吐量略有降低和内存使用略有增加的情况下取得了更显著的改进,表明其在基于Mamba的模型中的高效率和有效性。
与不同交互方法进行比较:基于SparX-Mamba-T,作者用其他融合方法替换了作者的DMCA进行多层特征交互:(1)将整个DMCA模块删除并将当前层及其选择的先前层特征直接连接到Conv-FFN层进行特征融合。使用Conv-FFN进行特征融合保持了 Baseline 模型的可比复杂度。这种设计被称为"Concat"。 (2)从DMCA中移除分组通道交叉注意力(GCCA)[14]。这意味着不需要进行空间减少和计算空间减小 Query 和键之间的交叉注意力矩阵,但值仍需计算。然后 Query 和值仍然直接连接并使用Conv-FFN层进行融合。这种设计被称为"w/o GCCA"。 (3)用PVT[14]中提出的空间削减注意(SRA)替换DMCA的注意力计算,以比较通道混合和空间混合的性能。 (4)用FcaFormer [15]中提出的空间交叉注意力(SCA)替换作者的DMCA,以比较不同的多层特征聚合机制的性能。这种版本被称为"SCA"。
如表5所示,作者的DMCA在动态特征检索的前层特征聚合和选择方面展示了更好的跨层特征聚合和选择,具体而言,"Concat"和"w/o GCCA"的结果与作者的DMCA相比在性能上显着降低。同时,DMCA可能优于SRA和SCA,因为DMCA提供动态通道混合,这与使用SSM进行的空间混合互补。值得注意的是,一些以前的工作已经表明,将通道和空间动态相结合可以带来更好的性能[13,14]。反过来,SRA和SCA作为空间混合器类似于SSM,牺牲了模型有效表示多维特征的能力。更重要的是,与简单的特征 ConCat 相比,SRA和SCA由于平方复杂度导致更高的内存成本和降低的吞吐量,而作者的DMCA只有略微增加计算开销。表明其效率更高。
5 Conclusion
在本工作中,作者提出了一种新的 Short-Cut 策略,名为SparX,灵感源自人体视觉系统中的视网膜神经节细胞(RGC)层。
SparX旨在创建稀疏跨层连接,以增强信息流动和促进特征提炼和重用,同时基于Mamba模型。此外,作者提出了一种动态多层通道聚合器(DMCA),以方便动态层间特征聚合和交互。
在SparX的基础上,作者进一步提出SparX-Mamba和SparX-Swin网络架构,在各种具有挑战性的视觉任务中展现出优越性能。
参考
[1].SparX: A Sparse Cross-Layer Connection Mechanism for.
点击上方卡片,关注 「AI视界引擎」 公众号