拿下二区idea!即插即用创新点:多尺度注意力!

向量数据库大模型算法

今天给大家分享一个,至少能出二区idea的即插即用创新点:多尺度注意力! 其不仅涨点效果显著,而且很有启发性,近来热度一直居高不下!比如代表模块EMA,23年5月才发表,如今引用量已经100+了!此外,还有像是模块MSDA,则能在性能提升的同时,浮点运算降低70%!

主要在于:该模块通常包括多个并行的注意力子模块,每个子模块关注于输入数据的不同尺度或分辨率。这些子模块可以独立地计算注意力权重,并生成对应尺度的特征表示。 从而帮助模型更好地利用输入数据中的信息,提升性能和泛化能力。

为让大家更加深入理解该方法,落地到自己的文章里,我给大家准备了17种创新方法 ,原文和代码都有,一起来看!

扫描下方二维码,回复**「多尺度attention」**

免费获取全部论文合集及项目代码

picture.image

论文分享

[引用113次)]1. Efficient Multi-Scale Attention Module with Cross-Spatial Learning

「简述」

通道或空间注意力机制在各种计算机视觉任务中显示出显著的有效性,能够产生更易于识别的特征表示。然而,通过通道维度减少来建模跨通道关系可能会带来提取深层视觉表示的副作用。

在这篇论文中,提出了一种新颖的高效多尺度注意力(EMA)模块。专注于保留每条通道的信息并减少计算开销,作者将部分通道重塑为批量维度,并将通道维度分组为多个子特征,使空间语义特征在每个特征组内得到均匀分布。 具体来说,除了将全局信息编码到每个并行分支中以重新校准通道维度上的权重外,两个并行分支的输出特征还通过跨维度交互进一步聚合,以捕捉像素级对之间的关系。

picture.image

「Nature」2. Multi-scale attention network (MSAN) for track circuits fault diagnosis

「简述」

本文提出一种基于多尺度注意力网络的故障诊断方法,使用Gramian Angular Field(GAF)将一维时间序列转换为二维图像,充分利用卷积网络处理图像数据的优势。设计了一种新的特征融合训练结构,有效地训练模型,充分提取不同尺度的特征,并通过空间注意力机制融合空间特征信息。 最后,使用真实的轨道电路故障数据集进行实验,故障诊断的准确率达到99.36%,该模型在与经典和当前最佳模型的比较中表现出更好的性能。消融实验验证了该设计模型中的每个模块都发挥了关键作用。

picture.image

3. DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition

「简述」

在这项工作中,本文探索有效的Vision Transformers,以在计算复杂度和关注感知野大小之间实现更理想的权衡。通过分析ViTs的全局注意力的块交互,作者在浅层观察到两个关键特性:局部性和稀疏性,这表明ViTs浅层的全局依赖模型存在冗余。 因此,我们提出Multi-Scale Dilated Attention(MSDA)来在滑动窗口内建模局部和稀疏的块交互。通过采用金字塔结构,本文构建了Multi-Scale Dilated Transformer(DilateFormer),其中堆叠了MSDA块。在低层阶段采用稀疏卷积和全局多头自注意力块,在高层阶段采用稀疏卷积和全局多头自注意力块。

picture.image

4. Multi-Scale Representations by Varying Window Attention for Semantic Segmentation

「简述」

多尺度学习是语义分割的核心。本文可视化了标准多尺度表示的有效感受野(ERF),并指出了学习它们的两个风险:尺度不足和感受野失活。 为了解决这些问题,本文提出了一种新颖的多尺度学习器——可变窗口注意力(VWA)。VWA利用局部窗口注意力(LWA),并将其分解为查询窗口和上下文窗口,使上下文的尺度可变,以便查询学习在不同尺度上的表示。

本文提出了一种简单但专业的重缩放策略,以消除额外的引入成本,而不影响性能。因此,VWA的成本与LWA相同,从而克服了局部窗口的感受野限制。此外,作者根据VWA和使用各种MLPs,引入了多尺度解码器(MSD)VWFormer,以改善语义分割的多尺度表示。 VWFormer在效率上与像FPN和MLP解码器等计算友好的MSDs相当,但在性能上却比任何MSD都要好。

picture.image

扫描下方二维码,回复**「多尺度attention」**

免费获取全部论文合集及项目代码

picture.image

5. scAMAC: self-supervised clustering of scRNA-seq data based on adaptive multi-scale autoencoder

「简述」

本文开发了一种基于自适应多尺度自动编码器的全新自监督聚类方法,称为scAMAC。该自监督聚类网络利用多尺度注意力机制将多尺度自动编码器的编码器、隐藏层和解码器层的特征信息融合在一起,从而在相同尺度内探索细胞之间的关联,并在不同尺度上捕获深层特征。 自监督聚类网络使用融合后的潜特征计算成员矩阵,并根据成员矩阵优化聚类网络。scAMAC采用自适应反馈机制来监督多尺度自动编码器的参数更新,从而获得更能有效表示细胞特征的表示。scAMAC不仅可以进行细胞聚类,还可以通过解码层进行数据重构。

picture.image

6. Hierarchical Point Attention for Indoor 3D Object Detection

「简述」

这项工作提出了两种新颖的注意力操作,作为点云Transformer检测器的通用层次结构设计。首先,本文提出了Aggregated MultiScale Attention(MS-A),从单尺度输入特征构建多尺度令牌,以实现更细粒度的特征学习。 其次,我们提出了Size-Adaptive Local Attention(Local-A),在边界框提案内采用自适应注意力区域进行局部特征聚合。 这两种注意力操作都是与模型无关的网络模块,可以插入现有的点云Transformer中进行端到端训练。本文将在两个广泛使用的室内检测基准上评估我们的方法。通过将我们提出的模块集成到当前最先进的基于变换器的3D检测器中,在两个基准测试上都提高了之前的最佳成绩,尤其是在较小物体上的改进更为显著。

picture.image

7. EffcientViT: Lightweight Ulti-Scale Attention forOn-Device Semantic Segmentation

「简述」

本文介绍了EfficientViT,这是一种新型的高分辨率视觉模型,具有新颖的多尺度线性注意力机制。与依赖于重型softmax注意力、硬件效率低的大核卷积或复杂的拓扑结构以获得良好性能的先前高分辨率稠密预测模型不同,我们的多尺度线性注意力仅通过轻量级和硬件高效的操作实现了全局感受野和多尺度学习(对于高分辨率稠密预测的两个理想特性)。 因此,EfficientViT在包括移动CPU、边缘GPU和云GPU在内的多种硬件平台上实现了显著的性能提升,同时在Cityscapes上没有性能损失。

picture.image

8. LENet: Lightweight And Efficient LiDAR Semantic Segmentation UsingMulti-Scale Convolution Attention

「简述」

基于LiDAR的语义分割在机器人学和自动驾驶领域至关重要,因为它能提供对场景的全面理解。本文提出了一种名为LENet的轻量级高效投影基语义分割网络,具有编码器-解码器结构,用于LiDAR基语义分割。编码器由一种新颖的多尺度卷积注意力(MSCA)模块组成,具有可变的接收域大小,以捕获特征。解码器采用Interpolation And Convolution(IAC)机制,利用双线性插值进行多分辨率特征图的上采样,并通过单个卷积层将先前和当前维度的特征进行整合。 这种方法显著降低了网络的复杂性,同时提高了其准确性。此外,本文引入了多个辅助分割头,进一步提升网络的准确性。

picture.image

扫描下方二维码,回复**「多尺度attention」**

免费获取全部论文合集及项目代码

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论