多视角 Transformer,在图像分类、目标检测以及实例和语义分割实现Top-1 精度 !

向量数据库大模型云通信

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明

凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

picture.image

目前正积极研究如何提升视觉 Transformer (ViTs)的效率。大多数研究都集中在有效Token混合器的研究上,忽略了归一化可能带来的潜在关系。

为了促进多样化的特征学习,作者提出两个组件:一个称为多视图归一化(MVN)的归一化模块和一个称为多视图Token混合器(MVTM)的Token混合器。

MVN通过使用可学习加权和结合批量、层和实例归一化的三种不同归一化特征来整合这些信息。每种归一化方法输出不同的分布,生成不同的特征。

因此,MVN有望向Token混合器提供多样化的模式信息,从而产生有益的协同效应。

MVTM是一种基于卷积的多尺度Token混合器,具有局部、中间和全局滤波器,并且通过在每个阶段配置Token混合器的不同感受野来实现阶段特异性,有效地捕捉视觉模式的不同范围。

作者提出了一种新颖的ViT模型——多视角 Transformer (MVFormer),在MetaFormer块中采用MVN和MVTM,这是一种通用的ViT方案。

作者的MVFormer在图像分类、目标检测以及实例和语义分割方面表现出色,性能优于同参数或更低参数量的状态最先进基于卷积的ViTs。

特别地,MVFormer的变体MVFormer-T、MVFormer-S和MVFormer-B分别在ImageNet-1K基准测试中实现了83.4%、84.3%和84.6%的Top-1精度。

  1. Introduction

视觉Transformer(ViTs)在计算机视觉领域取得了巨大成功[9]。随着传统Transformer中的自我注意机制[46]受到广泛关注,许多研究提出了各种有效且高效的空域混合方法,统称为Token混动器,以改进或替代自我注意。一些研究提出了注意力变种方法,例如Swin[26],以增强传统自我注意的效率;而另一些研究则提出了具有竞争力的非注意力Token混动器。在目前可用的选择中,卷积运算符最近被应用于Transformer块中。例如,ConvNeXt[27]模型是一个里程碑式的工作,它通过引入一种Transformer变体方案,将卷积与ViT相结合,以现代化卷积神经网络(CNN)。最近的研究表明,在ViT中适当引入归纳偏置是有益的,这已成为一个不断发展的研究主题。

MetaFormer [58, 59] 是一个从 Transformer 抽象而来的架构方案,其中未指定 Token 混合器。虽然 Token 混合器一直是确保特征多样性的主要焦点,但近期 ViTs 中的其他组件大多基于 MetaFormer [48]。在这些建筑组件中,作者重点关注归一化部分。 BatchNorm (BN) [18]、层归一化 (LN) [1] 和实例归一化 (IN) [45] 由于其不同的归一化维度会生成不同的分布和特征。受此启发,作者进行了简单的可视化研究,以观察不同归一化处理的图像集成时所发生的变化,如图1 所示。每种方法都会在输入图像中突出特定的模式。所有这些模式在三个归一化图像的平均合成图像中也都可见。通过这一观察,作者确认了集成多种归一化处理可以向 Token 混合器传达具有不同分布的多样化特征集。

picture.image

在本研究中,作者介绍了一种Normalization模块——多视角归一化(MVN),以促进特征学习的多样化。MVN通过BN、LN和IN三种不同归一化的特征进行组合,使用可学习的加权和。这种方式使MVN能够灵活地反映多样化的具体特性,如批量级、通道级和样本级依赖性,向Token混音器提供多种特征分布,并使其能够适当地利用这些特征。实验结果证实,这种简单的机制能够在几乎不增加参数和计算成本的情况下显著提升性能。此外,MVN可以很容易地应用于现有的ViT和CNN架构,例如Swin [26]和ConvNeXt [27],并持续提升其原始性能。更重要的是,实验结果强烈支持这样一种见解:每种归一化的独特属性在其性能中发挥着重要的作用,它们的适当组合能够产生有益的协同效应。

此外,为了进一步扩大Token混合法的混合范围,作者提出了一种卷积Token混合法,称为多视图Token混合法(MVTM)。类似于最新的基于卷积的ViTs [11, 60],MVTM 是一个多尺度深度卷积操作符,它通过不同的感受野在通道上使用多个混合滤波器。与现有的局部和全局混合滤波器二分法不同,MVTM 包含局部、中间和全局混合滤波器以增强其混合能力。此外,MVTM 引入了阶段特异性,根据不同阶段所需的感受野范围差异性地调整每个层次混合滤波器和全局混合滤波器的体积,从而实现高效的整体多尺度Token混合 。

作者提出了一种基于卷积的新型ViT,即多视角Transformer(MVFormer),通过在MetaFormer块中采用MVN和MVTM。MVFormer解决了现有Token Mixer在从多个视角捕获多样化模式方面的不足,并进一步扩展到规范化方面。

得益于增强后的视角容量,MVFormer在广泛的实验中展示了显著的效率和有效性。MVFormer在图像分类和下游任务、目标检测、实例分割和语义分割上均优于其他现有的基于卷积的ViT,且参数量和乘累加次数(MACs)相当甚至更少。特别是,MVFormer的tiny(-)、small(S)和base(B)变体分别在ImageNet-1K基准测试上取得了最先进的性能(SOTA),分别为83.4%、84.3%和84.6%。本文的主要贡献总结如下:

作者提出了MVN,它整合了各种归一化特征以多样化特征学习,为Token混合器提供了多种特征分布。这是首次在ViTs中研究归一化整合范式。MVN显著提升了性能,且参数和计算成本几乎没有增加。

作者引入了MVTM多尺度卷积Token混合器,以便更好地捕获多样化的空间模式。MVTM还体现了阶段特异性,在每个阶段根据其偏好的混合比例设置Token混合器的感受野,有效利用了特征金字塔结构。

通过在MetaFormer模块中采用MVN和MVTM,作者展示了MVFormer,该模型在图像分类、目标检测以及实例和语义分割任务上超越了基于卷积的传统ViTs,甚至在相同或更少的参数和MACs的情况下。

  1. Related Work

2.1. Normalization for Computer Vision Tasks

归一化方法已被研究作为深度神经网络的关键组件,以提高训练速度和稳定性。通常,BN [18] 在视觉相关的CNN中发挥着重要作用。然而,其基于小批量的数据依赖性在小批量尺寸下已证明会导致几种视觉任务上的性能下降,例如语义分割 [1]。

为了改进这一点,已经提出了几种BN变体,如批次重规范化 [17]、EvalNorm [39]、MABN [53] 和 PowerNorm [37]。LN [1] 首次在自然语言处理(NLP)中出现,以解决循环神经网络中的累积输入问题。与BN相比,LN会在所有数据点上等价地计算通道统计值。当LN被引入最初的Transformer时,它已经被近期的Vision Transformers (ViTs) [9, 26, 43] 所采用。

分组归一化(GN)是一种推广的LN,用于计算分组通道的统计值。之前的研究提出了一种修改后的LN(MLN),将其与单一分组等同起来,以改善PoolFormer [58] 的性能。此外,已有研究通过将BN参数插入线性层来探讨BN在ViTs中的应用 [56]。

实例归一化(IN) [45] 广泛应用于样式迁移,例如AdaIN [16],这代表了一种IN变体,用于移植输入特征的样式信息。此外,还提出了空间调制归一化技术,如SPADE [30] 和MoTo [33],以防止信息丢失,并且全局响应归一化(GRN) [52] 旨在增强跨通道特征多样性。与此类研究不同,作者提出了结合现有归一化方法的一种初步范式应用于ViTs。

2.2.Vision Transformerwith TokenMixer

Transformer 在自然语言处理中的成功应用促使其在计算机视觉领域得到使用。先前的研究报道了Vision Transformer (ViT) [9] 和DeiT [43] 在图像分类任务上的出色表现,并将滑窗 Transformer (Swin Transformer) [26] 的应用扩展到目标检测和语义分割。然而,由于自注意力机制计算成本高,一些研究试图用其他类型的 token 混合器替代之。因此,类似于多层感知机 (MLP) 的 token 混合器 [23, 41, 42, 51, 57] 已经成为主流方法之一,这些混合器采用 MLP 运算来混合空间 token。

作为另一种主流方法,深度可分离卷积已作为 token 混合器进行研究。ConvNeXt [27] 模型应用了现代化的卷积神经网络 (CNN) 原理,完全用深度可分离卷积替代了 Transformer 中的传统自注意力机制。此外,FocalNet [55] 和 VAN [12] 等其他研究模型也采用了基于卷积的注意力机制,使模型能够捕捉输入相关 token 间的交互。

ConvFormer [59] 是当前最先进的基于卷积的 ViT 模型,它引入了 MobileNetV2 [35] 中的倒置可分离卷积作为 token 混合器。最近,引入了多尺度卷积 token 混合器 [11, 60],它们通过并行使用多个混合路径有效反映了局部和全局信息。本研究采用了先进的多尺度深度可分离卷积,其中包括中间混合滤波器以及阶段特异性概念。

  1. Method

3.1.Preliminaries

3.1.1 MetaFormer

MetaFormer [58, 59] 是现代ViT的一种抽象的一般架构,每块模块的输出计算如下:

picture.image

TokenMixer没有指定,对应于某些空间混合模块,例如Self-Attention或卷积;而MLP表示具有激活函数的两层前向网络。本研究遵循MetaFormer的整体框架,以ConvFormer [59]作为 Baseline 。

3.1.2 Normalization

BN [18], LN [1] 和 IN [45] 常常被用于视觉架构中。BN 和 LN 都是为了加速模型训练而提出的,而 IN 则被引入到了图像风格化方法中。尽管这些方法都对特征分布进行了归一化,但它们的归一化维度有所不同。每种方法的输出计算如下:

其中, 和 分别是基于次脚本指示的归一化维度计算得到的 的均值和标准差。BN 是通道级的归一化,而 LN 在像素 Level 操作。此外,IN 与 BN 类似,因为它是在样本 Level 的空间分布上进行归一化。每个输出后通常会跟随一个通道级的仿射变换。

3.2. Multi-Vision Transformer

本节详细介绍了MVFormer。MVFormer的整体架构如图2(a)所示。

3.2.1 Multi-ViewNormalization

常见的归一化技术,如BN、LN和IN,都能归一化输入特征;因此,在网络中它们被视为可替代的选择。然而,这些技术通过改变输出分布的关键因素——归一化的维度而有所不同。作者期望这种分布变化会影响整体的特征学习,以提取视觉模式。从特征多样性角度来看,模型可以探索一个扩展的流形空间,其中提供了所有不同分布。

因此,作者提出了一种新的归一化整合范式,通过在各种特征分布下训练ViT来提升性能。作者设计了一个归一化模块MVN,该模块使用通过BN、LN和IN获得的三个归一化特征的可学习加权和。通过这一机制,MVN可以使模型同时捕捉到每个归一化特征的独特特性,从而使它能够传递更加多样化的特征给Token混合器。

输入特征 首先被转换为 、 和 ,然后与可学习的权重相加。得到的输出特征 的计算公式如下:

其中, 和 是可学习的参数,其维度与 的嵌入维度相同。为了使模型能够搜索到 和 的精确比例,一次对 应用仿射变换,而不是分别对每种归一化方法进行。通过这种方式,MVN 可以灵活地探索各种归一化特征的优选组合,只需要少量额外的参数和计算量。

3.2.2 Multi-View Token Mixer

近期基于卷积的ViT研究取得了显著的性能提升。这些研究采用了多尺度深度卷积[11, 60],通过在通道维度上分散核大小来增加不同的空间诱导偏置。实践中,这些研究主要从区分局部和全局混合的二分视角出发。与基于输入值动态调整权重的注意力机制不同,卷积作为一种静态方法,在数据无关的方式下滑动滤波器。

因此,必须多样化感受野以提取广泛的视觉模式。基于此观点,作者提出了一种三尺度卷积Token混合法MVTM,该方法包含局部、全局以及新增的中间混合滤波器,用于捕获局部和全局感受野之间范围的视觉模式。作者期望这种方法能够缓解局部和全局混合特征之间的异质性,并详细讨论了卷积Token混合法在视觉目标尺度上的鲁棒性。

计算公式如下:

其中,DWConv 和 PWConv 分别表示深度可分离卷积层和点wise卷积层,而 表示激活函数。与 Baseline 方法使用 深度可分离卷积层不同,MVTM 通过以下方式多样化了 DWConv 的感受野:

首先, 被分成了三个通道组:、 和 。这些组分别表示来自 的局部、中间和全局混合特征,其中 、 和 分别表示它们对应的通道数,且满足 。它们分别输入到 、 和 中,这三个是具有不同核大小的通道混洗深度卷积层,分别是局部、中间和全局卷积; 和 的核大小固定为 和 。至于 ,其核大小在每个阶段都会调整,详见下一段。最后,每个混合特征通过通道concatenation进行连接。

这种机制赋予了MVTM捕获多种视觉表示范围的能力。

此外,MVTM 引入了阶段特异性这一概念。近期的 ViT 主要遵循特征金字塔结构,在每一阶段之初系统性地减小特征形状 [10, 26, 27, 59]。根据对 ViT 架构的先前研究 [29, 58],分析和实验观察表明,在初始阶段通过局部约束机制作用于 Token 混合器是有效的。相反,在后期阶段则需要进行广泛的混合以促进全局 Token 交互。这一特性并未被基于卷积的 ViT 所采用,因为它们在所有 Token 混合层中应用了固定 Kernel 设计。

本文首次采用此范式,使基于卷积的ViT能够高效地捕获各种视觉模式。为了实现这一目标,作者调节了MVTM的两种配置:

1)三个混合滤波器的通道比率,以及2)全局混合滤波器()的 Kernel 大小。前者用于确定MVTM的主要混合尺度,而后者则可根据不同的输入形状重新安排全局混合的范围。通过这种方式,MVTM在每个阶段根据输入情况加权优选的感受野。表1详细列出了这些配置。在MVTM中,随着阶段数的增加,作者逐步增加局部滤波器与全局滤波器的通道比率,并减小全局混合滤波器的尺寸。作者期望MVTM能够在每个阶段有效地捕获有用的视觉信息。

picture.image

3.2.3 MVFormer Block

将MVN和MVTM引入MetaFormer块中,作者提出了MVFormer块,如图2(c)所示。在MVFormer块中,MVN首先提取各种特征分布。在此基础上,MVTM探索多样化的特征空间进行Token混排。此外,通过在MLP子块中等量插入MVN,作者期望它们之间会产生特别有益的相互作用,类似于Token混排子块中的相互作用。作者将公式1和公式2重新表述如下:

其中,MLP模块与式2相同。对于MVTM和MLP中的激活函数,采用StarReLU [59]。

3.2.4 Overall Architecture

鉴于三种归一化特征和多尺度混合特征在不同阶段的独特特性,作者提出了一种有效的基于卷积的ViT——MVFormer。MVFormer的整体架构与引入MVN和MVTM的MetaFormer块相同。根据参数量和计算复杂度,MVFormer被分为MVFormer-xT、MVFormer-T、MVFormer-S和MVFormer-B,其中MVFormer-xT为主要实现模型。每个MVFormer模型的具体配置详见附录A。

  1. Experiments

4.1.Image Classification

作者在 ImageNet-1K 基准测试 [8] 上进行了图像分类实验,该基准包括128万张训练图像和来自1000个类别的5万个验证图像。为了增强和规整用于训练的输入图像,作者采用了权重衰减、RandAugment [6]、随机擦除 [63]、Mixup [62]、CutMix [61]、标签平滑 [40]、随机深度 [15] 以及DeiT [43] 的训练策略。作者从头开始训练所有模型共计300个 epoch,输入分辨率为。作者使用AdamW [20, 28] 优化器,并采用余弦退火学习率计划,其中包括20个预热周期。ResScale [38] 被应用在最后两个阶段。批量大小、学习率和权重衰减分别设置为4096、4e-3和0.05。

此外,作者为MVFormer 和 MVFormer-T 使用了0.2的概率随机深度,而为 MVFormer-S 和 MVFormer-B 分别使用了0.3和0.4的概率。作者将训练分辨率设为的模型微调30个 epoch,在分辨率上采用指数移动平均[32]进行。所提出的实现基于PyTorch库 [31],并在8块NVIDIA A100 GPU上运行了这些实验。

表e2p展示了MVFormer在ImageNet1K分类任务中与当前SOTA模型的性能对比。作者将MVFormer与基于注意力机制的[26, 43, 49, 54]和基于卷积的[12, 27, 55, 59, 60]SOTA模型进行了比较,并按参数量和MACs的数量分组表示模型大小。在整个过程中,MVFormer的各种变体始终优于其他候选模型。特别是,MVFormer-T、S和B分别在性能提升方面以相同或更少的参数和MACs超过了当前的卷积基SOTA模型ConvFormer-S18、S36和M36,提升了0.4个百分点、0.2个百分点和0.1个百分点。在高分辨率图像上,三种模型变体的性能均有所提升。

4.2. Object Detection and Instance Segmentation

作者在COCO 2017基准数据集[24]上评估了MVFormer在目标检测和实例分割任务上的性能,该数据集包含118K的训练图像和5K的验证图像。作者使用带有Mask RCNN[14]和RetinaNet[25]预训练权重的ImageNet-1K初始化MVFormer作为 Backbone 网络。作者在单尺度输入下训练模型,RetinaNet的学习率为1e-4,Mask R-CNN的学习率为2e-4,其中RetinaNet的学习率在第8轮和第11轮衰减一次(每轮训练14个epoch),Mask R-CNN的学习率在第27轮和第33轮衰减一次。图像短边调整至800像素,长边限制在1333像素以内,以防止过拟合。MVFormer-T和MVFormer-S分别设置了随机深度为0.3和0.4。模型实现基于mmdetection[2]。

表3展示了MVFormer与当前最佳ViT模型性能对比的情况。在所有情况下,作者的MVFormer-T和MVFormer-S始终实现了最优性能,在两个任务中均获得了最高的平均精度均值(mAP),并且参数量和运算量显著较少。对于调度方案,MVFormer变体甚至在Mask R-CNN和RetinaNet中分别呈现出了最佳的和。这一结果突显了MVFormer出色的泛化能力。在调度方案的情况下,相较于Focal-T [54],MVFormer-T在两个任务中的略低。但考虑到更高的和,可以看出MVFormer在提供更加精确的密集预测方面更胜一筹。

picture.image

4.3. Semantic Segmentation

作者还使用ADE20K基准数据集[64]评估了MVFormer在语义分割上的性能,该数据集包含20,000张训练图像和2,000张验证图像。作者将预训练在ImageNet-1K上的MVFormer作为 Backbone 网络,并配备了语义FPN[21]。为了进行40,000次迭代的训练,批量大小设为32,使用AdamW优化器和初始学习率为的余弦退火学习率调度策略。对训练图像进行了调整和裁剪,尺寸为像素。实现基于mmsegmentation[5]。

在表4中,作者将MVFormer与当前最佳模型进行了语义分割任务的对比。无论是MVFormer-T还是MVFormer-S,在参数量和运算量相当的情况下,性能显著优于其他模型。与最新的基于卷积的ViT——VAN-B2和B3相比,MVFormer-T和MVFormer-S分别获得了0.4%μ和0.7%p的性能提升,并且具有更好的效率。

picture.image

4.4.Ablation Studies

作者进行了消融研究以验证MVN和MVTM的有效性。所有实验均在使用MVFormer-xT模型的ImageNet-1K分类任务上进行。

4.4.1 Ablation Study on Individual Modules

作者在表5中进行了消融实验,评估了每种提出的模块在基于卷积的ViT Baseline 上的效果,该 Baseline 用于ImageNet-1K分类。为了进行公平比较,作者设计了一个基于MetaFormer的 Baseline ,其Token混合器等于深度可分离卷积,因为这两种方法所需的参数和MACs数量相近。关于归一化处理,除非另有说明,默认使用LN。当单独使用MVN和MVTM时,分别实现了显著性能提升0.53个百分点和0.17美元,且额外参数和MACs数量极少。对比之下,MVN比MVTM提高性能更多,为0.38个百分点。此外,结合使用MVN和MVTM的MVFormerxT达到了最高的性能,为81.30%。这些发现支持这些提出模块的联合使用,并表明每个模块在提高模型性能方面各自具有的优势。

picture.image

Various Combinations of ThreeNormaliza

表6展示了MVN中所有三种归一化方法组合的消融研究。仅仅结合两个归一化特征的一致性增强性能,相比于单一方法要好。特别是,当IN单独使用时,其显著降低了性能。然而,当IN与其他方法结合使用时,表现出有益的协同作用。作者推测,IN通过减轻BN中的批次依赖性和LN中的空间分布变化,从而促进了性能提升。MVN结合BN、LN和IN,显著优于其他所有组合,这强有力地支持了这样一个假设:全面涵盖归一化方法的各种特性能够提高性能,并有助于扩展特征多样性。

picture.image

4.4.3 MVN on Existing ViT and CNN Models

为了评估MVN的泛化能力,作者将MVN应用于现有的ViT和CNN变体。对于ViT候选模型,作者选择了Swin [26]、ConvFormer [59]、ConvNeXt [27] 和 PoolFormer [58],分别基于注意力机制、卷积操作和池化操作;而对于CNN,作者选择了ResNet [13] 作为代表。在ViT中,作者在每个块内用MVN替换LN,在ResNet中,则将所有BN层替换为MVN。根据表7所示,MVN显示出了显著的泛化能力,大幅提高了五个基模的原始性能。对于ViT模型,在PoolFormer-S36、Swin-T、ConvFormer-S18和ConvNeXt-T等模型上,模型实现了0.2%的一致性Top-1精度提升。而对于CNN,即使是在ResNet50上,MVN也实现了0.2%的精度提升。这些结果表明,MVN不仅适用于CNN-ViT混合架构,还具有在各种标准视觉模型中应用的广阔前景。

picture.image

4.4.4Ablation Experiment on MVTM

在较小尺寸的滤波器被消除时,这种情况要明显得多。作者推理这是由于重复的小滤波器能够覆盖广泛的视觉模式,而大滤波器则难以聚焦于局部区域。

4.4.5 Learned Weights of MVN

图3展示了MVN中的权重分布,以识别某些依赖于阶段数量的偏好。有趣的是,观察到三种归一化方法之间的比例存在总体趋势。在所有阶段中,除了第二阶段的最后一部分之外,LN的权重始终具有最高的比例。

这表明模型主要反映了每个像素的输入通道分布,而不是每个通道的空间分布。在第二阶段的最终块中,BN和IN的比例暂时高于LN,可能是因为模型在快速改变通道维度时优先考虑了空间分布而非通道分布。此外,除了最后一阶段,IN的一般比例低于BN,显示出对批次独立的样本级空间信息的偏好。这种观察在MVFormer-T和-MVFormer-B模型中是一致的。

picture.image

picture.image

扫码加入👉「集智书童」交流群

(备注: 方向+学校/公司+昵称 )

picture.image

点击下方“ 阅读原文 ”,

了解更多AI学习路上的 「武功秘籍」

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论