ECViT突破性Backbone架构 | 局部注意力机制+多尺度卷积，4.8M参数全面超越ViT/ResNet/ConvNeXt - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

计算效率与性能的权衡 ：视觉Transformer（ViT）面临高计算成本和对大规模数据集依赖的问题，限制了其在资源受限环境中的应用。

缺乏局部性和平移不变性 ：ViT缺乏卷积神经网络（CNN）固有的归纳偏置，如局部性和平移不变性，导致在小数据集上表现不佳。

多尺度特征提取不足 ：传统ViT模型难以高效地捕捉多尺度特征，影响了其在复杂视觉任务中的表现。

本文的核心创新是什么

高效卷积视觉Transformer（ECViT） ：结合CNN和Transformer的优势，通过引入卷积操作增强局部特征提取能力，并利用金字塔结构实现多尺度特征表示。

局部注意力机制 ：提出分区多头自注意力（P-MSA）模块，将全局自注意力替换为局部块内的自注意力计算，显著降低计算复杂度。

交互式FFN层 ：设计交互式前馈网络（I-FFN），利用深度可分离卷积增强局部特征表示，同时保持全局上下文建模能力。

Token合并策略 ：通过逐步减少序列长度并增加特征维度，优化资源使用，同时保留图像的多层次信息。

结果相较于以前的方法有哪些提升

更高的效率 ：ECViT参数量仅为4.888M，FLOPs为0.698G，显著低于其他基于Transformer或混合架构的模型，适合部署在边缘设备和低计算能力环境中。

更强的泛化能力 ：在CIFAR10、SVHN、FashionMNIST等多个数据集上，ECViT实现了优于或匹配现有方法的分类精度，尤其在小数据集上表现突出。

无需预训练 ：ECViT在多个数据集上超越了需要大规模预训练的ViT模型，展示了其在资源受限场景下的适用性。

局限性总结

复杂度提升 ：尽管ECViT提高了计算效率，但其混合架构的设计增加了实现复杂度，可能对实际部署带来一定挑战。

特定任务适配性 ：虽然ECViT在图像分类任务中表现出色，但在密集预测任务（如目标检测和语义分割）上的表现尚未充分验证。

数据规模依赖 ：虽然ECViT在小数据集上表现良好，但在大规模数据集上的优势是否能持续扩大仍需进一步研究。

深入阅读版本

视觉Transformer（ViT）通过利用自注意力机制来建模长距离依赖关系，革新了计算机视觉领域。然而，ViT面临着诸如自注意力机制导致的二次方计算成本高以及需要大量训练数据的挑战。

为了解决这些局限性，作者提出了高效卷积视觉Transformer（ECViT），这是一种有效结合CNN和Transformer优势的混合架构。ECViT通过从Low-Level特征中提取块，并在编码器中引入卷积操作，将卷积神经网络（CNN）固有的归纳偏置，如局部性和平移不变性，引入Transformer框架中。此外，它还结合了局部注意力和金字塔结构，以实现高效的多尺度特征提取和表示。

实验结果表明，ECViT在性能和效率之间取得了最佳平衡，在多种图像分类任务上优于现有最优模型，同时保持了低计算和存储需求。ECViT为那些优先考虑高效率且不牺牲性能的应用提供了理想解决方案。

引言

Transformer模型利用自注意力机制[1]来建模长距离依赖关系，革新了模型处理序列数据的方式。视觉Transformer（ViT）[2]将图像视为一系列图像块，并使用自注意力机制来捕捉全局依赖关系，成功实现了从自然语言处理（NLP）到计算机视觉（CV）的过渡。ViT及其变体在图像分类、检测和分割等任务中[3]-[5]，[21]，[23]-[29]，[31]，[34]展现了最先进的性能。

尽管视觉 Transformer（ViT）展现出有前景的结果，但它面临推动进一步研究的挑战。一个主要问题是它缺乏某些期望的偏差，如平移不变性和局部性，这些偏差是卷积神经网络（CNN）固有的[6]。这些偏差允许CNN通过利用局部感受野、权重共享和空间下采样，在小数据集上有效执行。相比之下，ViT缺乏此类偏差，导致其在应用于小数据集时表现不佳。另一个挑战是它的计算成本高。ViT的自注意力机制涉及所有图像块之间的两两比较，其规模与块数呈平方级增长。这导致显著的计算开销，使其资源密集，特别是在处理高分辨率图像和大模型时。

为应对这些挑战，研究行人探索了多种改进方法。一种有前景的方法是整合混合模型，该模型结合了ViT和CNN的优势。混合模型旨在利用ViT中自注意力机制的全局建模能力，同时保留CNN的归纳偏差[7], [8], [26], [29], [30]。另一条研究思路集中于提高自注意力机制本身的效率[9], [11], [31] [33]。已经提出了Sparse注意力[9], [11]和低秩近似[10]等技术，以减少自注意力的二次扩展。

例如，混合模型如卷积视觉Transformer（CvT）[7]和LeViT [8]将卷积与Transformer相结合，以提升小数据集上的性能并降低计算复杂度，从而弥合了CNN与纯基于Transformer的模型之间的差距。在另一项工作中，Linformer [9]通过低秩分解近似自注意力矩阵，显著降低了计算需求。类似地，Performer [10]引入基于核的方法，使自注意力计算复杂度线性化。

此外，Swin Transformer [11]通过使用分层结构和滑动窗口来应对计算低效问题。尽管这些进展解决了视觉Transformer的一些局限性，但它们仍留下了需要进一步探索的挑战。一个重要问题是计算效率与有效捕捉局部和全局特征之间的权衡。另一个是这些模型通常通过修改ViT的特定模块（如 Token 化或自注意力）来进行改进，而不是以更整体的方式处理整体架构。

为解决这一问题，作者提出了高效卷积视觉Transformer（ECViT），该模型有效结合了卷积神经网络（CNN）和Transformer的优势。为将CNN的某些归纳偏置，如局部性和平移不变性，引入ViT，作者的ECViT从生成的Low-Level特征中提取图像块，并通过卷积操作增强Transformer编码器。此外，作者在Transformer框架内引入了金字塔结构[11][21][22][31]，以生成多尺度特征图，进一步提升了其捕捉多样化空间信息的能力。实验结果表明，ECViT在性能和效率之间取得了最佳平衡，优化了计算资源，同时在各种分类任务中保持了高精度。

总之，作者的贡献如下：

• 作者设计了高效卷积视觉Transformer（ECViT），有效结合了CNN和Transformer的优势，在性能和效率之间实现了最佳平衡。
• 作者将卷积神经网络（CNN）固有的理想特性融入视觉 Transformer（ViT）的核心操作中。
• 此外，ECViT利用局部注意力机制和金字塔结构，以确保更高效的特征提取和表示。这种混合架构能够有效捕捉局部模式和长距离依赖关系，同时保持计算效率。
• 与先前最先进的模型相比，在各种图像分类数据集上的实验结果表明 ECViT 的有效性。它在保持低存储和计算需求的同时实现了卓越的性能，突显了其在资源受限环境中的效率和能力。

相关工作

A. 卷积神经网络

卷积神经网络（CNN）在计算机视觉领域一直扮演着核心角色，在视觉识别任务中表现出色。LeCun等人最初将其用于手写数字识别[12]，CNN利用具有共享权重的卷积核，提供了平移不变性和高效的特征提取。GPU的出现为更深层的CNN架构铺平了道路，AlexNet[13]在大型图像分类方面取得了突破。

自那以后，这些网络的复杂性不断增加，融入了诸如GoogLeNet[14]的Inception模块、ResNeXt的多路径卷积[16]和DenseNet的密集连接等创新，这些都显著提升了性能。ResNet[15]的 Shortcut 尤其具有影响力，缓解了梯度消失问题，并使得训练非常深的网络成为可能。卷积层的发展，如深度卷积和可变形卷积[18]，进一步优化了CNN在移动设备上的性能，并增强了其在特征提取方面的灵活性。作者的工作旨在利用CNN的优势和先进的卷积操作，将有益的归纳偏置引入ViT，从而提高其准确性和效率。

B. 视觉Transformer

由Dosovitskiy等人于2020年提出的视觉Transformer（ViT）[2]在计算机视觉领域引起了广泛关注。ViT与传统卷积神经网络（CNN）有所不同，它采用纯Transformer架构处理图像分类，而Transformer最初是为自然语言处理任务设计的。通过将图像分割为固定大小的块，并将这些块作为序列处理，ViT利用自注意力机制捕捉图像中的长距离依赖关系。

ViT的成功证明了基于Transformer的模型在视觉任务中的潜力，而在此之前这些任务主要由CNN主导。在ViT之后，一些研究工作探索了提高其效率和性能的方法。DeiT [3]通过引入蒸馏技术解决了数据效率问题，使ViT即使在较小数据集上也能表现良好。Swin Transformer [11]通过引入层次化设计和基于局部窗口的自注意力机制进一步改进了ViT，降低了计算复杂度，使模型更适合密集预测任务。在作者的研究中，作者提出了对原始ViT结构的改进，力求在效率和准确性之间取得平衡。

C. 基于卷积的视觉Transformer

近期，视觉Transformer（ViT）的进展探索了多种通过集成卷积操作来提升性能的方法。这些方法旨在改善局部特征提取，同时保留Transformer所擅长的全局上下文。卷积视觉Transformer（CvT）[7]结合了卷积层和Transformer，以提升局部特征提取能力，同时保持全局上下文建模。它使用卷积token作为输入，以便在应用全局自注意力之前更好地捕捉Low-Level特征。Co-Scale Conv-Attentional Image Transformer（CaiT）[19]引入了“协同尺度”概念，利用多尺度卷积高效地捕捉局部细节和长距离依赖关系。T2T-ViT [20]使用卷积对图像进行预处理，将图像转换为token，减少token数量并提升效率，同时保留空间层次结构。

基于以上研究，作者提出将卷积引入ViT的两个主要部分：（1）作者使用两个卷积层从图像中捕获Low-Level特征，并将其编码为一系列 Token ；（2）作者将 FFN 替换为卷积网络，以增强相邻 Token 在空间维度上的关系。

D. 金字塔结构

金字塔结构在计算机视觉中广泛用于建模多尺度特征，增强了全局和局部信息的表示。这种设计反映了视觉任务的层次性，不同尺度的特征有助于理解复杂模式。在视觉Transformer中，金字塔结构解决了类似ViT模型中平面分词的局限性，即所有 Token 无论空间尺度如何都同等对待。基于金字塔的Transformer的层次表示能更有效地捕捉高分辨率细节和上下文信息。

例如，金字塔视觉Transformer（PVT）[21]在降低token分辨率的同时增加特征维度，提升了目标检测和分割等任务中的效率。类似地，Swin Transformer [11]在金字塔框架中采用移位窗口方法，以提高计算效率并捕捉长距离依赖关系。Segformer [22]结合金字塔Transformer编码器和轻量级解码器进行语义分割，以高效率实现了当前最佳性能。在作者的工作中，作者逐步调整token数量及其特征维度，将金字塔结构整合到ViT中，优化了资源使用，同时未影响性能。

方法

作者高效卷积视觉Transformer（ECViT）的整体架构如图2所示。主要目标是将理想的归纳偏置融入Transformer框架，同时集成局部注意力机制和多尺度特征提取。首先，使用卷积网络从输入图像中提取低维特征，并将其嵌入为token。接下来，这些patch token通过多个Transformer编码器进行处理，这些编码器由分区多头自注意力（P-MSA）和交互式 FFN （I-FFN）组成。最后，为了引入金字塔结构，采用合并层来减少序列长度，同时增加特征维度。

picture.image

A. 基于Low-Level特征提取的图像分词

标准视觉Transformer将图像分割成块并直接进行分词，这可能导致Low-Level特征（如纹理和边缘）的丢失。为了解决这一局限性，作者的改进型图像分词从特征图而非原始输入图像生成分词。

如图2所示，图像分词由两个卷积层和一个最大池化层组成。每个卷积层都附加了一个BatchNorm层和激活函数，以增强特征的表示能力。

作者的ECviT首先在图像水平方向提取特征并进行下采样，得到输出张量

，其中

表示高度，

表示宽度，

表示步长，

表示丰富通道的数量。用于提取水平特征的函数可以表示为：

接下来，函数

在垂直方向上进一步提取特征并减少宽度，生成输出张量

。随后，采用最大池化操作进一步提取重要特征并降低数据维度。这些步骤可表示为：

与ViT类似，学习到的Low-Level特征图

的维度为

。然后，将位置嵌入

添加到投影序列的每个元素中，其中

是块的数量，

是每个块的维度。这种位置嵌入编码了空间信息，并打破了序列的置换不变性。

最后，一个可学习的类 Token 被附加到投影图像块序列中，用于作为分类任务的表示。

B. 分割多头自注意力

标准Transformer架构及其在图像分类中的适应性均执行全局自注意力机制，该机制计算一个token与其他所有token之间的交互。这种全局计算导致复杂度与token数量的平方成正比，这使得它在许多需要大量token进行密集预测或高分辨率图像表示的视觉任务中不切实际。

picture.image

为解决这一问题，作者引入了分区多头自注意力机制（P-MSA），该机制在局部块内执行自注意力操作。如图3所示，块 Token

被均匀划分为

个不重叠的部分，其中

，

表示块 Token 的总数，

表示每个块的大小。此外，将类别 Token

添加到每个块中，以促进局部特征的提取。具体步骤如下：

在注意力计算之后，每个块中的单个类别 Token ，可以表示为

，被合并成一个单一的类别 Token ，该 Token 有效整合了所有块中的局部信息，从而提高了图像的整体表示能力。这种方法在减轻计算负担的同时，保留了捕捉局部和全局上下文的能力。

C. 交互式 FFN

picture.image

为了利用卷积神经网络（CNN）在提取局部信息方面的优势以及Transformer捕捉长距离依赖关系和促进不同非重叠块之间交互的能力，作者提出了交互式 FFN （I-FFN）层。如图4所示，I-FFN模块遵循以下步骤，可表示为：

首先，考虑到由前一个P-MSA模块生成的token

，作者将它们分离为patch token

和class token

。接下来，根据patch token在原始图像中的相对位置，沿着空间维度将其扩展为

。

然后，对重新排列的 Patch Token 应用了两个深度可分离卷积，其卷积核大小分别为

和

。这一步骤增强了局部特征，并促进了跨不同空间维度的信息整合。

最后， Patch Token 被展平为序列

并与类别 Token 连接，形成 xt +1 E R(N+1)D，从而保留了原始形状。

D. Token 合并

如概述所述，每个阶段的最后一个transformer编码器之后使用一个合并层来修改token特征的维度和token的数量，从而将金字塔结构融入Transformer框架。

通过 Token 合并，作者逐步减少序列长度，同时提升特征维度，使 Token 能够在不断扩大的空间区域内捕捉日益复杂的视觉模式。这些步骤可以表示为：

经过一系列的Transformer编码器后，tokens

捕获了全局和局部特征。作者首先将它们分离为patch tokens

和一个类token x' E RD。

接下来，作者使用一个MaxPooling层对patch tokens

进行进一步处理，将其转换为

，其中

是MaxPooling的核大小。该操作通过在指定窗口内选择最大值来下采样空间维度，同时保留最重要的特征。这一池化步骤有助于增强对空间变化的鲁棒性，并通过关注主导模式来整合特征表示。

然后，将 Patch Token 和类别 Token 合并为

，以保留类别 Token 提供的全局上下文。

最后，对下采样后的token应用线性层以扩展其特征维度，将

转换到更高维的空间

。这种转换增加了token的表达能力，使其能够捕捉图像中更复杂的模式和关系。

实验

在本节中，作者评估了ECViT在若干中等规模图像分类数据集上的性能，并评估其迁移到各种下游任务的可行性。作者最小化了模型的存储和计算需求，确保其在计算资源极其有限的场景下，如边缘设备或低处理能力环境中，仍然保持高效和有效。此外，作者进行了全面的消融研究，以验证所提出架构设计的有效性。

A. 实验设置

a) 网络架构：在仔细设计每个阶段的Transformer块数量和隐藏特征维度后，作者引入了轻量级的ECViT。作者的ECViT的详细信息如下：

1. 图像分词使用两个深度可分离卷积，分别为

和

的卷积核，步长为2。输出通道数设置为32。最大池化操作使用

的卷积核和步长为2。 2. 2. 每个阶段由8个经过卷积增强的编码器块组成，每个块都经过精心优化以提高效率。在P-MSA中，分区大小设置为7。在I-FFN中，应用了一对

和

的深度可分离卷积，步长为1，以细化空间特征表示。此外，使用一个 Kernel 大小为

、步长为4的最大池化层来进一步减少空间维度和计算复杂度。隐藏特征维度逐步增加，第二阶段设置为224，第三阶段设置为256，确保模型容量和效率之间的最佳平衡。 3. 3. ECViT的轻量化设计使其能够在极低的计算开销下实现优异的性能。仅含4.888M参数和0.698G Flops的ECViT非常适合部署在资源受限的环境中，如移动设备或边缘计算场景，且不会牺牲精度或有效性。

b) 训练：作者的所有实验均在NVIDIA Tesla P100 GPU上进行。对于ECViT，作者使用AdamW优化器，权重衰减设置为0.05。作者使用初始学习率0.01和总批大小64进行30个epoch的训练，并采用余弦学习率衰减调度器。

c) 数据集：作者在各种数据集上测试了作者的ECViT，包括上位级分类（CIFAR10、CIFAR100、Imagenette）和初级识别任务（SVHN、FashionMNIST）、细粒度识别（Food、GTSRB、FGVCAircraft）。CIFAR10数据集包含10个类别，有50,000个训练样本和10,000个验证样本。CIFAR100数据集有100个类别，也包括50,000个训练样本和10,000个验证样本。SVHN（街景房屋编号）数据集包含10个类别，有73,257个训练样本和26,032个验证样本。FashionMNIST数据集包含10个类别，包含60,000个训练样本和10,000个验证样本。Food数据集包含101个类别，有75,000个训练样本和25,000个验证样本。GTSRB（德国交通标志识别基准）数据集包含43个类别，总共包含39,209个训练样本和12,630个验证样本。FGVCAircraft数据集包含30个类别，有6,667个训练样本和3,333个验证样本。最后，Imagenette数据集是ImageNet数据集的一个精选子集，包含10个类别，有9,469个训练样本和3,925个验证样本。这些数据集为作者在各种计算机视觉任务中训练和验证模型提供了多样化的类别和样本大小。

B. 图像分类结果

picture.image

为了进行比较，作者选择了一系列多样化的模型，包括卷积神经网络（CNN）如ResNets [23]、EfficientNets [24]和ConvNeXt-V2 [25]，Transformer模型如ViT [2]和PvT [21]，以及混合模型如CeiT [26]、FastViT [27]和RepViT [28]。这些模型代表了从传统的基于卷积的方法到较新的基于Transformer和混合设计的多种架构，使作者能够全面评估作者提出的ECViT的性能。这些模型在上述测试数据集上的结果如表1所示。

a) ECViT与基于卷积的模型对比：与ResNet18（参数量11.690M，FLOPs 1.824G）、ConvNeXt（参数量5.210M，FLOPs 0.780G）和EfficientNetV2（参数量7.024M，FLOPs 0.649G）等基于卷积的模型相比，ECViT参数量显著更少（4.888M），FLOPs计数较低（0.698G），因此作为轻量高效的替代方案脱颖而出，特别适用于资源受限的环境。在CIFAR10数据集上，ECViT达到91.03%的准确率，优于ResNet18（89.76%）、ConvNeXt（88.45%），同时与EfficientNetV2（91.99%）保持竞争力。在SVHN数据集上，ECViT实现了最高准确率（97.96%），超越所有基准模型。

ECViT结合了ViTs和CNN的优点，展现出跨数据集的强泛化能力。它始终以最小的计算开销提供高精度，使其成为在性能和效率之间需要权衡的任务的强有力候选者。虽然EfficientNetV2在一些数据集上实现了略微更高的精度，但这是以更高的参数数量为代价的。相反，ECViT在平衡方面表现更佳，特别是在SVHN、FashionMNIST、GTSRB FGVCAircraft和Imagenette等数据集上，它优于或匹配了竞争性模型，同时保持了更轻量化和更快的速度。

b) ECviT与Transformers的比较：与ViT和PvT相比，作者的ECViT在多个数据集上展现了计算效率与性能之间的更优平衡。ECViT比ViT-tiny（5.679M，1.079G）效率显著更高，同时实现了更高的准确率。例如，在CIFAR10上，ECViT达到了91.03%的准确率，远超ViT-tiny（76.35%），在CIFAR100上，ECViT达到了70.88%，显著优于ViT-tiny（49.96%）。同样，与参数略少（3.662M）且FLOPs较低（0.529G）的PvT-v2相比，ECViT在多个数据集上实现了更高的准确率，包括SVHN（97.96% vs. 95.99%）、GTSRB（96.93% vs. 95.83%）、FGVCAircraft（62.28% vs. 60.51%）和Imagenette（88.73% vs. 86.80%）。

与Ceit、FastViT和RepViT相比，这些模型通过多种优化提高了效率和性能，作者的ECViT凭借其在不牺牲计算成本的前提下保持更高准确率的能力脱颖而出。在CIFAR10上，ECViT达到了91.03%的准确率，优于CeiT-T（87.48%）、FastViT-t8（90.09%）和RepViT-m1（89.02%）。同样，在CIFAR100上，ECViT实现了70.88%的准确率，超越了CeiT-T（69.19%）、FastViT-t8（67.87%）和RepViT-m1（67.65%）。

ViT框架由于其依赖于大规模预训练，往往在较小数据集上表现不佳。相比之下，ECViT在CIFAR10、CIFAR100、GTSRB、FGVCAircraft和Imagenette等较小数据集上表现出色，且无需预训练。ECViT在大多数数据集上均优于其他最先进的ViT模型，同时保持更轻量级的架构和更低的计算需求。这得益于其混合设计，将卷积归纳偏置融入Transformer架构。因此，ECViT为需要高效率且不牺牲性能的应用提供了理想解决方案。

C. 消融研究

为进一步探究所提模块的有效性，作者对图像分词、分区多头自注意力、交互式 FFN 和 Token 合并等主要组件进行了消融研究。作者所有的消融实验均基于CIFAR10数据集进行。

picture.image

a) 不同类型的分词模块：影响分词模块的因素包括卷积核大小、最大池化、BatchNorm层和激活函数。在表3中，作者评估了不同的卷积配置，并选择第一个作为最佳选择。表4所示的结果表明，最大池化、BatchNorm层和GELU激活函数在训练过程中显著提升了性能。因此，作者采用最佳结构（详细见第一行）用于所有后续实验。

picture.image

b) 分区多头自注意力：在P-MSA模块中，块大小决定了参与注意力计算的token数量。作者评估了不同的块大小，并比较了添加类token和不添加类token时的性能。结果如表5所示。考虑到计算复杂度和准确性之间的权衡，作者选择了块大小为7。通过将类token附加到每个块中，性能从85.54%提高到91.03%，这表明增强局部特征提取非常有益。

picture.image

c) 交互式 FFN ：在I-FFN模块中，卷积核大小决定了局部相关性建立的范围。为了评估其对性能的影响，作者实验了不同的卷积核大小，如表6所示。较大的卷积核使patch tokens能够捕获更广泛的局部相关性，从而可能提升特征表示。然而，过大的卷积核可能会引入不必要的复杂度并增加计算开销。因此，作者选择卷积核大小为3，并采用分解卷积来在计算复杂度、参数数量和准确率之间取得最佳平衡。

picture.image

d) Token合并：作者比较了包含和不包含Token合并模块的性能。采用Token合并模块后，参数数量减少了27.74%，性能从89.78%提升至91.03%。这表明在减少序列长度的同时增强特征维度，对最终图像表示有显著贡献。

结论

本文介绍了ECViT，一种轻量级视觉Transformer，它有效地结合了CNN的优势和Transformer的能力，用于建模长距离依赖关系。

为了进一步提高效率，作者将局部注意力机制和金字塔结构融入ECViT，从而实现更有效的特征提取和表示。ECViT在性能和计算效率之间取得了最佳平衡，无需预训练。

参考

[1]. ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image