图注意力机制在 VIT 中的应用：SAG-ViT模型解析！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

图像分类是计算机视觉任务中的一项，其中模型分析图像并将其分类为特定标签。视觉 Transformer （ViT）通过利用自注意力机制来捕捉图像块之间的复杂模式和长程关系，从而改善了这项任务。

然而，ViTs的一个关键挑战是高效地整合多尺度特征表示，这是由于卷积神经网络（CNNs）通过其层次结构固有的。

在本文中，作者提出了一种新的框架，即尺度感知的图注意力视觉 Transformer （SAG-ViT），该框架通过整合多尺度特征来解决这一挑战。

使用EfficientNet作为 Backbone ，模型提取多尺度特征图，这些特征图被分成块以保留语义信息。

这些块根据空间和特征相似性组织成图，其中图注意力网络（GAT）优化节点嵌入。

最后，Transformer编码器捕获长程依赖关系和复杂交互。SAG-ViT在基准数据集上进行了评估，表明其有效地提高了图像分类性能。

1 Introduction

图像分类领域在深度学习架构的引入下取得了显著的进步。由于卷积操作能够捕捉局部空间层次，卷积神经网络（CNNs）长期以来一直是图像分类任务的基础[9]。然而，它们在模拟图像中的长期依赖关系方面存在固有的局限性，这限制了它们充分利用图像中的全局上下文信息的能力[12]。视觉 Transformer （ViTs）[4, 18]的出现为图像中的全局关系建模开辟了新的途径，通过自注意力机制来模拟图像中的全局关系。ViTs将图像视为一系列的patch（tokens）序列，并展示了与传统CNNs相竞争的性能。尽管取得了成功，但ViTs通常需要大规模的数据集进行有效训练，并且由于其固定的patch tokenization大小，可能会忽视细粒度的局部细节[17]。

近年来，许多研究强调了在各种视觉任务上增强ViTs性能的多尺度特征表示的重要性[1]。多尺度方法使得模型能够捕捉到大小不一的目标和模式，从而对图像内容有更全面的了解。尽管CNN天生就能通过层次结构捕捉多尺度特征，但在Transformer基础上高效集成这一能力仍然是一个挑战。

为了应对这一挑战，作者提出了一种新颖的基于Transformer的框架，称为尺度感知图注意力视觉Transformer（SAG-ViT）。作者的模型首先使用预训练的EfficientNet Backbone 网络[16]从输入图像中提取丰富的多尺度特征图。然后将这些特征图分割成 patches，同时保留高层次语义信息，并相对于原始图像patching减少信息损失。接着构建图，其中每个节点表示一个特征图patch，边基于空间相邻性和特征相似性使用k-connectivity方案建立。该图捕获了图像区域之间的局部和全局关系。图注意力网络（GAT）[19, 24]处理该图，动态地聚焦于最相关的patch。然后，经过Transformer编码器处理，捕获长程依赖性和复杂交互。

作者的工作贡献如下：

作者提出了一种基于卷积神经网络（CNN）派生的特征图的修补机制，该机制保留了丰富的语义信息，并高效地捕获多尺度特征。
提出了一种基于Transformer架构的k-connectivity和相似性基于的边权重方案，用于构建模拟不同 Patch 之间复杂空间关系的图。
作者使用GAT网络处理信息丰富的图嵌入，以有效地建模图像中的局部和全局依赖关系。
作者在多个跨领域的基准数据集上验证了作者的方法，与其他基于 Transformer 的 approach 相比，展示了更高的性能。

2 Literature Survey

在本节中，作者综述了关于视觉 Transformer 、多尺度特征表示和图神经网络在图像分类方面的相关文献。

Vision Transformers for Image Classification

Transformer-based模型在计算机视觉领域受到了广泛关注，最初是由视觉Transformer（ViT）提出的，它将图像视为一系列的patch序列，并利用自注意力机制来捕捉全局依赖关系，在图像分类任务上取得了与卷积神经网络（CNNs）竞争的结果[24]。然而，ViT模型通常需要庞大的数据集和大量的计算资源，这限制了它们的普及性。

为了提高数据效率，DeiT利用了蒸馏和数据增强，使得ViTs在小型数据集上表现良好[10]。T2T-ViT [25]引入了一种从Tokens到Tokens的转换，以更好地捕捉局部结构，解决了ViT的简单分词问题。Perceiver模型使用非对称注意力机制将大型输入压缩到紧凑的潜在空间，使其能够有效地扩展到高维数据[8]。同样，PVT和CvT将金字塔结构引入到 Transformer 中，将CNN类似的多尺度处理与 Transformer 的优势相结合，以实现更丰富的特征提取[23]。

Swin Transformer 引入了一种移动窗口的方法来处理自注意力，可以有效地捕捉局部和全局上下文，同时保持可管理的复杂性，特别是在密集任务（如分割和检测）方面 [11]。这些模型突显了将多尺度表示集成到视觉 Transformer 中，以提高其捕捉细粒度细节和长期依赖关系的能力的日益增长的趋势。

Multi-Scale Feature Representation

多尺度特征表示对于在不同尺度上识别物体和模式至关重要[1]。卷积神经网络（CNNs）通过其层次结构和感受野自然捕获多尺度特征[9]。为了增强CNNs中的多尺度学习，提出了诸如特征金字塔网络[10]和多分支架构[2]等技术。

在 Transformer 模型的背景下，将多尺度特征集成仍然具有挑战性，原因在于固定大小的patch Token 分词。CrossViT[1]引入了一种双分支 Transformer 架构，分别处理不同大小的图像patch，通过交叉注意力机制将它们融合在一起。这种方法有效地捕捉了细粒度细节和全局上下文。

Graph Neural Networks for Image Classification

图神经网络因其能够建模关系数据而受到关注。在图像分类中，将图像表示为图允许捕捉不同区域之间的空间关系[24]。节点可以表示超像素或块，边编码相似性或空间连接。

直接从原始图像构建图可能导致由于空间分辨率降低而出现信息损失[26]。通过从CNN派生的特征图构建图，可以保留更丰富的语义信息[5]。这种方法增强了对于准确分类至关重要的复杂空间依赖关系的建模。

图注意力网络将注意力机制扩展到图形结构数据[19]。GATs计算相邻节点的注意力系数，使网络能够关注最相关的连接。这种动态加权改进了节点表示的学习，强调了重要关系。将GATs应用于图像分类，可以实现对局部和非局部依赖关系的建模[22]。结合多尺度特征表示，GATs可以有效地捕获图像中的复杂模式。

Hybrid Models

最近的研究表明，将 Transformer 和卷积层结合到一个混合架构中，可以充分利用两种方法的优势。BoTNet [15]修改了ResNet的最后三个模块的自注意力机制，以集成两种架构。CMT [7]块结合了深度卷积层进行局部特征提取，同时包含一个轻量级 Transformer 模块。

CvT [11]在自注意力机制之前放置了点积和深度卷积，以提高性能。LeViT [6]用卷积茎替换了patch嵌入模块，以实现图像分类的更快推理。MobileViT [13]将Transformer模块与MobileNetV2 [14]块结合，创建了一个轻量级的视觉 Transformer 。MobileFormer [3]以双向方式将CNN和 Transformer 相结合，以充分利用全局和局部特征。

3 Method: Sag-ViT

在本节中，作者详细介绍了一种通过多尺度特征嵌入和高保真图注意力基于patch的 Transformer 性能增强方法，用于图像分类。在图 Transformer 中的图构建过程中，空间层次结构往往丢失或不足以表示，尤其是在冗余或相关性较弱区域稀释图像的上下文表示时。

为克服这一限制，作者提出了一种新颖的框架，该框架同时捕获局部和全局依赖性，同时保留丰富的语义信息。具体而言，作者首先概述了高保真特征图patch策略（SS3.1）。然后，作者详细介绍了基于k-connectivity和特征相似度的图构建方法（SS3.2）。最后，作者解释了将图注意力网络与 Transformer 编码器相结合的方法（SS3.3）。图1说明了作者提出的可扩展视觉 Transformer 与图注意力（SAG-ViT）的神经网络架构。

picture.image

High-Fidelity Feature Map Patching

作者通过从轻量级卷积 Backbone 生成的特征图（特征图）中提取高保真 Patch 来启动处理 Pipeline 。通过在特征图上操作而不是原始图像，作者保留了更高级的语义信息。作者将输入图像（大小为）通过深度卷积神经网络（CNN）进行处理，以利用其复合多尺度特征缩放以获取感受野和高效的卷积路径，得到特征图，其中，，且表示具有步长的特征通道深度。

为了保留详细的多尺度语义信息，作者将特征图划分为非重叠的 Patch ，其中是每个 Patch 的空间维度。形式上， Patch 提取被定义为：

picture.image

对于所有和。

这项操作可以表示为展开运算符：

picture.image

对于所有和。

在论文中，作者定义了一个映射。然后，每个块通过将空间和通道维度进行扁平化，被转换为一个特征向量：

这导致了一个包含多个 Patch 向量的集合：

picture.image

通过直接从特征图中提取 Patch ，作者利用卷积神经网络学习的高层抽象。这种方法确保每个 Patch 都包含丰富的语义信息，捕捉图像中的局部模式和上下文关系。此外，从降维后的空间维度提取 Patch 会导致更少的 Patch ，从而降低计算复杂度，同时保持关键信息。

在后续的图构建阶段，向量化的 Patch 充当节点。高维特征向量有助于在基于相似度度量的边构建过程中捕捉 Patch 之间的复杂关系。此外， Patch 提取的非重叠性质确保每个 Patch 在特征图内保持其空间局部性，保留了准确图像分类所需的基本空间结构。

这数学公式确保了 Patch 提取过程既系统又可扩展，促进了基于图的分类流水线的有效下游处理。

Graph Construction Using -Connectivity and Similarity-Based Edges

一旦提取了 Patch ，作者构建了一个图来模拟它们之间的空间和基于特征的关系。在这里，表示对应 Patch 的节点集合，而表示连接这些节点的边集。每个节点都与一个特征向量相关联，其中每个大小为的 Patch 都被矢量化为一个维的特征向量。在提取所有 Patch 后，作者将它们组织成一个矩阵

其中表示图中的块（节点）数量。

接下来，作者根据k-连通性和特征相似性定义边。对于每个 Patch ，作者考虑其邻 Patch ，它们在特征图内与 Patch 空间相邻。 Patch 与邻 Patch 相连，其中表示 Patch 的邻居集合。为了正式化k-连通性，作者定义基于空间网格欧几里得距离的邻域函数，其中将节点映射到其空间坐标：

picture.image

Integration of Graph Attention Networks (GAT) with Transformer Encoders

构建图G=(V,E)后，作者使用图注意力网络（GAT）处理节点特征，捕捉贴片之间的细粒度依赖关系。将GAT与 Transformer 编码器相结合，有助于同时模拟局部和全局交互，增强特征表示的判别能力。在GAT中，注意力机制动态地为相邻节点分配权重，以强调更相关的连接。

对于给定的节点，与邻居的注意力系数计算如下：

picture.image

其中是一个可学习的线性变换矩阵，是一个可学习的注意力向量，表示节点的邻居集合。

更新后的节点u的特征可以通过以下方式获得：将邻居节点的特征向量通过注意力系数加权求和，并使用非线性激活函数（ELU）进行聚合：

picture.image

为了捕捉多种关系模式并稳定学习过程，作者使用多头自注意力机制。对于个注意力头，第个头的权重矩阵和注意力系数的拼接输出为：

picture.image

σ 表示一个非线性激活函数（例如，ELU），且 || 表示注意力头的拼接操作。

这些由GAT产生的节点嵌入随后被输入Transformer Encoder中，以模拟所有patch之间的高层次交互和长期依赖关系。在整合之前，作者对每个节点嵌入应用位置编码，以保留空间信息：

其中表示位置编码。

Transformer 编码器通过多头自注意力机制处理节点的嵌入序列。对于一个 Query 向量，一个键向量，一个值向量，其中是第头的可学习权重矩阵，每个头的自注意力操作定义如下：

picture.image

GAT与Transformer编码器的结合可以形式化为一个两阶段的特征转换：

picture.image

作者使用这种层次化处理来确保模型首先通过图注意力机制优化patch嵌入，捕捉局部关系，然后利用Transformer基础的自注意力将这些优化的嵌入整合到一个连贯的全局表示中。在Transformer编码器之后，作者应用全局平均池化操作将序列嵌入聚合为单个向量。

最后，作者将这个池化表示通过多层感知机（MLP）进行处理，以生成最终的分类对数：

picture.image

其中和分别是输出层的权重矩阵和偏置向量，是目标类的数量。

Ablation Study

为了严格评估作者提出的架构中每个组件的贡献，作者进行了一项全面的消融研究。这项分析旨在确定EfficientNet Backbone 、Graph Attention Network（GAT）和Transformer编码器对模型整体性能的单一影响。通过系统地移除或更改组件，作者可以量化其重要性并验证作者设计选择的理论基础。

3.4.1 Experimental Setup

作者在CIFAR-10数据集上进行了三个消融实验，以分别隔离每个组件的影响：

Backbone + GAT (No Transformer): 在这种配置中，作者排除了Transformer编码器，这样作者就可以评估Transformer在捕捉全局依赖关系中的作用。模型通过GAT处理由EfficientNet Backbone 提取的特征嵌入，并直接从聚合的节点表示生成分类预测。

Backbone + Transformer (No GAT): 在这里，作者省略了GAT，以评估其在建模局部依赖和优化节点特征方面的贡献。 Backbone 网络的输出特征被输入到Transformer编码器中，该编码器试图在没有GAT提供的显式注意力机制的情况下，学习局部和全局关系。

GAT + Transformer （无EfficientNet Backbone ）：在这个场景中，作者移除了EfficientNet Backbone ，以确定其对特征表示的影响。随机初始化的嵌入作为GAT和 Transformer 的输入，强调了高质量特征提取的重要性。

4 Results

在本节中，作者对提出的模型在五个不同的基准数据集上进行了全面的评估：CIFAR-10，GTSRB，NCT-CRC-HE-100K，NWPU-RESISC45和PlantVillage。

这些数据集涵盖了广泛的领域，包括自然图像、交通标志识别、病理图像、遥感数据和农业图像。这些数据集的多样性使作者能够充分评估模型在不同类型的图像数据上的有效性和泛化能力。

Overall Performance

作者的提出的模型在所有评估数据集上表现出比最先进架构更优越的性能。表1总结了作者的模型和利用不同 Backbone 的各种 Baseline 模型所获得的F1分数。

picture.image

分析结果，作者提出的模型在所有数据集上均优于 Baseline 模型。在CIFAR-10数据集上，作者的模型实现了0.9574的F1分数，比排名第二的基于作者架构的ResNet模型大约提高了4.02%。这一显著的改进证明了将EfficientNet作为模型背骨的有效性。EfficientNet的复合缩放策略优化了网络深度、宽度和分辨率，提供了更丰富的特征嵌入，这些嵌入在通过作者基于图的方法处理自然图像时，增强了模型捕捉自然图像中复杂模式的能力。

在GTSRB数据集上，该数据集涉及在各种具有挑战性的条件下识别交通标志，作者的模型达到了0.9958的F1分数。这是相对于基于DenseNet201的变体的显著改进，其实现了0.9862。尽管由于 Baseline 性能较高，0.96%的提高看似 modest，但这表明作者的模型在捕捉交通标志的细微变化方面具有优越的能力，这对于实际的交通标志识别任务至关重要。

对于NCT-CRC-HE-100K数据集（包含结直肠癌分类的病理图像），作者的模型在F1得分上达到0.9861，相较于基于ResNet变体的模型的0.9478提高了约3.83%。这一显著的改进表明，EfficientNet Backbone 网络与作者的图处理方法相结合，有效地捕获了复杂组织结构，提高了在医学图像分析中模型的判别能力。

在NWPU-RESISC45数据集上，该数据集包括各种土地利用场景的遥感图像，作者的模型实现了0.9549的F1分数，比基于ResNet的变体提高了4.46%。这一结果表明，该模型在捕获遥感数据中固有的空间关系和模式方面，比作者架构中的其他backbones更有效地捕捉到了它们。

最后，在PlantVillage数据集上，作者的模型取得了0.9772的F1分数，显著高于基于ResNet变体的模型的0.8905分，提高了约8.66%。这一显著提升充分证明了作者在农业图像处理领域的模型在检测和分类植物疾病方面的有效性，特别是在需要依赖微妙的视觉线索的地方。

作者在[20]的水下垃圾数据集上评估了作者的模型的性能，将其与最先进的算法（不包括 Backbone 模型）进行了比较，例如YOLOv8，RCNN，Fast-RCNN和Mask-RCNN。作者的模型在验证集上始终表现更好，F1分数达到0.96，超过了这些模型的基准结果[21]。

对比作者的模型与独立的视觉 Transformer （ViT-S和ViT-L），它们并未采用作者的图增强技术，作者观察到，尽管ViT模型在某些数据集上表现具有竞争力，但总体上仍落后于作者提出的模型。例如，在CIFAR-10数据集上，ViT-L实现了0.8637的F1分数，这比作者的模型性能低9.35%。这种比较凸显了将EfficientNet用于特征提取与图注意力机制和Transformer编码相结合的方法在数据上的优势，提供更全面的理解。图2直观地比较了所有模型在五个数据集上的F1分数，证明了相对于现有架构，所提出的模型的优越性能。

picture.image

作者的提出的模型在各种数据集上表现出一致的优越性，这可以归因于几个关键因素：

高效特征提取：作者架构中的EfficientNet Backbone 网络因其对网络深度、宽度和分辨率平衡的扩展，能够提供高质量的特征嵌入。这使得相对于其他CNN Backbone 网络，作者的特征更加丰富且具有更好的判别性。

基于图的表示：通过构建由特征图块组成的k-连接图，作者的模型有效地模拟了图像区域之间的空间和语义关系，捕捉了局部和全局依赖性。

注意机制：图卷积网络为相邻节点分配自适应权重，强调相关区域并增强局部特征表示。Transformer编码器进一步捕获长程依赖关系和全局上下文，这在复杂图像分类中尤为有益，因为全局相互作用对于准确分类至关重要。

Hardware Efficiency

作者还评估了所提出模型的硬件效率，包括RAM和GPU VRAM的使用情况。表2详细列出了各模型在各个数据集上的资源消耗情况。

picture.image

作者的提出的模型在资源利用上具有竞争力，尤其是在其优越性能方面。在CIFAR-10上，作者的模型使用了7.24%的RAM，比使用不同 Backbone 网络的其他变体低，例如使用VGG16的版本消耗了11.5%的RAM。这表明将EfficientNet集成到作者的架构不仅提高了性能，而且提高了硬件效率。

关于GPU VRAM使用情况，作者的模型维持在适中的消耗水平。例如，在GTSRB上，它使用了36.38%的GPU VRAM，这略高于一些基于CNN的变体，但远低于ViT-L模型在CIFAR-10上的81.87% VRAM使用率。尽管GAT和Transformer编码器增加了额外的组件，但EfficientNet的有效特征提取和k-connectivity图的稀疏性共同帮助作者架构中的资源消耗保持在合理范围内。图3说明了各种模型中RAM和GPU VRAM的使用情况，突显了所提出模型的资源效率。

picture.image

Ablation Study

为了评估作者提出的模型中每个组件的贡献，作者在CIFAR-10数据集上进行了消融研究。结果总结在表3中。

picture.image

当模型包括EfficientNet Backbone 网络和GAT，但没有Transformer编码器时，F1得分降低到0.7785。这一显著下降强调了Transformer编码器在捕捉全局依赖关系和提高分类准确性方面的关键作用。Transformer中的自注意力机制使模型能够相对于彼此权衡所有 Patch 的重要性，从而实现对图像的整体理解。

相反，使用EfficientNet Backbone 网络和Transformer编码器但无GAT的结果是F1分数为0.7593。这强调了在全局处理之前，GAT在改进局部特征表示的重要性。GAT通过聚合直接邻居的信息来增强节点特征，有效地捕获了准确分类所必需的局部结构信息。

当时模型包含GAT和Transformer编码器，但不包含EfficientNet Backbone 时，F1得分急剧下降至0.5032。这一显著下降凸显了EfficientNet Backbone 在提供丰富且具有区分性的特征嵌入，对于有效构建图并后续处理至关重要。各种模型的RAM和GPU VRAM使用情况如图4所示。

picture.image

这些观察结果证实了作者的架构中的每个组成部分都是必不可少的，并为模型的整体性能做出了独特的贡献。EfficientNet Backbone 网络生成高质量的特征嵌入；GAT通过注意力机制捕获局部依赖；Transformer编码器模型全球关系，使模型能够理解跨越图像不同区域的复杂模式。

Discussion

结果验证了作者的假设：有效地将高效缩放的特征嵌入与基于图的注意力机制和Transformer编码器集成，可以显著提高模型在各种数据集上的性能。作者架构中的EfficientNet Backbone 网络提供了优越的特征表示，在构建作者的图时，这些特征表示增强了模型捕捉局部和全局依赖的能力。

作者的比较旨在展示EfficientNet在作者提出的模型中发挥的关键作用。与其他 Backbone 网络相比，显著的改进表明这些改进源于EfficientNet与基于图的方法的协同集成，而不仅仅是 Backbone 网络本身。这种集成允许获得更丰富的特征表示，当通过GAT和Transformer编码器处理时，可以实现更好的分类准确性。

消融研究证实，移除任何组件都将导致性能显著下降，这表明改进归因于作者架构中这些元素的协同集成。通过定量展示每个组件的影响，作者验证了基于深度学习、图论和注意力机制原理的建筑选择。

此外，包括GTSRB、NCT-CRC-HE-100K、NWPU-RESISC45和PlantVillage等多样化数据集的纳入，证明了作者的模型在不同领域的鲁棒性和泛化能力。这些数据集面临着各种挑战，包括细粒度分类、医学影像分析、遥感以及农业病虫害检测。在作者模型在这些数据集上的持续优越性，强调了其在处理复杂多变图像数据方面的多样性和有效性。

结论，作者提出的模型，将EfficientNet作为图基框架中的backbone，并利用注意力机制进行增强，在现有模型中取得了显著的性能提升。这种改进源于以下几个方面：高质量特征提取、基于图的空间关系表示、针对局部依赖关系的注意力机制以及全局上下文Transformer编码。这种整体方法确保作者的模型能够有效地捕捉和利用跨多种数据集进行准确图像分类所需的丰富语义信息。

5 Conclusion

本文介绍了一种名为尺度感知图注意力视觉变换器（SAG-ViT）的新型框架，旨在解决视觉变换器中多尺度特征表示的挑战。

通过利用EfficientNet进行特征提取，并将图像块组织成图，SAG-ViT有效地捕捉了图像中的局部和全局关系。

引入的图注意力网络（GAT）细化了节点嵌入，而变换器编码器捕捉了长距离依赖和复杂交互。在包括CIFAR10、GTSRB、NCT-CRC-HE-100K、NWPU-RESISC45和PlantVillage在内的基准数据集上的实验评估表明，该模型在图像分类性能方面取得了显著改进。

此外，消融研究提供了对SAG-ViT框架中每个组件重要性的见解，有助于理解它们对整体性能的个体贡献。

这项工作突出了将多尺度特征和基于图的注意力机制集成到基于变换器的模型中，以增强计算机视觉中变换器模型的潜力。

参考文献

[0]. SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers.

点击上方卡片，关注「AI视界引擎」公众号

图注意力机制在 VIT 中的应用：SAG-ViT模型解析 ！

1 Introduction

2 Literature Survey

3 Method: Sag-ViT

4 Results

5 Conclusion