Transformer效率革命 | AnchorFormer通过Anchor机制实现分类/检测/分割全面SOTA - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

计算复杂度高 ：传统视觉Transformer（ViT）在处理高分辨率图像时，由于全局自注意力机制的复杂度为

，导致计算成本过高。 2. 2. 关键信息分布不均 ：输入图像中的关键信息通常随机分布在少数区域中，而某些token对下游任务没有帮助。

现有加速方法的局限性 ：Sparse注意力和窗口注意力等方法虽然能降低复杂度，但可能会丢失重要特征或引入额外障碍（如跨窗口通信）。

本文的核心创新是什么

基于Anchor点的有效视觉Transformer（AnchorFormer） ：通过引入Anchor点token来学习关键信息，并加速推理过程。复杂度从

降低至

，其中

是Anchor点数量且

。 2. 2. 可微分的全局自注意力学习 ：将Anchor点表示为神经层中的神经元，利用马尔可夫过程进行可微分的全局自注意力学习。

灵活性与扩展性 ：AnchorFormer能够灵活地应用于多个视觉任务（分类、检测、分割），并展现出优异的性能和效率。

结果相较于以前的方法有哪些提升

分类任务 ：在ImageNet数据集上，AnchorFormer相比当前Baseline实现了高达

的准确率提升或

的FLOPs减少。 2. 2. 目标检测任务 ：在COCO数据集上，在可比FLOPs条件下，mAP提升了

。 3. 3. 语义分割任务 ：在ADE210K数据集上，相比PVT和Swin分别实现了

和

的FLOPs减少，同时mIoU分别提升了

和

。

局限性总结

Anchor点数量的选择敏感性 ：Anchor点数量过多或过少都会影响模型性能，需要合理设置。

依赖深度学习框架 ：AnchorFormer的可微分学习依赖于神经网络层的设计，可能增加模型实现的复杂性。

泛化能力待验证 ：尽管实验表明AnchorFormer在多个任务中表现良好，但其在极端条件下的泛化能力仍有待进一步验证（如超低分辨率或超大分辨率图像）。

通过以上总结可以看出，AnchorFormer是一种高效且灵活的视觉Transformer改进方案，能够在保持高性能的同时显著降低计算复杂度。然而，其参数调优和实际应用中的适应性仍需进一步探索。

深入阅读版本

近期，视觉Transformer（ViT）通过测量图像块之间的全局自注意力机制，在视觉任务上取得了优异的性能。给定n个图像块，它们将具有二次复杂度，如

，当以小粒度分割输入图像时，时间成本较高。同时，关键信息通常随机分布在输入图像的少数区域中，某些token可能对下游任务没有帮助。为解决这一问题，作者引入了一种基于 Anchor 点的有效视觉Transformer（AnchorFormer），该模型利用 Anchor 点token来学习关键信息并加速推理。首先，通过估计 Anchor 点与token之间的二分注意力，复杂度将从

降低至

，其中m是 Anchor 点数量，且

。值得注意的是，通过将 Anchor 点表示为神经层中的神经元，作者可以进行可微分的分布学习，并通过马尔可夫过程近似全局自注意力。此外，作者将所提出的模型扩展到三个下游任务，包括分类、检测和分割。大量实验表明了AnchorFormer的有效性，例如，在ImageNet分类任务上，与当前 Baseline 相比，AnchorFormer实现了高达

的更高准确率或

的FLOPs减少；在COCO检测任务上，在可比FLOPs条件下，mAP提升了

。

引言

Transformer在自然语言处理领域的强大性能[49]已引发计算机视觉领域对Transformer的广泛研究。作为核心变体，视觉Transformer（ViT）通过将输入图像分割成具有相同粒度的块，并利用位置嵌入将这些块作为序列进行处理，利用多头自注意力机制提取深度特征表示[11]。同时，由于能够捕获块之间的全局相似性，ViT在各种视觉任务上取得了优异的性能，例如图像分类、目标检测、语义分割和古文分析[4, 23, 29, 33, 45, 50]。视觉Transformer也被扩展到多模态数据[37]。例如，文献[26]AnchorFormer是一个非常有趣且具有前景的框架，通过低维流形学习机制学习各种模态之间的潜在相关性。它可以有效处理包含大量噪声的某些模态的弱特征。

尽管视觉Transformer（ViTs）在计算机视觉任务中展现出有效性，但计算复杂度是限制其发展的主要 Bottleneck 。具体而言，由于通过计算每个token的内积来估计全局自注意力，注意力的复杂度随着输入token数量的增加呈平方级增长，如

[34]。这在处理高分辨率输入时会导致过高的计算成本，并且在实际应用中难以在有限的内存设备上扩展。为解决这一问题，一个有前景的思路是为ViTs引入Sparse注意力[70]。它主要限制ViTs仅关注较小的区域，而非全局输入。其中，PVT[52]引入Sparse注意力来选择并估计小区域之间的相似性，通过计算这些 Query 和键之间的内积来实现。然后，它将这些Sparse相似性分配给每个 Query -键对，从而获得全局注意力。然而，由于信息特征在输入图像中随机分布，基于Sparse的方法在学习局部特征方面表现较弱，甚至可能丢弃信息特征。与这些Sparse策略不同，一些研究者引入窗口注意力范式来降低复杂度[10,29]。如图1所示，他们将输入token划分为预设计的窗口范式，并限制ViTs仅在窗口内计算注意力并提取深度特征。然而，窗口注意力会引入额外的障碍——跨窗口通信。此外，这种窗口范式也限制了模型结构的设置，例如窗口如何移动。

picture.image

与所提及的两种高效策略不同，一个自然且有效的思路是引入 Anchor 点 Token 来表示信息区域，并基于 Anchor 点与其他 Token 之间的关联来学习全局自注意力机制。这一类似的想法已被广泛应用于多个领域[39, 64, 67]。其中，[64]通过引入 Anchor 点将图转换为二部图，有效加速了图神经网络的推理过程。[39]通过估计目标与 Anchor 点之间的IoU来降低计算成本。尽管基于 Anchor 点的策略可以加速模型推理，但将其扩展到视觉Transformer（ViTs）的关键问题在于如何选择合适的 Anchor 点以及如何从 Anchor 点分布中学习全局相似性。

在本文中，作者提出了一种基于 Anchor 点的有效视觉Transformer（AnchorFormer），该模型引入了 Anchor 点以加速ViTs，并将复杂度从

降低至

，其中

是 Anchor 点数量且

。与基于Sparse性的方法PVT相比，所提出的AnchorFormer能够对图像数据集中的关键信息进行可微分的学习。

同时，通过马尔可夫过程，所提出的基于 Anchor 点的策略能够从 Anchor 点中精确地学习全局自注意力机制。因此，与Swin [29]等基于窗口的模型相比，AnchorFormer在泛化到多个ViTs方面具有更高的灵活性。如图2所示，在图像分类和检测任务中，所提出的AnchorFormer在准确性和效率之间始终实现了与其他 Baseline 相比的最佳权衡。

picture.image

作者的主要贡献如下：

• 为降低复杂度并加速ViTs，作者设计了一种基于 Anchor 点的方法来表示信息量大的 Query 。该方法通过估计它们与token之间的二部注意力，生成关键注意力。
• 为了能够对不同iable且精确地学习输入图像中随机分布的关键区域，作者将 Anchor 点 Token 表示为神经元，并利用神经网络层来拟合分布。
• 受马尔可夫过程启发，全局相似性可以从 Anchor 点的分布中获得。同时，通过调整乘法顺序，它获得了线性复杂度，如

。大量实验表明所提出模型的效用，即在分类任务上准确率提高了

，或FLOPs降低了

。

相关工作

2.1. 视觉Transformer

近期，通过引入多头自注意力机制来提取内在特征，Transformer在自然语言处理等序列任务上展现出优异性能[9, 18, 49]。受其成功启发，部分研究行人尝试在图像处理和视觉任务上研究类似模型。作为主流模型，视觉Transformer（ViT）将像素分组为一系列块，并直接在这些块上扩展Transformer进行图像分类[11]。相较于同等规模的ResNets，ViT在ImageNet上取得了较为理想的准确率。经过在更多大型数据集

1 4百万的预训练，ViT能够实现优异性能，甚至超越部分当前最优 Baseline [48]。设计了一种仅基于ImageNet训练的无卷积Transformer（DeiT）。

DeiT-B与ViT-B参数相同，实现了

的Top-1准确率。遵循ViT的结构，一系列ViT变体被设计用于视觉任务。其中，部分研究行人尝试研究ViT在提取局部信息方面的改进[6, 17, 29]。TNT将块进一步细分为子块，并设计了内部Transformer模块来建模它们之间的关系[17]。Swin Transformer引入了移位窗口机制来探索局部特征之间的联系[29]。此外，修改每个注意力头的交互也吸引了众多研究行人的关注。DeepViT引入了跨头通信机制来重新学习特征图并提升性能[69]。XCiT计算不同特征通道间的注意力图而非 Token ，这使得ViT能够扩展到更多高分辨率输入[1]。

尽管视觉Transformer（ViTs）及其变体在许多视觉任务上取得了优异的性能，但它们的复杂度随输入token数量的增加呈平方级增长，例如

。在内存消耗受限的设备上扩展将需要过高的计算成本，且不切实际。

2.2. 高效视觉Transformer

在本节中，作者回顾了一些旨在提高效率并加速Transformer模型的研究工作。首先，部分研究行人介绍了剪枝和分解策略。[31]证明了针对特定下游任务并非需要所有注意力头。该研究移除部分注意力头，并通过估计每个头对最终输出的影响来减少模型参数。

与此同时，一些工作尝试减少Transformer的宽度而非深度[12, 20]。除了剪枝，矩阵分解也被用于提高效率[53]。其次，知识蒸馏也被用于提高效率。[32]利用预训练的BERT模型作为教师模型来指导学生Transformer的训练。对于视觉Transformer，[22]将流形学习引入蒸馏过程，以探索patch之间的关系并提升性能。第三，大量研究工作集中于如何在Transformer中引入量化[3, 30]。[42]将输入表示为二进制高维向量以降低复杂度。[36]提出了一种全量化Transformer来处理机器翻译任务。最后，更多研究行人关注于设计紧凑型Transformer架构。AnchorFormer也属于这一类别。神经架构搜索（NAS）被引入以自动搜索最佳紧凑型架构[16, 43]。受图论启发，一些模型在估计token相似性时引入Sparse性[44, 52, 63]。然而，由于构建Sparse注意力，这些方法可能会丢弃一些信息特征。尽管基于滑动窗口的策略可以同时解决这个问题并降低复杂度[10, 29]，但窗口注意力引入了跨窗口通信的额外障碍。在本文中，作者提出了一种新的方法，通过 Anchor 点token来加速ViTs，该方法不仅能够显著减少参数和计算复杂度，还能增强对关键信息的捕捉。

方法

为学习关键信息并提高效率，本节引入了一种基于 Anchor 点的视觉Transformer（AnchorFormer）框架。该框架通过估计 Anchor 点与其他token之间的二分注意力，将复杂度从

降低到

，其中

为token的数量。此外，作者设计了一个神经网络层来表示 Anchor 点，并对推理所需的关键信息进行可微分学习。该框架如图3所示。

picture.image

3.1. 动机

近年来，视觉Transformer（ViT）在视觉任务上展现出令人瞩目的性能。作为ViT的核心组件，自注意力模块通常包含多个注意力头[61]。对于

个token，每个注意力头可以通过测量所有token之间的相似性来捕获全局信息。

其中

𝓆

是行向量，

是指数函数，

是第

个头。

是注意力矩阵。

，K，

是 Query 、 Key和Value 。它们都是通过对

的 Token 使用三个可学习的权重

投影得到的。公式(1)通过计算 Query -键对的内积来估计每对 Token 之间的相似度，其复杂度为

并耗费大量成本。此外， Aware 到输入图像的关键信息通常随机聚集在少数几个区域中，模型可以更多地关注这些区域之间的相似度。总而言之，有一个自然的问题，如何有效地加速 ViTs 以学习关键相似度？

3.2. 使用 Anchor 点 Token 加速ViTs

在本工作中，token之间的分布用条件概率表示，例如

。相应地，它们之间的相似性可以被视为从

中采样的结果。因此，vanilla ViTs学习到的全局相似性被重新表述为

其中

且

。如式(2)所示，基础ViTs主要计算 Query

与键

之间的内积来测量全局自注意力。因此，为了加速ViTs，一个直接的想法是选择一些代表性 Token ，称为 Anchor 点

，其中

是 Anchor 点的数量[64]。然后，为了获得全局自注意力

并加速ViTs，作者不仅需要获得关键分布

，还需要尝试从这些分布中估计全局分布

。

具体而言， Anchor 点与 Token 之间的关键相似性可以被视为从

中采样的结果。同时，由于 Anchor 点指示更具代表性的 Token ，理想的 Anchor 点应满足以下问题：

其中

主要用于衡量 Anchor 点与其他token之间的距离。值得注意的是，作者采用了与vanilla ViTs相同的内积和归一化策略来获得

。

其中

。同时，遵循基础ViTs，作者也引入

来度量token之间的关系。相应地，公式(3)被重新表述为

然后，通过对公式（5）关于

求导并令其等于0，即可求解 Anchor 点

为了估计 Anchor 点与所有token之间的二部注意力，作者进一步通过矩阵形式重新表述

和

。设

为一个矩阵，其中

如公式(4)所示。

其中

是一个对角矩阵，且

为了连接 Anchor 点和所有 Token ，作者引入了一个概率转移矩阵

然后，根据马尔可夫过程[2]，

可以通过一步转移概率进行估计

同样地，

。因此，一步转移概率被表述为

其中

表示由

个 Anchor 点构建的

个token之间的自注意力，而

表示 Anchor 点之间的相似性。此外，由于

已经被归一化。

其中

。因此，token之间的全局相似性是

和全局自注意力

的采样结果，全局自注意力

是通过计算得到的。

然后，作者解释公式（12）如何加速视觉 Transformer（ViT）。需要强调的是，

不能被显式计算。核心思想是重新排列乘法顺序。

和

的复杂度分别为

、

和

。因此，等式（13）的计算复杂度为

。由于

和

通常小于

，复杂度可简化为

。更重要的是，如果 Anchor 点的数量足够小，作者只需

即可获得全局自注意力。

3.3. AnchorFormer：可微分的 Anchor 点视觉Transformer

由于关键信息通常在输入图像中随机分布，一种理想的策略是利用神经网络层来拟合其分布，并进行可微分的学习以获取关键相似性

。同时，根据公式(13)，全局自注意力机制

直接依赖于关键相似性。因此，作者设计了一种 Anchor 点Transformer（AnchorFormer），该Transformer专注于在注意力头中进行可微分的关键相似性学习。

具体而言，作者通过两个可学习参数

和

分别生成键

和值

。值得注意的是，为了提取深层信息，深度神经网络（DNN）中的神经层通常会引入一个可学习投影矩阵，并计算该矩阵与输入数据的内积。受此启发，式（4）可以与一个神经层相拟合。

其中

是一个 Anchor 点，可以通过可学习参数实现。因此，关键相似度

可以进行可微学习，并且可学习 Anchor 点可以通过梯度下降精确地挖掘整个输入图像的关键区域潜在分布。由于所提出的基于 Anchor 点的注意力机制可以独立计算，因此它可以自然地扩展到多头自注意力学习。其中，每个头可以通过公式 (14) 和公式 (13) 捕获全局自注意力。然后，对于

个头，全局多头自注意力通过以下方式计算：

其中

是一个投影矩阵，

是矩阵拼接运算。

此外，与普通的ViTs相比，所提出的AnchorFormer不仅可以通过引入 Anchor 点 Token 来加速ViTs，还能有效降低空间复杂度，这得益于可微分的中心相似度估计。同时，如实验部分所示，所提出的模型在ImageNet分类任务上可达到高达46.7%的FLOPs减少。特别是，由于探索了整个数据集中中心信息分布，分类精度也得到了提升。

实验

本文设计了一种基于 Anchor 点的有效视觉Transformer（AnchorFormer），以降低ViT的计算复杂度并专注于学习关键信息。因此，实验主要验证了AnchorFormer在分类、检测和分割三个下游任务上的效率和性能。

4.1. 实验设置

4.1.1. 数据集和任务

为验证所提出模型的性能和效率，作者引入了三个代表性数据集和三个主流计算机视觉任务，即ImageNet数据集[8]上的图像分类、COCO数据集[28]上的目标检测以及ADE210K[68]上的语义分割。其中，ImageNet数据集包含1.41M张真实图像，分为1K个类别。训练集、验证集和测试集分别包含1.28M张、50K张和100K张图像。COCO数据集有118K张训练图像和5K张测试图像，包含80个目标类别。ADE210K数据集包含20K张训练图像、2K张验证图像和3K张测试图像。同时，作者将所提出的AncorFormer扩展到代表性模型。在分类任务中，该模型扩展于DeiT[48]。作者引入PicoDet[62]作为 Backbone 网络，并将LCNet[7]与所提出模型结合用于检测。在分割任务中，作者引入Semantic-FPN[24]和UperNet[57]作为 Backbone 网络。

4.1.2. 比较方法

在分类任务中，作者引入了多种当前高效的深度模型作为 Baseline 。这包括EfficientNet [46]、LeViT [15]、DeiT [48]、AutoFormer [5]、Swin [29]、CSWin [10]、MViTv2 [27]、PVT [52]、CastlingViT [61]、BiFormer [70]和SlideFormer [34]。此外，三种基于Sparse注意力的ViT模型，即Sparsifiner [54]、Combiner [40]和ClusterFormer [51]，也被用作 Baseline 。在目标检测任务中，作者采用了五种著名的检测模型作为 Baseline ，即YOLOv5、YOLOX [14]、EfficientDet [47]、MobileDet [58]、FBNetV5 [55]以及当前的CastlingViT。

在语义分割方面，作者引入ResNet [19]、PVT [52]、Swin [29]、DAT [56]、Focal [60]、RMT [13]和GraftViT [35]作为 Baseline 模型。

4.1.3. 设置和指标

公平地说，所提出的模型和对比方法均使用相同的设置进行训练。对于分类任务，作者采用SGD优化器，使用8块Nvidia RTX 4090Ti GPU对每个模型进行300个epoch的训练，批大小为256。学习率为

，动量为0.9，权重衰减为0.05。基于蒸馏的模型将RegNetY [38]作为教师网络。对于检测任务，作者使用SGD在COCO数据集上训练模型300个epoch。学习率为0.01。其他设置与PicoDet [62]相同。对于分割任务，训练设置与Maskformer相同。在AnchorFormer中， Anchor 点的数量为30。此外，作者从准确性和效率两个方面评估模型在这些任务上的表现。其中，效率指标包括参数数量（Params）和推理FLOPs（FLOPs）。准确指标包括分类的Top1/5，检测的AP、

，以及分割的mIoU、mAcc。

4.2. 可视化与分析

为使所AnchorFormer更具说明性，作者利用Grad-CAM [41]来可视化和展示所提出方法以及Swin [29]、vanilla ViT和DeiT等代表性 Baseline 的深度特征图。图4基于从ImageNet验证集中随机选择的图像，展示了视觉上的比较。从图中可以看出，这些模型能够将更高的注意力集中在与类别相对应的目标区域。与Swin相比，基于ViT的模型能够注意到目标类别的轮廓或形状。

picture.image

更重要的是，得益于 Anchor Token 对关键信息的可微分学习，所提出的AnchorFormer能够从全局感受野中区分并更多地关注目标区域，这显著提高了性能。值得注意的是，根据表1，作者的AnchorFormer-S的参数和FLOPs远低于包括Swin-B、ViT-B和DeiT-B在内的比较 Baseline 。这证明 Anchor 机制可以减少一些冗余参数，从而提高性能并减小模型尺寸。

picture.image

4.3. 图像分类

为评估分类任务的性能，作者将AnchorFormer扩展到具有不同规模的代表性视觉Transformer架构DeiT [48]上，并在ImageNet数据集上将其性能与当前一些 Baseline 方法进行比较。结果列于表1中。为清晰起见，所有方法根据FLOPs范围分为三类：

，和

。 picture.image

在不同的FLOPs范围内，AnchorFormer在准确性和效率方面始终优于其他方法。例如，AnchorFormer-B以9.2G FLOPs获得了86.62%的top-1准确率，而当前的BiFormer-B需要15.5G FLOPs才能达到84.42%的准确率，即节省了40.6%的FLOPs并提升了2.6%的准确率。此外，在可比的FLOPs下，AnchorFormer-S以2.7G FLOPs获得了84.69%的top-1准确率，而BiFormerS以4.5G FLOPs达到了83.89%的准确率，即节省了40.0%的FLOPs并提升了1.0%的性能。总而言之，所提出的模型在< 1 G FLOPs、1 ~ 5 G FLOPs和 > 5 G FLOPs下，分别比其他 Baseline 提升了1.2% ~ 5.3%、1.0% ~ 13.9%和2.1% ~ 6.0%的top-1准确率。

此外，作者还引入了苹果对苹果基准的比较实验，包括DeiT vs. AnchorDeiT，以及LeViT vs. AnchorLeViT。在图5中，与DeiT相比，AnchorFormer实现了41.3% ~ 46.7%的FLOPs减少，并获得了3.8% ~ 9.0%更好的准确率。与LeViT相比，AnchorFormer实现了28.5% ~ 40.0%的FLOPs减少，并获得了1.0% ~ 1.6%更好的准确率。

4.4. 目标检测

与此同时，为验证下游目标检测任务的效率，作者在COCO数据集上扩展了AnchorFormer，并引入了一些高效的检测模型作为 Baseline 。具体而言，作者采用ESNet [62]作为 Backbone 网络，并将最后一阶段替换为所提出的AnchorFormer。同时，检测Head和训练设置沿用PicoDet。对比结果列于表2。作者发现，AnchorFormer在准确性和效率之间始终取得了最佳平衡，即与YOLO、EfficientDet和FBNetV5相比，在可比FLOPs下，AnchorFormer在mAP上分别提升35.3%和49.9%~67.3%。作者的mAP远高于基于MobileNet的检测，在可比参数下。特别是对于YOLO和MobileNet的 Baseline 模型，所提出的AnchorFormer-T能够以最小的FLOPs实现最高的mAP。这主要是因为所提出的模型能够对图像数据集中随机分布的关键信息进行可微分的深度学习。因此，作者在下游目标检测任务上实现了最佳的性能与效率平衡。

picture.image

4.5. 语义分割

此外，作者在语义分割任务上扩展了所提出的AnchorFormer，并验证了其性能和效率。作者采用Semantic-FPN [24] 和UperNet [57] 作为ADE210K数据集的 Backbone 网络。如表3所示，所提出的模型在准确性和效率方面均优于 Baseline 模型。其中，作者的AnchorFormer相较于PVT实现了

的FLOPs减少和

的mIoU提升；相较于Swin实现了

的FLOPs减少和

的mIoU提升。该实验证明，作者的AnchorFormer可以泛化到各种视觉任务，并取得优异的性能。

picture.image

4.6. 消融研究

为验证包括 Anchor 点视觉Transformer（Anchor）和可微分 Anchor 点视觉Transformer（Diff.）在内的设计有效性，作者在图像分类任务上进行了多项消融研究。具体而言，作者在ImageNet数据集上开展研究，并采用vanilla ViT和DeiT作为 Baseline 模型。如表4所示，可微分 Anchor 点视觉Transformer在准确性和效率方面均优于其他模型。与基本 Anchor 点视觉Transformer相比，可微分模型实现了22.2%的FLOPs减少和+4.5%的top-1准确率提升。这表明所提出的模型能够精确且可微分地学习输入图像数据集中的关键信息。

picture.image

此外，作者还进行了消融实验以研究不同 Anchor 点数量的敏感性。作者采用了两种架构，即DeiT-T和DeiT-S。 Anchor 点数量从[10, 30, 50, 100]中选择。如表5所示， Anchor 点数量过多或过少可能无法在ImageNet分类中达到最佳性能。具体来说，在可比较的FLOPs下，具有30个 Anchor 点的AnchorFormer在DeiT-T和DeiT-S上分别比具有10个 Anchor 点的AnchorFormer提高了

和

。这意味着 Anchor 点数量过少可能会丢弃一些特征并降低性能。具有30个 Anchor 点的AnchorFormer同时实现了FLOPs减少和top-1准确率提升，而具有100个 Anchor 点的AnchorFormer则相反。这意味着 Anchor 点数量过多也会引入冗余信息从而限制性能。因此，作者可以简单地设置 Anchor 点数量为一个中间值，例如30。

picture.image

结论

在本文中，作者提出了一种基于 Anchor 点的高效视觉Transformer，通过 Anchor 点token学习关键信息，并加速ViTs的推理过程。该方法主要估计 Anchor 点与token之间的二分注意力，以降低复杂度。

值得注意的是，这些 Anchor 点可以表示为神经层中的神经元。因此，作者可以通过马尔可夫过程进行可微分的全局自注意力学习，复杂度将降低至

，其中

是 Anchor 点数量，且

。此外，大量实验验证了AnchorFormer在性能和效率方面的表现。特别是在ImageNet分类任务上，AnchorFormer相比其他当前 Baseline 实现了高达

的准确率提升或

的FLOPs减少。

同时，作者相信所提出的基于 Anchor 点的策略为效率提升开辟了新的视角。未来，利用正向激励噪声理论[25]进一步改进所AnchorFormer也具有广阔前景，因为 Anchor 点注意力可以被视为普通注意力的噪声近似。正向激励噪声[25]是首个量化噪声影响的数学框架。这一新颖概念向作者展示了如何系统地研究噪声，而后续一系列工作[21, 59, 65, 66]则向作者展示了如何将这一优雅的框架有效应用于流行的深度学习模型。

参考

[1]. AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image