兰州大学提出全新Backbone | 即插即用模块 | 使用1D卷积+GN，改进BN泛化性不足问题 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

注意力机制因其能有效提升深度神经网络性能而在计算机视觉领域获得了广泛的认可。然而，现有方法通常在有效利用空间信息方面存在困难，或者即便能够利用，也往往以减少通道维度或增加神经网络复杂度为代价。

为了解决这些限制，本文提出了一种高效的局部注意力（ELA）方法，该方法以简单的结构实现了显著的性能提升。通过分析坐标注意力方法的局限性，作者识别出了批量归一化中泛化能力的不足，维度降低对通道注意力的不良影响以及注意力生成过程的复杂性。

为了克服这些挑战，作者提出融入1D卷积和组归一化特征增强技术。这种方法能够通过有效地编码两个1D位置特征图而无需维度降低，实现准确地区分感兴趣区域，同时允许轻量级的实现。

作者精心设计了ELA中的三个超参数，从而形成了四个不同版本：ELA-T，ELA-B，ELA-S和ELA-L，以满足不同视觉任务，如图像分类、目标检测和语义分割的特定需求。ELA可以无缝集成到ResNet、MobileNet和DeepLab等深度CNN网络中。在ImageNet、MSCOCO和Pascal VOC数据集上的广泛评估表明，所提出的ELA模块在上述三种视觉任务中均优于当前最先进的方法。

unset

unset1 Introductionunset

unset

深度卷积神经网络（CNNs）已成为计算机视觉领域中一个重要的研究方向，它在图像分类、目标检测和语义分割方面取得了显著的进展。一些值得关注的模型，如AlexNet，ResNet，YOLO，和MobileNet，都为这一进步做出了贡献。

尽管Transformer已经引入了许多进步，但深度卷积神经网络拥有自己有利的归纳偏置，使它们能够有效地从小型和中型数据集中学习——这是Transformer所缺乏的能力。因此，设计更高效的网络架构仍然是当代研究者需要解决的重要挑战。在深度CNN领域，注意力机制被提出作为模拟人类认知行为的手段。这种机制使神经网络能够关注相关信息，同时忽略不重要的细节，最终提高网络的学习能力。

picture.image

一个显著的例子是SE块注意力，它利用2D全局池化将空间维度压缩到通道维度，从而促进增强特征学习。然而，SE块只考虑编码通道间信息，忽视了特征图的空间位置信息。尽管BAM和CBAM提取了空间注意力，但它们未能建模对视觉任务至关重要的长距离依赖，同时也减少了输入特征图的通道维度。

为此，开发了坐标注意力(CA)方法，将空间位置信息嵌入通道注意力中，并允许移动网络准确捕捉长距离空间相互关系。这种改进有利于各种卷积神经网络架构。然而，CA也表现出明显的局限性，源于其不足的泛化能力和对通道维度降低的负面影响。

众所周知，图像的空间维度包含了至关重要的位置信息。另一方面，现有的注意力机制要么未能有效利用这一空间信息，要么在利用的同时牺牲了通道的维度。本文的关注点是回答以下问题：作者能否以更高效的方式学习空间注意力？这种方法应使作者能够在不损害输入特征图的通道维度的同时，在空间维度上获得准确的位置预测，同时保持注意力模块的轻量级特性。

为了回答这个问题，作者再次回顾一下CA机制。CA模块是通过两个步骤设计的。在第一步中，使用了条带池化来生成包含输入张量空间维度上水平和垂直坐标信息的特征图。在第二步中，两个方向上的上述特征图都经过两个2D卷积，然后进行批量归一化（BN），并使用非线性激活函数，最终得到注意力。

显然，CA的设计过程相对复杂，涉及两个方向上特征图的多次分离与合并。尽管两个2D卷积增强了坐标信息，但它们也减少了通道维度，对生成的注意力产生了负面影响。此外，将BN整合到CA中引入了显著的弱点。例如，过小的迷你批次大小可能会对整个模型产生不利影响并阻碍其泛化能力。表2和表3中的消融实验结果进一步支持了这些观察。

picture.image

因此，本文提出了用于深度CNN的Efficient Local Attention（ELA）模块，它准确地捕获了感兴趣区域的位置，保持了输入特征图通道的维度，并保持了其轻量级特性，如图2(c)所示。与CA相似，ELA在空间维度上采用条带状池化，以获取水平和垂直方向的特征向量，保持窄的核形状以捕获远程依赖并防止不相关区域影响标签预测，从而在各自的方向上产生丰富的目标位置特征。ELA独立地处理上述每个方向的特征向量以获得注意力预测，然后使用乘积操作将它们组合起来，确保感兴趣区域的准确位置信息。

具体来说，在第二步中，应用1D卷积与两个特征向量局部交互，可以选择调整核大小来表示局部交互的覆盖范围。产生的特征向量经过分组归一化（GN）[40]和非线性激活函数处理，以生成两个方向的位置注意力预测。最终的位置注意力通过将两个方向的位置注意力相乘得到。与2D卷积相比，1D卷积更适合处理序列信号，并且更轻量、更快。GN与BN相比，展现出可比较的性能和更好的泛化能力。

picture.image

表1展示了关键的卷积神经网络注意力模块，指出了它们在通道维度降低（DR）、长距离依赖和轻量级设计方面的特点（其中轻量级模型具有的参数少于SE）。从表中可以看出，作者的ELA在所有这三个方面都表现出色。作者通过在ImageNet，Pascal VOC和MS COCO等数据集上的实验结果来评估作者方法的有效性（见表5）。

picture.image

实验结果表明，与ImageNet top-1的分类准确度相比，作者提出的方法提高了2.39%。此外，作者的方法在目标检测和语义分割方面表现出最显著的性能提升。因此，作者提出的ELA方法比目前最流行的注意力机制更具竞争力。

本文的贡献总结如下：

作者分析了坐标注意力（CA），并通过实验验证了其在卷积神经网络（CNN）结构中对批量归一化（BN）和通道维度减少的负面影响。
基于上述分析，作者提出了一种轻量级且高效的局部注意力（ELA）模块。这个模块帮助深度CNN更准确地定位感兴趣的目标，在仅增加少量参数的情况下显著提高了CNN的整体性能。
在包括ImageNet、MS COCO和Pascal VOC在内的流行数据集上的大量实验结果表明，作者提出的方法在性能上超越了当前的最新注意力方法，同时保持了有竞争力的模型复杂度。

unset

unset2 Related Workunset

unset

普遍认为，注意力机制在提高深度卷积神经网络（CNNs）性能方面起着至关重要的作用。SE块首次成功尝试将注意力机制用于学习通道注意力。随后，注意力机制在这两个方向上取得了显著的进展：

仅聚合通道特征；
将通道特征与空间特征整合。

具体来说，CBAM 同时利用平均池化和最大池化沿着通道维度和空间维度组合特征。同时，GCNet 是一个轻量级的注意力网络，它采用了自注意力机制，非局部网络，以及挤压激励网络等技术。SA-Net 建立在空间注意力和通道注意力结合的基础上，并引入特征分组和通道替换来实现轻量级的注意力机制。CBAM、GCNet 和 SA-Net 都结合了空间注意力和通道注意力。

GSoP 引入了二阶池化，以实现对整幅图像的高阶统计建模，从而增强了深度卷积网络的非线性建模能力。另一方面，ECA-Net 利用一维卷积生成通道注意力权重，与 SE 块相比，显著降低了建模复杂性。GSoP 和 ECA-Net 都属于通道增强的聚合方法。

然而，在上述提到的注意力网络中，要么在空间维度上缺乏长距离依赖性，要么在通道维度上进行缩小。长距离空间依赖性的缺失使得精确定位感兴趣的空间物体以及获取重要物体的位置信息变得具有挑战性。尽管通过通道维度降低可以减少模型的复杂性，但它也破坏了通道与它们权重之间的直接对应关系。

为了解决这些限制，作者提出了一种有效的ELA方法，该方法能够有效捕捉长距离空间依赖性，并消除了通道缩小对注意力网络造成的负面影响。

unset

unset3 Methodunset

unset

高效局部注意力模块作为一个计算单元，旨在提高深度卷积神经网络中感兴趣区域或重要目标位置的准确识别。为了清楚地解释作者提出的有效定位注意力（ELA）方法，本节首先重申了CA中涉及的两大步骤。

随后，作者探讨了批量归一化（BN）和通道缩放的影响，并通过实验评估了将CA应用于一些小型模型的情况。这些发现为引入ELA奠定了基础。然后，作者深入探讨了构建ELA的过程，并通过在ELA内组合一维卷积和GN的超参数设计了四个版本。最后，作者采用Grad-cam方法进行可视化，进一步说明了ELA的有效性。图2(b)提供了ELA整体结构的概览。

Revisit Coordinate Attention

3.1.1 Coordinate Attention

CA包括两个主要步骤：坐标信息嵌入和坐标注意力生成。在第一步中，作者提出了一种巧妙的方法，通过使用条带状池化而不是空间全局池化来捕捉长距离的空间依赖性，这是一个深思熟虑的设计决策。

让作者考虑一个卷积块的输出，表示为，分别代表高度、宽度和通道维度（即卷积核的数量）。为了应用条状池化，作者在两个空间范围内对每个通道执行平均池化：(H,1)在水平方向上和(1,W)在垂直方向上。这会导致在高度h处的第c个通道的输出表示，以及在宽度w处的第c个通道的输出表示。这些可以用数学表达式Eq1和Eq2来表示。

$z\_{c}^{h}(h)=\frac{1}{H}\underset{0\leq i<h}{\sum}x\_{c}(h,i), \tag{1}$ ="" $z\_{c}^{w}(w)="\frac{1}{W}\sum\_{0\leq" j<w}x\_{c}(j,w),="" \tag{2}$ <="" p="">

在第二步中，由方程1和方程2生成的特征图被聚合成为新的特征图。然后它被送入共享转换函数（这是一个2D卷积）以及批量归一化（BN）。它们可以表示如下。

在上述描述中，沿空间维度的级联操作由表示。代表一个非线性激活函数。中间特征图，表示为，是在水平和垂直编码之后获得的。随后，，，沿空间维度。另外，另外两个卷积变换，分别表示为，，被应用以生成与输入通道数相同的张量。

在这个背景下也使用了sigmoid函数。为了降低顶部模块的复杂性，通常通过适当的缩减比例减少中的通道数，比如32。得到的输出和，将被扩展并用作注意力权重，分别对应于水平和垂直方向。最终，CA模块的输出可以表示为。

观察方程式3、4和5时，作者可以注意到通道维度的降低旨在减少模型的复杂性。然而，这导致了通道与它们对应权重之间的间接关系，这可能会对整体的注意力预测产生不利影响。

此外，重要的是要强调，批量归一化（BN）并不能有效提高通道注意力（CA）的泛化能力。在后续章节中，作者将深入探讨这些观察的更多细节。

3.1.2 Shortcomings of Coordinate Attention

正如吴等人（2018年）的研究所述，批量归一化（Batch Normalization，BN）极大地依赖于小批量的大小。当小批量过小时，BN计算出的均值和方差可能无法充分代表整个数据集，这可能会损害模型的总体性能。从方程式1和方程式2中获得的坐标信息嵌入表示了每个通道维度内的序列信息。将BN放置在处理序列数据的网络中并不是最佳选择，特别是对于坐标注意力（CA）方法。

因此，CA可能会对较小的网络架构产生负面影响。相反，当组归一化（Group Normalization，GN）被用作CA中BN的替代品，并融入到较小的网络架构中时，性能立即出现显著提升。此外，对CA结构的深入分析可以揭示额外的挑战。在第二步的开始，特征图和被拼接成一个新的特征图，随后进行编码。然而，两个方向的特征图和具有独特的特性。因此，一旦合并并捕捉到它们的特点，它们各自连接处的相互影响可能会削弱每个方向上注意力预测的准确性。

表2和表3清楚地展示了带有BN的CA性能下降的情况。例如，ResNet18的Top 1准确率下降了，而YOLOX-Nano的性能下降了。然而，当将BN替换为GN时，ResNet18的Top 1准确率提高了，YOLOX-Nano的性能提升了。因此，在使用小型模型时，BN的使用削弱了CA的泛化性能。此外，值得注意的是，由于维度缩减因子的变化，带有BN的CA给性能带来了显著的不确定性，而这种不确定性并未被大型模型展现出的规律性所体现。

此外，在图2(b)中观察到，在坐标注意力生成过程中，采用了两次2D卷积。这些卷积增强了坐标信息，但导致了通道维度的降低。虽然这个过程减少了模型的复杂性，但它对注意力生成引入了明显的副作用。

尽管MobileNetV2 只有3.5MB的参数量，为什么通道注意力（CA）能显著提高MobileNetV2的性能呢？虽然MobileNetV2相较于仅包含18个卷积层和全连接层的ResNet18参数更少，后者被认为是一个较小的模型，但另一方面，MobileNetV2-1.0却拥有多达57个卷积层，甚至超过了ResNet50。

此外，MobileNetV2通常使用为256进行训练，这使得应用CA能够避免批量归一化（BN）的负面影响，并有效利用其优势。作者知道，根据[40]，MobileNetV2-1.0在计算复杂度和参数量上的显著减少是通过使用深度可分离卷积 [4] 实现的。如果使用普通卷积，参数数量将会显著增加。

Efficient Local Attention

CA方法通过利用条状池化（strip pooling）来捕获空间维度中的长距离依赖，显著提高了准确度，尤其是在更深层的网络中。基于作者之前的分析，可以看出BN（批量归一化）阻碍了CA的泛化能力，而GN（组归一化）则解决了这些不足。从方程式1和方程式2得出的定位信息嵌入是通道内的序列信号。

因此，通常更合适的是使用1D卷积而不是2D卷积来处理这些序列信号。1D卷积不仅擅长处理序列信号，而且与2D卷积相比，它更加轻量化。在CA的情况下，尽管两次使用了2D卷积，但它使用的是的卷积核，这限制了特征提取能力。因此，作者采用5或7大小的1D卷积核，这有效地增强了定位信息嵌入的交互能力。这个修改使得整个ELA能够准确找到感兴趣的区域。

基于从方程式1和方程式2获得的位置信息嵌入，作者的ELA采用了一种新颖的编码方法来生成精确的位置注意力图。下面提供了这一过程的详细描述。

和由方程式 1 和方程式 2 得出，不仅捕捉了全局感官场，还捕捉了精确的位置信息。为了有效地利用这些特征，作者设计了一些简单的处理方法。作者对两个方向（水平和垂直）上的位置信息应用一维卷积以增强其信息。随后，作者使用归一化（表示为）来处理增强的位置信息，这导致了在水平和垂直方向上的位置注意力的表示，如方程式 7 和方程式 8 中所描述。

在上述描述中，作者将非线性激活函数表示为，并用和表示一维卷积。作者选择将和的卷积核设置为5或7。通常，尽管参数数量略有增加，但7的卷积核往往表现更好。

为了在性能和参数数量之间取得平衡，一维卷积的通常被选为或。在水平方向和垂直方向上位置注意力的表示分别表示为和。最后，通过应用方程式9，作者可以得到ELA模块的输出，记作。

Multiple ELA version settings

根据方程3和方程4，作者的ELA涉及三个参数：用于1D卷积的和，以及用于GN的。为了提高CNN的性能，有效设置这些参数至关重要。作者旨在平衡ELA的性能与复杂性。在实验中，作者使用ResNet-18和ResNet-50作为 Backbone 网络，并融入ELA来确定合理的参数值。

对于GN的参数，作者参考[40]，分别选择16和32的值。1D卷积能够捕获交互中的位置信息。通常，1D卷积中更大的可以提供更广泛的位置信息覆盖范围，从而带来稍好的性能结果。然而，它也增加了ELA的复杂性。

在实验中，作者评估了5和7的值，并发现可以提供更好的性能，特别是对于ResNet-50。关于1D卷积的参数，作者探索了两种方案：深度卷积（）和组卷积（）。根据表3中呈现的结果，在大多数情况下，使用组卷积（）胜过深度卷积（）。此外，作者观察到对于ResNet-18，除了之外，值为16也能得到更好的结果。

为了在考虑参数数量的同时优化ELA的性能，作者引入了四种方案：ELA-Tiny(ELA-T)，ELA-Base(ELA-B)，ELA-Small(ELA-S)和ELA-Large(ELA-L)。

ELA-T的参数配置定义为，，；
ELA-B的参数配置定义为，，；
ELA-S的参数配置为，，。
ELA-L的参数配置为，，。

ELA-T和ELA-B被设计为轻量级，使它们成为具有较少网络层或轻量级网络的CNN架构的理想选择。另一方面，ELA-B和ELA-S在具有更深结构的网络上表现最佳。此外，ELA-L特别适合大型网络。值得注意的是，即使ELA-L的参数数量少于最轻的CA方法（r=32），它仍然能够提供令人印象深刻的结果。

Visualization

为了评估ELA方法的有效性，作者在ImageNet上进行了两组实验：ResNet（不包含注意力模块）和ELA-ResNet（包含ELA）。为了评估性能，作者使用了五张图像进行测试。通过使用GradCAM生成视觉 Heatmap ，作者在第四层.2（最后一个阶段的最后瓶颈）展示了两组模型的成果。图3说明了作者提出的ELA模块成功指导整个网络更精确地聚焦于目标细节的相关区域。这一演示突显了ELA模块在提高分类准确度方面的有效性。

picture.image

Implementation

图2(b)展示了作者ELA的概览。这个模块可以无缝集成到与CA具有相同配置的深度CNN中。在PyTorch或TensorFlow中实现ELA只需编写少量代码，这支持自动微分。为了说明这一点，作者在图4中提供了ELA-B的PyTorch代码。

picture.image

unset

unset4 Experimentunset

unset

在本节中，作者分别在大规模图像分类、目标检测和语义分割任务上使用ImageNet、MS COCO 和 VOC2007/2012 数据集来评估作者提出方法的表现。具体来说，作者提供了实验设置的概览，将作者提出的ELA方法与最先进的相关模块进行了比较，并就目标检测和语义分割方面展示了ELA方法与其他对应方法的比较结果。

Experiment details

所有实验都是在PyTorch工具箱上进行的，训练使用了NVIDIA的GPU。为了评估ELA模块在ImageNet上的分类效果，作者使用了四种CNN作为基础网络，包括MobileNetV2，ResNet-18，ResNet-50和ResNet-101。

对于MobileNetV2，小批量大小设置为256，使用SGD优化器，动量均为0.9，权重衰减设置为。作者采用余弦退火学习率衰减策略，初始学习率为0.025，所有模型总共训练200个周期。对于数据增强，作者采用了与MobileNetV2相同的方法。作者在ImageNet数据集上提供了分类结果。

对于这三种ResNet网络，作者采用了与[12]中描述的相同的数据增强和超参数设置。具体来说，输入图像被随机裁剪为，并且随机水平翻转。网络参数使用随机梯度下降（SGD）进行优化，权重衰减为，动量为0.99。所有模型总共训练了90个周期，初始学习率设置为0.1或0.05。每30个周期学习率降低10倍。

Image Classification on ImageNet

MobileNetV2 作者探讨了使用MobileNetV2架构作为基础网络时，作者提出的ELA-S、ELA-L和CA的性能。对于CA，作者分别选择了降维因子为16、24和32。在验证实验中，作者将注意力模块插入到MobileNetV2的反向残差块中，确保了所有模型的训练设置保持一致。

picture.image

表4中的结果显示，作者的ELA-S模块将原始MobileNetV2的top-1准确率提升了大约2.39%。此外，与CA方法相比，作者的ELA方法在参数更少和计算复杂度更低的情况下展现了更优的性能。这些发现进一步验证了ELA方法的效率和有效性。

值得强调的是，在MobileNetV2中包含CA（r=16）会使参数数量增加超过35%。这对于移动网络来说可能是一个潜在的缺点，因为它们往往更注重参数的效率。

ResNet 作者将ELA与各种最先进的注意力模块进行了比较，包括SE块，CBAM，ECA-Net，SA-Net和CA。评估指标涵盖了效率（网络参数，每秒浮点运算（GFLOPs））和有效性（Top-1/Top-5准确率）。为了评估不同模型的效率与有效性，作者采用了公开可用的ResNet网络，并在BasicBlock或BottleBlock中集成了各个注意力模块，并在相同的计算平台上应用它们。与最先进（SOTA）模型相比，ELA取得了更高的准确率。

特别是，当ResNet18作为基础网络时，ELA将Top-1准确率提高了0.93%。对于ResNet50，提升为0.8%，对于ResNet101，提升为0.21%。值得注意的是，当ResNet50作为基础网络时，ELA仅增加了0.03%的参数数量，却将绝对性能提升了0.8%，清楚地展示了ELA的有效性。

作者观察到，当使用ResNet18作为基础网络时，CA（通道注意力）的不足之处变得明显。其有效性主要在更大的网络中得到体现。另一方面，在这种情况下，ECA（高效通道注意力）的有效性受到限制，因为ResNet18模型有多个少于128个通道的层。这与ECA方法的设置[36]不匹配，后者需要使用3个元素的1D卷积核，这阻碍了它有效促进通道间交互的能力。

Object Detection

在MS COCO上的目标检测

作者选择了YOLOF 目标检测器来比较ELA方法与CA方法的性能。YOLOF使用ResNet50 作为Backbone网络，并在MS COCO 数据集上进行实验。注意力模块仅在Backbone网络输出、编码器的投影层以及其后三个残差块后各使用一次。对于所有实验，使用了SGD优化器。训练的分辨率为，单一尺度，每个小批量包含总共16张图像。初始学习率设置为0.003，有一个1500次迭代的预热期。根据“1 schedule”方案，总共训练了12个周期。在第8和第11个周期后，学习率分别降低了10倍。在模型推理期间，结果使用阈值为0.6的NMS进行后处理。其余超参数遵循中指定的设置。

picture.image

根据表6，尽管CA方法有助于提高YOLOF目标检测器的性能，但作者的提出的ELA方法在模型参数和提升多样化的性能指标方面显著超过了CA方法。特别是当使用YOLOF [3] 作为基础检测器（以ResNet-50作为 Backbone 网络）时，ELA在AP50:95上展示了0.68%的提高。

在Pascal VOC2007上的目标检测 此外，作者使用YOLOX-Nano 在Pascal VOC数据集上验证了ELA的有效性。作者在YOLOX-Nano的Backbone网络之后以及 Neck 中的特征融合层之后添加了ELA模块和其他相应的注意力模块。该模型通过加载来自MS COCO的预训练权重，使用迁移学习进行训练。

对于所有实验，作者使用了初始学习率为0.02的SGD优化器。学习率衰减采用余弦退火策略进行控制，权重衰减为0.0005，动量为0.937。批量大小设置为16，输入图像尺寸为。模型在训练数据集上总共训练了72个周期。作者排除了mix-up增强，并通过将缩放范围从调整到来调整马赛克技术。对于其他超参数配置，请参考[11]。

picture.image

在表7中，以YOLOX-nano模型作为 Baseline ，作者展示了在Pascal VOC 2007测试集上采用不同注意力方法进行的检测结果。作者观察到，CA方法显著降低了 Baseline 的性能，而ECA-Net和SA-Net对 Baseline 性能的提升非常小。相比之下，结合作者的ELA使 Baseline 性能得到了显著增强，实现了1.1%的mAP提升。在MS COCO和Pascal VOC数据集上的两次检测实验均表明，ELA方法相比于其他注意力方法在性能提升上表现更为优越。

Semantic Segmentation

最后，作者展示了使用DeepLabV3的ELA在Pascal VOC2012上获得的语义分割结果。作者采用ResNet-50作为Backbone网络，在每一个Bottleneck中的每个卷积后以及每层之后应用注意力方法。作者采用输出步长为16（）的方法，并使用批处理大小为12（）的批标准化统计计算。作者使用513的裁剪大小及0.9997的衰减来训练批标准化参数。训练过程包括在train_aug数据集上进行40K次迭代，初始学习率为0.025。所有模型均使用PyTorch工具包1.0实现。

如表8所示，CA方法显著提高了DeepLabV3的性能。然而，SE块和ECA-Net方法并没有显著提升DeepLabV3的性能。令人惊讶的是，SA-Net实际上导致了DeepLabV3模型性能的下降，表明SA-Net的泛化能力并不特别强。与所有上述方法相比，ELA方法在模型性能提升上表现得最为出色。上述实验结果充分证明了ELA方法在多种计算机视觉任务中具有强大的泛化能力。

unset

unset5 Conclusionunset

unset

本文介绍了一种创新的注意力机制，称为高效局部注意力（ELA），旨在增强卷积神经网络（CNNs）的表示能力。ELA以其轻量级和直接的结构简化了准确定位感兴趣区域的过程。

实验结果表明，ELA是一种即插即用的注意力方法，不需要减少通道维度。此外，ELA在多种深度CNN架构中一致地实现了显著的性能提升。

unset

unset参考unset

unset

[1].ELA: Efficient Local Attention for Deep Convolutional Neural Networks.

点击上方卡片，关注「AI视界引擎」公众号