复旦提出 CTA-Net | 卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

卷积神经网络（CNNs）和视觉 Transformer （ViTs）已成为计算机视觉领域中局部和全局特征提取的必备工具。然而，将这两种架构聚合到现有方法中往往会导致效率低下。为了解决这个问题，作者开发了卷积- Transformer 聚合网络（CTA-Net）。

CTA-Net将CNNs和ViTs相结合，其中 Transformer 捕捉长程依赖关系，CNNs提取局部特征。这种集成使得可以有效地处理详细局部和更广泛的情境信息。

CTA-Net引入了轻量级多尺度特征融合多头自注意力（LMF-MHSA）模块，用于有效多尺度特征集成，同时降低了参数数量。

此外，反向重构卷积-变体（RRCV）模块增强了在 Transformer 架构中CNN的嵌入。

在具有少于10万个样本的小规模数据集上进行的广泛实验表明，CTA-Net在性能（TOP-1 Acc 86.76%）、参数数量（20.32M）和效率（FLOPs 2.83B）方面均取得了优越表现，使其成为处理小型数据集（少于10万个）的非常高效和轻量级解决方案。

Introduction

卷积神经网络（CNNs）在计算机视觉领域取得了突破性进展，原因在于它们具有强大的提取详细、判别性强的特征的能力[1, 2]。通过使用卷积层，CNNs能够高效地捕获局部空间层次，从而在各种图像分类任务中实现最先进的表现。尽管CNNs在局部特征提取方面表现出色，但其固有的局限性在于小卷积核的受限制的 receptive field，这可能阻碍全局上下文信息的捕获。为了解决这一局限性，研究行人通常会引入额外的机制或层来捕获更全面的视觉上下文[23, 24]。

自注意力机制的 Transformer （如视觉 Transformer （ViT）[17]）已成为CNN的有力的替代品，主要原因是它们能够捕捉图像中的长程依赖关系。ViT将图像分割成patch，将其转换为类似于自然语言处理（NLP）中的词 Token 的序列。这些patch，通过位置嵌入的补充，被输入堆叠的 Transformer 块中，以建模全局关系和提取分类特征。ViT的核心组件自注意力机制使网络能够捕捉图像中的广泛空间依赖关系[25]。

然而，现有的基于 Transformer 的模型在利用局部和多尺度特征方面面临挑战，这对于许多视觉任务[26, 13]至关重要。构建基于 Transformer 架构时存在两个主要问题：首先，尽管图像分块的有效性可以捕捉到图像分块之间的长程依赖关系[26]，但它可能忽视了每个分块内的空间局部信息，而卷积神经网络（CNNs）在这一点上表现出色[14, 15]。其次， Transformer 中 Token 的统一大小限制了模型利用 Token 之间多尺度关系的可能性，这对于各种下游任务[23, 24]特别有益。

两种架构ViTs和CNNs各自具有独特的优势。当它们有效地结合在一起时，它们可以利用各自的优点来提高模型性能[25]。尽管ViT在捕捉全局表示方面表现出强大的鲁棒性，尤其是在大数据集上，但由于其依赖于多层感知（MLP）层[17]，它在小型数据集（少于10万个）上容易过拟合。相反，CNN擅长捕捉局部表示，并在小型数据集上表现出强大的性能，但在更大数据集上的扩展效率可能不如ViT。

这篇论文提出了一种新方法，该方法将CNN和ViTs的互补优势集成在一起，同时不增加不必要的计算。如图1所示，提出的CNN-Transformer Aggregation Network (CTA-Net)通过将CNN作为整体组件融入ViTs，弥补了纯 Transformer 模型所存在的局限性。

picture.image 总之，本文的主要贡献如下：

Transformer 架构中无缝集成反向重构卷积神经网络变体（RRCV）模块，该模块结合了卷积神经网络的局部特征提取能力和Transformer 在全局语境理解方面的优势。
轻量级多尺度特征融合多头自注意力（LMF-MHSA）模块高效地利用多尺度特征，同时保持参数数量减少，从而提高模型效率和性能，尤其是在资源受限的环境中。

Related Works

CNN and Transformer Aggregation Network

CNNs和ViTs的聚合已经成为当代研究的关键焦点[26]，因为研究行人正在探索CNNs的局部特征提取能力和ViTs的全局上下文理解之间的协同结合[13,26]。已经开发出各种方法来融合这些优势，例如Swin Transformer[12]，它使用窗口注意机制进行隐式局部和全局特征的集成。其他方法包括引入显式融合结构来促进 Token 或块之间的信息交换，从而创建更统一特征表示[23,24]。

在典型的聚合结构中，CNN和Transformer被组织成两个独立的分支，分别学习后进行融合。例如，Dual-ViT [26]使用两个不同的路径来捕捉全局和局部信息。ECT [25]引入了一个Fusion Block，用于在CNN和Transformer分支之间双向连接中间特征，从而增强各自的优势。SCT-Net [27]提出了一种双分支结构，其中CNN和Transformer特征对齐以编码丰富的语义信息和空间细节，这些信息在推理过程中由Transformer利用。Crosformer++ [23]通过受到CNN启发，采用金字塔结构扩展了通道容量，同时降低了空间分辨率。

尽管取得了这些进展，但这些架构通常将CNNs和Transformer视为独立的模块，它们之间仅存在表面上的交互，因此需要融合块或类似的结构来帮助特征融合。这种分离可能会阻碍两者之间的信息 Stream ，可能导致信息损失。此外，对于小型数据集，其中学习特征有限，这些融合架构可能会限制全面特征学习[24]。这种限制在需要详细局部特征和全面全局上下文的任务中尤为严重，例如图像分类。

Multi-Head Self-Attention Mechanism

多头自注意力（MHSA）机制对于捕捉空间位置之间的全局依赖关系，显著提高了Transformer在视觉任务上的性能[24]。然而，许多MHSA机制依赖于单尺度学习过程，限制了模型捕捉多尺度特征的能力[23]。这一限制在需要对全局上下文和局部特征有细微理解的任务中尤为明显[10]。例如，单尺度MHSA模型通常无法利用数据的不同粒度 Level ，导致特征表示不理想，从而在诸如图像分类或目标检测等任务中的性能受损[23, 11]。

近年来，通过发展多尺度MHSA模型[10]，力求解决这些缺陷。Cross-ViT[22]引入了一种创新架构，将多尺度特征编码并融合，从而增强模型从输入数据中利用各种细节级的能力。SBCFormer[13]通过引入一种新的注意力机制，实现了在单板计算机上实现高精度和快速计算的目标。

LCV模型[25]通过结合CNN的局部特征提取和ViT的全局上下文理解，解决了域适应性挑战。然而，在面临具有有限特征的小规模数据集时，性能并不理想。

这些复杂性强调了设计高效Transformer架构的持续挑战，即在不增加禁止计算成本的情况下，有效地捕获多尺度特征。解决这一问题仍然是一个关键的研究领域，尤其是在涉及小规模数据集的应用中，进行全面特征学习至关重要[1]。

Method

本文节提供了提出的CTA-Net网络架构的简洁概述，随后详细介绍了其组成部分。

Overall Architecture

目标是构建一个聚合网络，该网络同时利用CNNs和Transformers的优势。如图2所示，CTA-Net的设计旨在结合CNNs和ViTs的优势。该架构包括两个关键模块：RRCV和LMF-MHSA。这些模块确保了局部和全局特征的无缝融合，同时保持了计算效率。

picture.image 在提出的CTA-Net中，输入图像被分成 patches，这些patches被转换成一系列tokens。这些patches被嵌入到高维空间中，类似于ViTs中的token嵌入过程。位于初始Layer Normalization（LNorm）模块之后，LMF-MHSA模块取代了传统的Multi-Head Self-Attention（MHSA）机制，有效地处理多尺度特征融合，同时降低计算复杂度和内存使用。这是通过考虑输入tokens的不同尺度来实现的，从而减少了与传统MHSA相比的计算负载。

位于第二个LNorm模块之后，在Transformer块中的MLP（Multi-Layer Perceptron）模块之前，RRCV模块将CNN操作集成到Transformer中。这个模块通过卷积操作增强局部特征提取，并将这些特征与Transformer的全局上下文融合，确保由CNN捕获的局部细节在Transformer架构中得到有效利用。

然后，tokens序列通过多个Transformer块，每个块都包含LMF-MHSA和RRCV模块，通过利用CNN和Transformer的优势，在局部和全局 Level 进行全面的特征提取。最后，token表示被输入到分类头以执行所需的视觉任务，如图像分类。

通过全面集成CNN和Transformer，CTA-Net有效地捕获了局部和全局特征，导致了更全面和准确的特征表示，降低了计算复杂度，并提高了性能。在基准数据集上的大量实验表明，CTA-Net在各种视觉任务上超过了现有方法，为实际应用提供了健壮而实用的解决方案。

Reverse Reconstruction CNN-Variants

CNNs在历史上通过有效捕获相邻像素之间的局部特征在各种计算机视觉任务上表现出色。在它们的发展过程中，出现了许多变体架构，如ResNet [14]和深度可分卷积[20]。这些创新解决了深度网络固有的特定挑战，如减轻随着深度增加而出现的退化问题，并减少了通常与传统卷积网络关联的过度的参数化。

RRCV模块集成到CTA-Net的过程中遵循多步流程，如图2(c1)所示。首先，对由Transformer生成的向量应用反向嵌入函数，将其重构为与卷积神经网络输入规格一致的特征图。接着，使用点积卷积()有效地降低数据维数和计算复杂度。最后一步涉及使用贴片嵌入函数将这些处理过的向量无缝集成回Transformer框架中，避免使用可能引起信息损失的中间融合块。这个过程可以用以下形式表示：

picture.image

如图2(c2)所示，重建过程旨在将Transformer的中间结果恢复为原始特征图，通过位置嵌入组合保留相应的位置信息。这些重建的特征图然后被作者设计的CNN-Variants模块处理。在这里，表示一个具有维度的特征图张量，表示一个具有维度的 Patch 张量。

picture.image

避免单独融合模块的需求，提出的架构使CNN和ViT组件实现无缝融合，确保特征提取和集成过程中不会出现信息损失。这种无缝融合使得模型架构更加一致和高效，有效利用了CNN和ViT的优势，在视觉识别任务上实现卓越性能。

CNN-Variants模块旨在增强ViT捕获局部空间细节的能力，因为这种能力在基于patch的方法中受到限制。通过将ViT向量重构为特征图，该模块实现了有效的地方信息提取，并随后将提取到的特征与ViT的全局上下文进行整合。

为了验证局部特征提取的有效性，本文研究了三种具体的CNN变体：标准CNN、残差模块和深度可分卷积模块。标准CNN作为 Baseline ，说明了传统卷积方法在提取局部特征方面的有效性。残差模块被选中，因为它们能够在深度网络中缓解梯度消失问题，从而提高模型的特征学习能力。

深度可分卷积模块被采用，因为它们在降低参数数量的同时保持了特征提取的准确性，这在资源受限的环境中是一个关键考虑因素。

这些变体允许对不同卷积策略如何优化Transformer框架中局部和全局特征的整合进行系统评估。

Light Weight Multi-Scale Feature Fusion

多头自注意力 LMF-MHSA模块解决了现代计算机视觉任务中的计算复杂性和多尺度特征提取挑战。传统的MHSA机制资源密集，难以捕捉跨多个尺度的特征，导致目标检测效果不佳。如图2(b1)所示，所提出的LMF-MHSA在降低计算成本的同时，通过多尺度融合机制增强了特征提取。

如图2(b2)所示，多尺度特征融合层用于从输入中提取不同尺度的特征，从而提高模型对各种尺度特征的敏感性。给定输入特征图，通过使用不同卷积核尺寸提取多尺度特征：

picture.image

在这里，、和分别表示由、和卷积核处理的特征图。

轻量级多头自注意力机制（LMF-MHSA机制）引入了几种创新方法，以提高计算效率，同时保持模型性能：

深度可分卷积。这种操作将标准卷积分解为深度卷积和点卷积步骤，极大地减少了参数数量和计算负载。一个具有参数的传统卷积层被转换为具有参数的更高效结构。

Query 、 Key和Value 线性投影 为了优化资源使用，用1×1卷积替换传统的矩阵乘法，用于转换 Query 、 Key和Value 矩阵，以确保数据完整性并降低计算成本。

注意：计算和投影。核心注意机制定义如下：

其中表示关键的维数。还应用了额外的线性投影：

该方法将计算资源集中在最相关的特征上，实现精确与效率的平衡。

输出特征和效率。 LMF-MHSA的输出是通过将注意力权重与转换后的值向量相加得到的：

通过从初始卷积平滑到优化注意力计算的结构化过程，LMF-MHSA机制有效地捕获了局部和全局特征。这使得它特别适合涉及小型数据集（少于100,000个）和受限的计算资源的任务。

Experiments

本文概述了针对所提出的CTA-Net及其各个组件进行的一系列全面实验，以评估其有效性。在基准数据集上与现有最先进方法进行了比较评估。首先，介绍了数据集和实现细节，然后进行了一系列的消融实验来验证单个模块的性能。最后，比较实验说明了CTA-Net相对于现有最先进方法的优势。

Datasets and Implementation Details

数据集 ViT及其变体在大型数据集上表现良好，但在没有预训练的情况下，在小型数据集（少于100,000个样本）上的表现不佳。相比之下，CNN在小型数据集上表现良好，但ViT在处理小型数据集时往往表现不佳。

为了验证CTA-Net完全利用了两种架构的优势，作者提出的CTA-Net在四个小型数据集上进行评估。四个开源小型数据集包括CIFAR-10，CIFAR-100（Krizhevsky，Hinton等人，2009年），APTOS 2019盲视力检测（APTOS2019）（Mohanty等人，2023年），以及2020视网膜多疾病图像数据集（RFMiD2020）（Pachade等人，2021年）。

Implementation Details

实验旨在评估CTA-Net的特征自学习能力以及在没有使用预训练权重的情况下，将CNN和Transformer组件进行集成。

使用Top-1准确率（Top-1 Acc）作为分类准确性的衡量标准，同时测量计算效率，包括每秒浮点运算次数（FLOPs）和参数数量（Params）。所有实验均在配备80 GB内存的NVIDIA Tesla A100 GPU上运行。

所有实验均在NVIDIA Tesla A100 GPU上进行，每个GPU拥有80 GB内存。

Comparison with State-Of-The-Art Methods

表1呈现了CTA-Net在四个小型数据集上的实验结果。与其他CNN变体和ViT变体模型相比，CTA-Net表现出优越性能。如图3所示，CTA-Net在参数数量最少、效率最高的情况下取得了出色结果。

picture.image #### Comparisons with CNN-Variants Models.

实验评估中，作者将CTA-Net与CNN和ViT领域的领先模型在四个小型数据集上进行了比较，这些数据集的详细信息见表1。CTA-Net显著优于多个CNN变体。值得注意的是，在APTOS2019和RFMiD2020数据集上，CTA-Net分别比三个CNN变体的平均值实现了3.67%和5.1%的更高TOP-1准确率。在RFMiD2020数据集上，CTA-Net比ResNet34（He等人，2016年）高出9.22%。这些结果证实了CTA-Net增强了特征学习能力，优化了参数体积（20.32M）和FLOPs（2.83B），使其比传统CNN结构更高效。

与ViT-Variants模型相比，如图1所示，CTA-Net在四个数据集上的平均TOP-1 Acc提升12.07%，3.856%，21.52%和12.93%。在CIFAR-10和CIFAR-100数据集上，CTA-Net的准确率分别比MIL-VT（Yu等人，2021年）高37.76%和24.93%，无需依赖大规模预训练权重。尽管CTA-Net在CIFAR-100数据集上的TOP-1 Acc略低于SwinT，但它通过显著降低FLOPs（58.7亿）和参数（29.24M）实现了效率的提高，比SwinT高出四倍（刘等人，2022年）。这些结果强调了CTA-Net的平衡方法，利用CNN和ViT的优势在较少的参数下实现高性能和增强效率。

表1展示了CTA-Net与各种ViT-Aggregation模型的对比。在小型数据集上，CTA-Net相对于ViT-Aggregation模型具有1.652%的平均TOP-1精度提升。研究发现快速ViT收敛速度非常慢。表1中四个小型数据集的TOP-1 Acc在训练350个epoch后才实现，而其他模型仅训练了100个epoch。

CTA-Net模型收敛速度更快，在相同训练周期内实现更高性能，即使数据有限，这展示了其强大的特征学习能力。尽管Dual-ViT（Yao等人，2023）在CIFAR-10上的TOP-1精度相对于CTA-Net略高0.18%，但CTA-Net的效率高出47.59%，参数减少26.42%，这对于资源受限的环境至关重要。同样，虽然CrossF++/s（Wang等人，2023）在CIFAR-10上通过多轮训练实现90%的TOP-1精度，但需要显著的计算资源，这与平衡性能和效率的实际需求相冲突。此外，观察到复杂的网络结构如LCV（Ngo等人，2024）在小型CIFAR-10数据集上遇到挑战，在没有大规模预训练权重的情况下仅实现10%的TOP-1精度（未在表1中显示）。这表明模型在有限数据上学习特征的挣扎。

与其他聚合模型相比，CTA-Net不仅性能优越，而且保持了最低的参数数量（20.32M）和FLOPs（2.83B）。这种在特征学习和模型部署方面的效率使CTA-Net对于涉及小型数据集的应用具有吸引力，改进了多尺度特征提取，并解决了聚合卷积神经网络（CNN）和视觉变换网络（ViT）架构所面临的挑战。

Ablation Study

为了验证CTA-Net的有效性，进行了一系列的消融实验，重点关注了关键的创新模块：RRCV模块和LMF-MHSA模块。目标是展示每个组件如何提升整体架构的性能，并确定将CNN和Transformer组件集成到最佳配置中。

有效性关键创新模块。如表2所示，RRCV和LMF-MHSA模块逐步添加到基准中，以展示其有效性。添加RRCV模块后，在小规模数据集上，TOP-1 Acc的平均增加了6.115%，表明RRCV模块有效地整合了CNN的优势，并解决了ViT在小规模数据集上的性能限制。此外，将LMF-MHSA模块集成进来，导致四个数据集上的平均TOP-1 Acc增加1.74%，从2.48B的FLOPs增加到2.83B，而FLOPs的增加最小。这展示了LMF-MHSA在处理多尺度特征方面的效率。

picture.image 不同CNN变体的比较。RRCV模块将CNN操作嵌入到Transformer架构中，以增强局部特征提取。在表3中展示了许多配置的测试。残差卷积提供了与Transformer的最佳集成，性能最大化，详细内容参见附录B。这表明残差连接，保持梯度 Stream 并支持更深模型，对于局部特征提取特别有益。

picture.image 轻量级多尺度特征融合多头自注意力模块的有效性。LMF-MHSA模块专门设计用于解决参数和计算效率问题。表4在相同配置下比较了传统MHSA和LMF-MHSA。LMF-MHSA模块将总参数数量减少到20.83M，将模型复杂度降低66%。模型效率提高至2.83B，增加了79.42%。这展示了其在保持模型性能的同时最小化资源消耗的能力。这种效率突显了模块在轻量级架构设计中的作用，便于在计算能力有限的环境中应用。

picture.image 多尺度卷积的必要性。LMF-MHSA模块采用多尺度卷积来显著改进特征提取过程。通过使网络能够捕捉不同粒度信息，这种方法对于需要识别复杂视觉模式的任务特别有效。如表5所示，进行了不同卷积核大小的实验来验证多尺度卷积的重要性。尝试了单尺度卷积的实验。有关详细实验，请参阅附录C。结果表明，多尺度卷积中结合各种核大小可以在小型数据集上获得1.765%的平均性能提升。这一证据强调了多尺度特征提取在增强模型跨异构视觉模式泛化能力方面的重要性。LMF-MHSA模块中多个卷积核的集成有助于提供更稳健的特征表示，从而提高CTA-Net架构的整体性能。

Conclusion

本文介绍了CTA-Net，这是一种用于在小规模数据集（少于100,000个样本）上改善多尺度特征提取的CNN-Transformer聚合网络。CTA-Net解决了CNN和ViT特征融合不足以及模型复杂度高的挑战。

通过在ViT框架内整合CNN操作，CTA-Net利用了两种架构的优势，增强了局部特征提取和全局信息处理，提高了网络的表征能力。逆重建CNN变体（RRCV）和轻量级多尺度特征融合多头自注意力（LMF-MHSA）模块通过广泛的消融实验得到了验证。

结果表明，CTA-Net在基线上的TOP-1准确率达到了86.76%，效率更高（FLOPs为2.83B），复杂度更低（参数为20.32M）。

CTA-Net是小规模数据集（少于100,000个样本）的合适聚合网络，推动了视觉任务的进展，并为未来的识别研究和应用提供了一个可扩展的解决方案。

参考文献

[0]. CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」