算力核爆！碾压YOLO系 | Fast-COS 横扫 BDD100K/TJU 双冠，边缘端实时推理，效率起飞 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

感知系统是自动驾驶系统的核心元素，在确保安全方面发挥着关键作用。驾驶场景感知系统本质上是一个目标检测任务，需要在准确性和处理速度之间取得平衡。许多当代方法侧重于提高检测精度，但往往忽视了在计算资源有限时实时检测能力的重要性。因此，研究针对驾驶场景的高效目标检测策略至关重要。

本文介绍了Fast-COS，这是一个专为驾驶场景应用设计的单阶段目标检测框架。研究从对 Backbone 网络的分析开始，考虑了宏观和微观架构设计，得出了重参化注意力视觉Transformer（RAViT）。RAViT利用重参化多尺度深度卷积（RepMSDW）和重参化自注意力（RepSA）来提高计算效率和特征提取。在GPU、边缘和移动平台上的广泛测试中，RAViT在ImageNet-1K数据集上实现了81.4%的Top-1准确率，与ResNet、FastViT、RepViT和EfficientFormer等可比 Backbone 模型相比，显著提高了吞吐量。此外，将RepMSDW集成到特征金字塔网络中形成RepFPN，实现了快速和多尺度的特征融合。

Fast-COS增强了驾驶场景中的目标检测，在BDD100K数据集上达到了57.2%的AP50分数，在TJU-DHD交通数据集上达到了80.0%。它在效率上超过了领先模型，与FCOS、YOLOF和RetinaNet相比，GPU推理速度提高了高达75.9%，在边缘设备上的吞吐量提高了1.38倍。这些发现将Fast-COS确立为一个高度可扩展且可靠的解决方案，适用于实时应用，尤其是在资源受限的环境，如自动驾驶系统中。

引言

各种传感器作为感知系统，用于收集实时交通数据，实现独立导航[1]。摄像头提供必要的、高分辨率的视觉数据，这些数据对于驾驶场景图像处理任务，如目标检测[2]至关重要。在复杂场景中，对驾驶环境的鲁棒感知对自动驾驶汽车至关重要。这需要高精度、实时处理和容错性。准确识别和预测物体运动，执行高效的实时处理，避免可能导致交通拥堵或事故的决策延迟，以及在恶劣天气或低光照条件下确保运行，都是至关重要的。有效的目标检测算法对于基于摄像头的感知系统在自动驾驶汽车中的安全性和有效性至关重要[3]。

在深度学习中的当代目标检测架构中，结构通常由 Backbone 网络、 Neck 和 Head 检测器元素组成[4]-[6]。检测器主要分为两类：两阶段和单阶段。两阶段模型，如R-CNN系列[7]、[8]，强调区域 Proposal 和特征提取。这些模型以精确的目标定位而闻名，但由于需要大量的区域 Proposal ，计算成本较高。相反，单阶段检测器，如YOLO[9]或RetinaNet[10]，在单个网络流中执行目标检测和定位回归。单阶段检测器的一种变体是全卷积单阶段检测器（FCOS）[11]、[12]，它通过基于每个像素的预测来采用 Anchor-Free 点策略，从而消除了对预定义 Anchor 框的需求，提高了计算效率。然而，FCOS因其 Backbone 网络和 Neck 结构效率低下而受到批评。

在整个十年间，卷积神经网络（CNNs），尤其是ResNet[13]，因其众多下游任务[14]中的卓越性能而被频繁用作 Backbone 网络，包括生物识别[15]、[16]、医学分割[17]和图像去雾[18]。然而，由于感受野的限制和短程依赖，它们在遮挡问题上遇到了挑战，尤其是在驾驶场景目标检测[19]中尤为普遍。最近，基于Transformer的视觉模型在各种计算机视觉应用中作为 Backbone 网络[20]或作为分割编码器-解码器架构[21]表现出非凡的成功，利用其全局感受野和长程依赖性，超越了CNN的性能。然而，这些模型由于二次计算复杂度，通常计算量较大。例如，原始视觉Transformer（ViT）[22]需要8500万到6.32亿个参数来进行ImageNet分类。这种复杂性为在资源受限的设备上部署，如移动和边缘设备，带来了挑战，并且可能不适合某些应用，如驾驶场景目标检测[19]和资源有限的平台部署。

几种高效的设计方法已被开发出来以提高 Transformer 效率，或可在移动或边缘设备中实现 [23]-[27]。最具创新性的方法是将 Transformer 与卷积神经网络（CNNs）集成 [23]，[25]。一些策略引入了一种具有线性复杂度的创新自注意力模型 [26] 和一个具有维敏感架构 [24]，[27]。这些方法表明，CNNs在将 Transformer 部署到资源受限设备中起着至关重要的作用。另一方面，人们还关注在架构层面设计以快速推理为导向的 Transformer 视觉模型 [28]-[30]。许多方法通过使用的主干网络，在初始架构阶段从非常低的分辨率中实现了快速推理。此外，还引入了创新的Self-Attention机制以最小化计算冗余 [29]，[30]。虽然这些方法在快速GPU推理中表现良好，但对于核心处理器较少的资源受限硬件上的推理效果较差。

与ViTs的复杂架构相比，最近CNN的发展受到了启发[31]-[33]。它们不像传统的CNN[34]、[35]那样使用结合空间和通道特征提取，而是根据ViT的架构分别设计。为了捕捉全局空间上下文，一些CNN尝试将核大小增加到[31]、[32]，而不是使用常见的[33]。此外，在[36]、[37]中，它们将核大小扩展到以获得更大的感受野。然而，极大的核大小会显著增加内存访问和参数，使得优化变得具有挑战性。

为了解决性能与速度之间的权衡，作者引入了RAViT，即重参化注意力视觉Transformer。这种混合Transformer结合了一个可重构的 Token 混合器，该混合器将注意力与多尺度大核CNN相结合。在宏观层面，RAViT将轻量级ViT[28]-[30]的一般框架与最新的基于CNN的设计[33]相融合。在微观层面，引入了重参化多尺度深度wise卷积（RepMSDW）和重参化自注意力（RepSA）以维持全局和局部依赖性。利用RAViT作为 Backbone 网络，作者优化了FCOS，使其更加高效和快速，因此作者称之为快速卷积单阶段目标检测器或Fast-Cos。不仅 Backbone 网络，在 Neck Level ，FCOS的特征金字塔网络（FPN）通过RepFPN得到增强，它利用了RepMSDW。广泛的评估确认了其在各种视觉基准上的效率，包括用于 Backbone 网络图像分类的ImageNet-1K，以及用于驾驶场景中目标检测的BDD100K和TJU-DHD交通。

总之，作者的主要贡献包括：

1. 作者提出RAViT，一种具有多尺度大核重参化和部分自注意力的混合视觉Transformer。
1. 作者展示了RAViT作为提取多尺度特征的主干网络的有效性，并强调了其增强FCOs目标检测器的潜力，在BDD100K和TJU-DHD数据集上实现了高精度。通过利用RepMSDW，作者优化了原始FCOS FPN Neck 的多尺度特征提取，展示了RepFPN作为 Neck 与RAViT主干网络结合，形成Fast-FCOS目标检测器，在驾驶场景数据集上实现卓越精度的作用。
1. 作者表明，RAViT在各种平台上表现出低延迟，包括移动设备、边缘设备和桌面GPU，这将显著促进驾驶场景目标检测系统在多种硬件上的应用。
相关工作

A. 高效视觉Transformer

近期在高效视觉Transformer方面的进展始于MobileViTs [25]，它结合了MobileNets的效率与视觉Transformer（ViTs）的全局建模能力。EfficientFormers [24]、[27]展示了一种特征维度感知的设计，该设计采用硬件优化的4D模块和有效的3D多头自注意力（MHSA）块。FastViT [32]通过整合深度卷积与结构重参化，提升了模型容量和效率。EdgeNext [23]应用局部-全局块以更好地结合MHSA和卷积。SHViT [30]通过应用于部分通道的单头自注意力（SHSA）机制来解决计算冗余问题。EMO [38]通过将窗口自注意力与倒置 Bottleneck 卷积合并为一个单一块来解决简洁性问题。

B. 大核卷积

最初，像AlexNet和GoogLeNet这样的传统CNN在早期架构中偏好使用大核，但VGG[39]将重点转向使用堆叠的核。InceptionNets[40]、[41]通过将卷积分解为连续的和操作来提高计算效率。SegNeXt[42]通过结合和卷积扩展了有效核大小，以用于语义分割任务。MogaNet[43]采用了多尺度空间聚合块，利用扩张卷积来捕捉判别性特征。ConvNeXt[31]通过使用深度卷积进行现代CNN设计实验，反映了Swin Transformer[20]的架构策略。InceptionNeXt[44]通过将大核深度卷积分为四个并行分支来提高吞吐量和性能。SKNet[45]和LSKNet[46]在通道和空间维度上均采用了多分支卷积。此外，RepLKNet[36]使用SRP将核大小扩展到，实现了与Swin Transformers相当的性能。

C. 结构重参化

近期研究，如RepVGG [39]，表明重新参数化 Shortcut 可以降低内存访问成本。为了提高效率，先前的工作如MobileOne [47]已经利用了分解的k×k卷积，结合深度卷积或分组卷积，随后再进行1×1点卷积。这种方法显著提升了整体模型效率，尽管参数数量的减少可能会导致容量降低。最近，类似[48]中提出的token mixer的重新参数化MLP，称为RepMLPNet。据作者所知，在混合Transformer架构中，尚未探索使用结构化重新参数化来移除具有多尺度卷积的 Shortcut 。此外，重新参数化卷积与自注意力机制的组合也尚未被探索。

提出方法

近期研究，如RepVGG [39]，表明重新参数化 Shortcut 可以降低内存访问成本。为了提高效率，先前的工作，如MobileOne [47]，已经利用了分解的卷积，并结合深度卷积或分组卷积，随后再进行点卷积。这种方法显著提升了整体模型的效率，尽管参数数量的减少可能会导致容量降低。最近，如[48]中提出的token mixer这样的重新参数化MLP，被称为RepMLPNet。据作者所知，在混合Transformer架构中，使用结构化重新参数化来移除具有多尺度卷积的 Shortcut 之前尚未被探索。此外，重新参数化卷积与自注意力机制的组合也尚未被探索。

picture.image

在本节中，提出了RAViT混合Transformer Backbone 网络。首先，为了适应资源有限的硬件，作者从宏观层面分析了其架构。然后，在微观层面开发了该架构。在微观层面，作者提出使用重参化多尺度深度卷积（RepMSDW）代替计算成本高昂的多头自注意力（MHSA）作为特征或 Token 混合器，尤其是在高分辨率的情况下。作者还提出了重参化自注意力（RepSA），将RepMSDW与自注意力相结合，以平衡特征中的局部和全局空间理解。随后，将RAViT用于改进FCOs，以在驾驶场景目标检测中执行下游任务。

A. 宏观设计分析

大多数最近关于视觉Transformer的宏观设计都基于MetaFormer [49]、[50]的特征金字塔架构，如图1所示，该架构堆叠了两个残差块。该架构以一个Stem模块开始，该模块可能包含一个[49]或两个[23]、[24]、[33]或三个块[29]、[30]，这些块使用2步长的卷积。在宏观架构中，包含一个用于空间特征提取的token mixer块，之后是通道mixer块。每个块包含一个归一化层和残差或 Shortcut ，以稳定损失并推进训练过程。假设是第i阶段的特征图，具有的分辨率和个通道数；块的详细情况在方程1中解释。

TokenMicer(.)算子通常配置为卷积混洗器或自注意力[50]。ChannelMicer(.)块包含由两个线性全连接层和一个单激活函数组成的 FFN (FFN)，该激活函数可以用公式2表示。

和是层权重，是扩展比，默认值为3，和是全连接层的偏置权重。操作采用激活函数进行选择，因为它根据[33]在准确性和推理速度之间取得了平衡。

为了构建适用于移动和边缘设备的既高效又低成本的模型，作者在宏观设计层面分析了架构。首先，将 dwconv 作为 Token 混合器融入架构，作者将3阶段架构与[28]-[30]中使用的 stem 进行比较，并将4阶段架构与[23]、[24]、[32]中常用 stem 进行比较。

picture.image

如表6所示，V1与V2的比较表明，即使是带有 stem 的3阶段架构也能将GPU吞吐量提高3倍。然而，它对边缘和移动设备上的推理延迟没有显著影响。因此，在RAViT中，作者决定使用4阶段架构，并采用 stem。

B.多尺度深度可分离卷积的重参化

重参化多尺度深度可分离卷积（RepMSDW），如图1（b）所示，灵感来源于[41]、[44]，该策略包含多个具有不同核大小的分支深度可分离卷积，以扩展有效感受野和特征提取。通过整合这种多尺度策略，RAViT旨在复制多个范围建模能力，同时保持局部性和效率。RepMSDW的公式描述如公式3所示。

其中，表示第i阶段的特征图，该特征图将在通道维度上分割成。每个特征将被输入到不同的深度卷积（DwC）分支中，其中表示最大的卷积核大小，表示等于的平方核大小，属于自然数集。然后，每个输出分支沿着通道进行拼接（Cat(.)）。根据[39]中的重新参数化过程，拼接分支与主以及批归一化层（BN(.)）之间的和将被重新参数化为单个深度卷积，记为。

表5展示了所提出的RepMSDW的有效性。与具有平方且未进行重新参数化的单个分支相比，重新参数化的多分支核在牺牲推理速度的同时具有更高的准确率。接下来，作者尝试将最后两个阶段的RepMSDW核大小从增加到。如表6所示，从V2到V3的核大小增加可以将准确率提高到，同时仅在移动和边缘设备上造成和的延迟下降。将RepMSDW用作token混合器，作者的设计在准确率上与FastViT-T12 [32]相似；然而，在RAViT中，移动和边缘设备的推理速度分别快了和。

C. 自注意力机制的重新参数化

重参化自注意力（RepSA）扩展了空间聚合，以达到卷积的局限性——长距离依赖。RepSA使用从RepMSDW投影出的四分之一通道的单头自注意力，具体细节如图1（c）所示。通常，RepSA的公式描述如下：

其中，，，，和，，，以及表示线性操作权重，用于将特征投影到 Query 、Key和Value上。注意力分数是经过缩放点积和softmax归一化后，在、和之间的结果，其中维度和等于16，配置为。最后，RepSA的输出是通过线性权重对局部特征和全局注意力图进行投影的结果。

D. 快速FCOS

作者通过采用所提出的RAViT作为快速驾驶场景目标检测的 Backbone 网络，增强了FCOS。此外，作者在FCOS的 Neck 部分引入了重参化特征金字塔网络（FPN）以进行多尺度特征提取。

picture.image

如图2所示，作者利用RAViT Backbone 网络的三种特征层和，并将典型FCOS FPN中的原始卷积替换为在两个尺度特征聚合后的一系列ReMSDW和卷积。由于ReMSDW具有多个核尺度，它能够提取不同尺度的空间特征，并且可以通过重参化来加速推理阶段。

与原始的FCOS FPN将 Backbone 网络的三级特征扩展到五级并使用步长因子相比，作者在共享 Head 仅使用三级特征进行目标分类、中心度和边界框回归。由于作者只使用三个 Level 的特征，回归范围在回归 Head 配置为0, 128, 256和512。由于特征 Level 的不同大小，回归范围针对每个 Level 进行调整。的回归范围为，为，为。

结果

为了评估RAViT Backbone 网络和Fast-COS的有效性，作者进行了多项测试。作者选择了包含1000个类别的ImageNet-1K数据集作为 Backbone 网络的图像分类基准测试。作者还对COCO数据集上的实例分割进行了 Backbone 网络评估测试。

在特定任务中，作者通过结合RepFPN来提升Fast-COS，在BDD100K和TJU-DHD-traffic数据集上执行驾驶场景目标检测。由于FLOPs并不直接影响计算复杂度，作者使用吞吐量和延迟指标，这些指标在三个不同范围的宽泛应用处理设备上进行了测试，包括GPU RTX3090、iPhone 15 Pro上的神经网络单元（NPU）作为移动处理单元，以及Jetson Orin Nano作为边缘设备处理单元，将RAViT和Fast-COS与其他最先进模型进行了比较。这一广泛的基准测试将代表不同硬件平台上的实时性能。

A. RAViT 主干网络的评估结果

1）设置：作者使用ImageNet-1K 作为最流行的图像分类基准数据集来评估RAViT。ImageNet-1K包含1000个类别，用于训练的有120万张图像，用于验证的有50000张图像。作者遵循[20]中的训练方案，每个RAViT模型变种的训练总共有300个epoch，分辨率为。数据增强和正则化方法包括多种方法，如RandAugment、Mixup、CutMix、Random Erasing、权重衰减、标签平滑和随机深度。对于大多数RAViT模型，作者使用AdamW优化器，基础学习率为0.004，总批处理大小为2046，在 GPU上进行训练。

作者还在COCO数据集上进行了实验，COCO数据集是广泛用于基于Mask R-CNN的目标检测和实例分割的基准数据集。Mask R-CNN的 Backbone 网络被RAViT所取代，RAViT利用多尺度卷积和自注意力机制来提升特征提取能力。COCO数据集的训练集用于模型训练，而验证集用于评估，遵循标准的COCO指标，包括边界框检测和分割 Mask 的平均精度（mAP）。

作者通过在两种类型的资源受限的设备硬件和一台桌面GPU上进行的推理延迟测试来评估性能。对于移动设备性能评估，使用了iPhone 15 Pro。所有模型都转换为CoreML格式，并在先前的20次循环预热之后，每个模型都经过50次推理循环。平均推理时间作为评估指标。为了评估边缘设备硬件，选择Jetson Orin Nano。模型被调整为ONNX格式，以便在边缘设备上进行延迟测量。在边缘设备评估中，20秒的预热时间之后，进行1000次推理循环。

2）在ImageNet-1K上的基准测试：表2中展示的比较分析突出了RAViT变体在ImageNet1K数据集上与最先进模型的性能。作者评估了包括GPU、移动NPU和边缘设备在内的各种硬件平台，以提供一个广泛的应用说明作为 Backbone 。

picture.image

与最近的最先进模型相比，RAViT模型在准确性和计算效率之间表现出有竞争力的权衡。例如，RAViT-M26达到了81.4%的Top-1准确率，同时实现了2.27倍的GPU吞吐量、2倍的NPU延迟和1.8倍的边缘设备延迟，相较于PoolFormer-S36和Swin-T。RAViT-M26在保持与最近移动视觉Transformer（如RepViT）相似的NPU和边缘设备延迟的同时，实现了更高的0.2% Top-1准确率，展示了其架构效率。同样，RAViT-M26在保持比FastViT-SA12高0.8%的Top-1准确率的同时，实现了4%更快的移动NPU推理速度。

RAViT模型在不同配置下均能持续实现高精度。尽管MobileOne也使用了重参化技术，但RAViT的混合Transformer架构在精度和速度之间表现出权衡。例如，RAViT-S22在具有更快的GPU吞吐量、更快的Mobile NPU延迟和更快的Edge设备延迟的情况下，仍能超越MobileOneS4。RAViT模型在提供优越精度的同时实现了更快的GPU、Mobile NPU和Edge设备推理，展示了其在现实部署场景中的灵活性和有效性。

B. 在COCO实例分割中使用SOTA模型进行基准测试

表1001展示了在COCO val2017数据集上，与Mask R-CNN结合使用的RAViT Backbone 网络的评估结果，并与其他最先进的方法进行了比较。评估指标包括边界框平均精度（APb）、 Mask 平均精度（APm）、计算复杂度（FLOPs）、参数大小以及GPU和EDGE设备上的延迟。结果表明，RAViT在分割精度和计算效率之间实现了良好的平衡。

RAViT Backbone 网络在边界框和 Mask 精度方面均展现出竞争或优越的性能。RAViT-S26实现了40.4的和37.2的，超过了PVT-S和PoolFormer-S24。RAViT-M26在所有方法中取得了最高分，达到41.6%，达到38.9%，超过了RepViT-M1.1，在仅使用卷积混洗器的情况下实现了精度提升，同时保持了相当的效率。这些结果验证了RAViT架构在提升实例分割性能方面的有效性。

延迟和推理速度进一步突显了RAViT架构的效率。RAViT-S26实现了最高的GPU推理速度，达到每秒40.0张图像，显著优于PVT-S，速度是其的2.4倍，比RepViTM1.1快8.25%。在边缘设备上，RAViT-S26实现了最低的延迟，为284毫秒，使其非常适合实时应用。RAViT-M26也提供了有竞争力的边缘延迟，为334毫秒，在比较中优于其他几种方法。

与PoolFormer、PVT和RepViT相比，提出的RAViT架构在准确性和效率之间取得了极佳的平衡。RAViT-M26在评估的模型中实现了最高的准确率，而RAViT-S26则因其最低的延迟和高速推理而脱颖而出。这些结果证明了RAViT的可扩展性，提供了轻量级和高性能的变体，以满足多样化的部署场景。总之，提出的RAViT Backbone 网络非常适合性能驱动和延迟关键的应用，巩固了其在实例分割任务中的价值。

C. Fast-COS在驾驶场景目标检测任务中的评估结果

1）设置：所提出的模型在两个高分辨率、大规模数据集上进行了测试：BDD100K和TJU-DHDtraffic，这两个数据集都适用于从驾驶员视角评估检测网络。这些数据集包括多样化的场景，如城市街道和住宅区，分别包含184万和239,980个标注的边界框。BDD100K包含10个类别，包括公交车和汽车，而TJU-DHD覆盖5个类别，如行人和骑自行车者，这些类别在不同的光照条件下都有涵盖。两个数据集都提供了各种天气条件下的场景，为现实世界模型测试提供了宝贵资源。组织结构包括TJU-DHD Traffic的45,266张训练图像和5,000张验证图像，以及BDD100K的70,000张训练图像和10,000张验证图像。

在驾驶场景目标检测实验中，作者在训练和评估阶段均使用像素的输入尺寸。训练过程中使用4块NVIDIA GPU，每块GPU处理8张图像的小批量。AdamW优化器控制训练过程，初始学习率为0.00o1，在第8和第11个epoch时减少10倍。模型使用RAViT进行端到端训练，并从预训练权重初始化以提高学习效率。为了提高鲁棒性，应用了数据增强，包括随机翻转和调整大小。在推理阶段，记录每张图像前100个检测到的边界框以评估性能。

2）在BDDiooK和TJU-DHD交通数据集上的基准测试：如表4所示，通过比较，展示了使用RAViT Backbone 网络变体的Fast-COS的性能，与在BDD100K和TJU-DHD交通数据集上评估的原版FCOS模型相比。研究结果证明，与FCOS-RAViT-M26相比，RAViT Backbone 网络可以将FCOs的推理速度提高62%，相对于原版FCOS-ResNet101。此外，RAViT Backbone 网络有助于提高预测精度，在BDD100K数据集测试中，提高了2%。通过将RAViT-M26模型与包含RepMSDW使用的RepFPN集成，Fast-COS相较于FCOS-ResNet-101，可以实现精度提高5.5%，同时GPU推理速度提升75.9%。

picture.image

在TJU-DHD交通数据集上，使用RAViTM26作为 Backbone 网络，整体AP提升了1.3%，预测大型物体（AP_l）的准确性提升了38%。在相同的输入尺寸配置（1333×800）下，所提出的RAViT Backbone 网络相比原始FCOs，检测速度提高了44.5%。为了达到与BDD100K测试相当的检测速度，对Fast-COS模型变体进行了评估，输入尺寸为1280×720像素。在此配置下，Fast-COs相对于原始FCOS，检测速度提升了49.6%，同时保持了与使用更大输入尺寸训练的FCOS-RAViT变体相似的预测准确性。

在采用Jetson Orin Nano边缘设备并使用ONNX框架进行的评估中，Fast-COs变体在采用RAViT-S26时观察到峰值性能，在驾驶场景数据集测试中实现了9.3 FPS的预测速度。尽管比YOLOF-ResNet50慢6.5%，但Fast-COS与RAViT-S26结合在BDD100K测试中整体平均精度AP提高了26.9%。全面的硬件评估表明，虽然一些模型可以超过30 FPS的GPU推理速度，但在边缘设备上进行优化对于实现至少15 FPS以使其作为实时驾驶场景目标检测硬件选项是必要的。

D. 消融实验

picture.image

1. 多尺度在RepMSDW中的应用及与SelfAttention的结合：作者对多尺度卷积核大小进行了消融研究，并将其与仅平方核重参化和无核重参化配置进行了比较。这项分析特别使用了RAViT-S22变体。如表5所示，在重参化过程中采用多尺度核大小，在ImageNet1K数据集上提高了分类准确率。使用多尺度重参化相较于单平方重参化提高了0.12%，如[32]、[33]、[39]所述，相较于无重参化配置提高了0.22%。鉴于RepMSDW在捕捉长依赖关系方面存在限制，作者评估了其与自注意力技术的集成，该技术被应用于Transformer模型[20]、[24]、[29]。最初，作者将RepMSDW集成到多头自注意力（MHSA）中，用 RepMSDW替代了[27]中描述的 DwConv。这一修改将准确率提高到79.2%。然而，MHSA需要大量的数组变换，这影响了GPU吞吐量和NPU延迟。随后，作者采用了单头注意力（SA），如[30]中提出的那样，以解决MHSA中的计算冗余。将RepMSDW与SA结合将准确率提高到79.6%，同时保持了GPU吞吐量和NPU延迟的效率。
1. RAViT Backbone 架构中的组合：在移除RepMSDW和RepSA后，作者还对宏观架构进行了消融研究。研究从3阶段（V1）和4阶段（V2）架构的比较开始。这一分析的结果详细地见第IMI-A节，其中V2被采用作为Baseline 配置。随后，作者在第三阶段和第四阶段逐步增加 RepMSDw 核大小，从增加到（V3），使 Top-1 准确率提高了，但推理速度分别降低了 NPU、EDGE 和 GPU 的、和。在第四阶段（V4）引入 RepSA 后，准确率提高了，但推理速度在 NPU、EDGE 和 GPU 上分别降低了、和。在最终的消融实验中，作者在第三阶段和第四阶段都应用了 RepSA，使准确率提高了，尽管在 NPU、GPU 和 EDGE 上的推理速度分别降低了、和。最终，V4 被选为 RAViT 主干的主体配置，以在速度和准确率之间取得平衡。
1. Fast-COS剪枝：表4展示了使用RAViT变体作为 Backbone 网络和RepFPN作为原始FCOS Head 检测器中间组件的Fast-COS剪枝研究。与在BDD100K数据集上使用ResNet-101的标准FCOS相比，RAViT-M26的引入分别提高了小物体（APs）和大物体（APl）的检测精度4.8%和1.9%。采用可重新参数化的RAViT Backbone 网络，特别是通过RepMSDW残差连接重新参数化，将GPU推理速度提升了62.1%。将RepMSDW集成到FPN中，APl、APm和APs分别记录了2.7%、3.9%和14.2%的显著提升。此外，仅使用三个特征提取 Level 的RepFPN版本，将GPU推理速度提升了75.9%。

E. 可视化结果

图3展示了Fast-COS与 Baseline 算法检测结果的比较。图像来源于BDD验证集，该集包含了城市和郊区的交通场景以及恶劣天气条件下的交通场景。观察检测结果，可以看出Fast-COS通过重新参数化的多尺度核大小卷积和重新参数化的自注意力机制，有效地解决了遮挡问题（如车辆之间的遮挡）并提升了相对于 Baseline 的检测性能。这在检测小型物体（如信号灯、交通标志或远处的行人）时尤为明显。

picture.image

通过扩展解释，在第一组和第二组示例中表明，在白天城市交通场景中，Fast-COS能够识别出位于相当距离处的多个交通标志，以及背景中遮挡的公交车和汽车。相比之下， Baseline 方法在预测能力方面不足。此外，在第三组和第四组中，Fast-COS即使在夜间条件下，也能有效地识别出位于两个较大物体之间的小型且部分隐藏的车辆。

结论

本文提出了一种名为Fast-COS的创新型单阶段目标检测框架，该框架针对实时驾驶场景应用进行了优化。通过结合新颖的重参化注意力视觉Transformer（RAViT）作为混合Transformer Backbone 网络，以及重参化特征金字塔网络（RepFPN）以提取跨多个尺度的特征，Fast-COS实现了卓越的准确性和计算效率。

本研究的重点发现表明，所提出的框架显著提高了准确性和推理速度之间的平衡。在ImageNet-1K上的Top-1准确率达到81.4%，RAViT在GPU、边缘和移动推理速度方面优于FastViT、RepViT和EfficientFormer等其他混合Transformer。RAViT与RepFPN的结合构建的Fast-COS在BDD100K和TJU-DHD Traffic等具有挑战性的驾驶场景数据集上实现了最先进的性能，优于FCOS和RetinaNet等传统模型。RepMSDW和RepSA的集成增强了局部和全局空间理解，同时确保了适合资源受限硬件的轻量级操作。

此外，在GPU和边缘设备上的广泛测试揭示了Fast-COS的可扩展性和实时效率。该框架相较于领先模型，实现了高达75.9%的GPU推理速度提升和1.38倍的吞吐量增加，使其成为在各种条件和环境下自动驾驶系统的理想选择。未来的研究将聚焦于进一步针对边缘设备硬件平台的架构优化，例如采用量化技术进行部署。

参考

[1]. Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image