通过 Transformer 使用行车记录仪也能目标检测！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

在汽车工业中，智能自动化正在迅速普及，帮助驾驶员和车队管理公司提高生产率。录像机现在已经用于这个目的，它使周围环境中多个物体和事件的即时识别和理解成为可能。

在这篇论文中，作者提出了一种新方法，使用 Transformer 在录像机中进行目标检测。

作者的系统基于最先进的 DEETOR Transformer （DETR），它已在各种条件和天气和照明场景下证明了强大的性能。使用 Transformer 可以在决策过程中考虑上下文信息，从而提高目标检测的准确性。为了验证作者的方法，作者在代表实际状况的数据集上训练了作者的DEETOR模型。

作者的结果表明，通过 Transformer 的智能自动化可以显着增强录像机系统的功能。模型在检测上的mAP达到了0.95。

I Introduction

车载摄像头是提高道路安全率和效率的重要工具，因为它们能够实时监控和分析驾驶环境。智能卡车摄像机的关键要素之一就是目标检测，涉及在环境中识别和分类各种目标和事件。准确的目标检测对于智能卡车摄像机系统的正常运行至关重要，因为它允许识别潜在危险，跟踪车辆和行人，以及识别交通标识和信号。这种目标检测和分类也是实现自动驾驶/自驾的重要步骤。

在这篇论文中，作者提出了一种使用 Transformer 使车载摄像头智能的新方法进行目标检测。 Transformer 是一种神经网络架构的类别，在许多自然语言处理任务上已经达到了最先进的性能，并且最近也被应用于各种计算机视觉任务中 [1, 2]。作者展示了DEETOR Transformer （DETR） [3] 在智能车载摄像头中的有效性，并表明作者的系统在各种不同条件下表现良好。除了描述作者提出的 approaches，作者还提出了实验结果来验证作者方法的有效性。DETR在其他具有挑战性的场景中，如水下目标检测 [4] 中，已经超越了最先进的目标检测器如YOLO和RCNN变种。

车辆摄像头中的目标检测是一个具有以下挑战的问题:

道路上的高动态环境。在像卡车这样的大型长途行驶车辆中，交通状态不断地在变化。
不同的照明条件，由于不同的白天、天气和场景。
不同的具有挑战性的场景，如角度、方向、遮挡和小型的停车标识。
许多目标检测器在训练时表现良好，但在部署条件下的性能会下降，因此检测网络无法很好地泛化到真实世界的条件。

卡车行业正在使用智能自动化卡车来处理早期警告和决策系统，以防止事故。在本工作中，经过训练的目标检测网络DETR在即使是人类司机在面对困难决定时，也能在具有挑战性的条件下表现出色。该网络已经在上千辆卡车所在的真实条件下通过在卡车车队上部署摄像头进行训练而得到了训练。作者提出的解决方案可以在卡车摄像头的智能自动化中发挥有效的作用。作者所做的主要贡献如下：

在包含来自各种具有挑战性的场景的实时车载摄像头数据集上检测车辆和交通标识。
调查基于 Transformer 的目标检测用于车载摄像头目标检测。

本文的结构如下：在第II节，作者提供了车辆目标检测的重要技术创新。作者使用的数据集在第三部分中概述出来。第IV节介绍了作者的方法。最后，作者进行实验研究、结果和分析，并在第V节中进行讨论。最后，在第六节中，作者总结了作者的主要发现。

II Related work

在自动驾驶领域，交通标志（Stop标志）、交通信号和其他物体的检测是重要且具有挑战性的问题，主要是由于照明变化和背景杂乱。解决这些挑战的重要性在于，自动驾驶具有显著提高车辆的安全性、效率和可访问性的潜力。准确感知和理解环境对于车辆能够安全导航并避免碰撞至关重要。实时性能对于车辆能够及时响应不断变化的情况和事件同样重要。大多数以前的研究关注于识别或分类交通标志和其他物体。

Object Detection

在计算机视觉领域，目标检测是一个具有挑战性的问题，也是研究的热点。目标检测的目标是确定图像或视频中的物体的位置和类别。近年来，深度学习技术在直接从目标检测数据中学习特征方面非常强大（主要）的突破（[13]）。深度学习模型被分为两组，用于物体的局部定位和识别，分别是两阶段和一阶段模型([14]）。尽管两阶段检测器的检测性能良好，但它们的处理速度较慢，需要较高的计算成本。一阶段检测器在准确性和速度之间实现了平衡。然而，在过去的几年中，最受欢迎的两阶段和一阶段模型是Faster R-CNN[15]，Mask RCNN[16]，FPN[17]，SSD[18]，YOLO[19]（[19]）用于目标检测。最近，基于转化的技术或方法已经用于各种领域进行目标检测。

在2020年，Carion等人[3]提出了一个基于 Transformer 和二分匹配损失并行解码的新的目标检测方法，称为“检测器 Transformer ”，该方法在之前使用RNN的检测器中使用自回归解码[3]。由于采用并行处理（不使用NMS和 Anchor 框技术），DeTr的性能比以前的检测器快[3]。此外，建议的模式在MS-COCO（大数据集）上的性能得到了评估。此外，DeTr的整体架构简单而强大，而在上下文重要的图像中优于其他检测器。

近年来，大部分的研究使用深度学习技术来解决这个问题，但大多数研究在应用于实际环境（现场）时都没有成功。由于受限制的环境数据库和较小的基准测试。例如，在[20]中，作者们引入了基于街道的停车标志检测的数据库。他们使用了包括YOLOv5s，YOLOv5m和Swim Transformer在内的不同YOLOv5模型。但提出的解决方案是基于YOLOv5模型，并实现了96.8%的准确性。然而，在将模型测试在 Dashcam 视频上的时候，该解决方案有时会失败。另一种研究表明，Mian等人提出了一种基于CNN的解决方案，并只使用了马来西亚的大流量标志数据库来实现交通标志的识别[6]。

在过去几年中，为交通标志检测和识别引入了多个数据库。这个大型的实际数据集是“德国交通标志检测基准”[8]，在IJCNN竞赛中展出，并用于交通标志的定位和分类。在这个数据集中，捕获到的图像包含自然光照变化，但只使用了围绕交通标志图像的裁剪区域。然而，大多数数据集包含从腾讯和Google（其他搜索引擎）提取的交通灯和交通标志的裁剪图像，大部分研究收集的数据集使用了安装在车辆上的摄像头 footage，例如[21, 22, 23]和[24]。

道路事故往往是日常生活中的闯红灯违规所导致。Braviet al. 开发了一个自动系统，用于检测红灯违规。提出的解决方案基于 YOLOv3 模型，并在视频测速仪数据集[7]上评估其性能。在另一项研究中[10]，使用 dashcam 视频开发了基于 YOLOv3 的交通违规系统。检测交通违规，如车辆数量、车辆速度和跳车信号的目标检测。所提出的模型对于检测交通违规分别取得了 89.2% 的成绩，而在车辆数检测上取得了 97.6% 的准确率。此外，为基于驾驶数据的交通标志检测引入了一种基于获得的驾驶历史数据统计分析的新颖算法 [25]。

已经提到，本研究的主要贡献在于利用卡车行车记录仪数据在诸如光照变化、不同气候条件和多尺度目标（小、中、大）等具有挑战性的问题中检测物体。近期，在[11]中，作者提出了一种基于YOLOv3的高效算法，以改进和提升高级驾驶员辅助系统（ADAS）的性能。在本研究中，他们解决了实时条件挑战问题。然而，他们使用的是大而古老的德国交通标志检测标准（GTSDB），该标准主要用于自驾驶车辆的交通标志检测和识别。GTSDB数据库包含了裁剪后的交通标志图像，尽管只有裁剪后的交通标志图像被检测和识别，但实际上在实时环境中作者面临关于图片分辨率的多个挑战。此外，GTSDB还是一个不平衡的数据集。然而，他们使用了两个单独的模型：对于检测，他们获得了89.9%的准确率，而对于分类（识别）他们获得了86%的准确率。为了解决具有挑战性的道路场景，例如天气条件和光照条件，Jayasinghe等人[12]引入了一个端到端的简单检测框架，用于交通灯和交通标志的检测。提出的解决方案能够在复杂的道路场景中检测到交通灯和标志，该解决方案基于一个两阶段SSD检测器。此外，他们还引入了一个新数据集，称为“CeyRo”，该数据集基于75个交通灯和交通标志的类别，包含7.9万张图像。由于大型和现场挑战数据的集的成功，作者在本研究中也采用了同样的数据集。

III Dataset

在这项研究中，数据集发挥了关键作用。如上所述，物检测的主要挑战是高度动态的环境、卡车盲区、低光环境以及嘈杂的环境。因此，作者使用了竞争数据集，即Motive AI挑战数据集。该数据集包含39,998张训练图像和4001张验证图像以及相应的标注。该数据集包含四类：交通信号、停止标志、汽车、卡车。Motive是一家专注于智能货运的领先车队管理公司。

经常会观察到，目标检测器在合成或自我编辑的数据集中表现理想，但在实际世界条件下的性能显著下降。因此，该数据集是根据考虑实际世界条件而准备的。通过在卡车车队上安装行车记录仪，该数据集在不同日间和不同天气下进行收集。采集的场景和交通条件丰富，包括低光、恶劣天气、长途和短途物体。

数据集的设计是确保在实际世界条件下的性能不会下降，并且系统在部署时能很好地泛化到大多数可能的条件。

方法论

在本研究中，作者使用了Transformer基础的检测架构，即DEtection TRansformer（DETR）进行图像物检测。本研究专注于从行车记录仪视角的目标检测。在智能行车记录仪的目标检测中存在许多挑战。其中一些挑战是道路上的动态环境、车辆密集、与车辆相比卡车的巨大体积。

作者发现，在最近的的工作中，如RCNN和YOLO在目标检测问题上表现非常好，但在做决策时没有考虑太多上下文信息，已经被观察到在高度动态环境中有效的决策的关键是上下文信息 [26]。Transformer基础的架构在自然语言处理（NLP）问题上表现优越，并被认为是引入自注意力决策的关键里程碑。最近，它们在视觉领域，如DETR、DINO、SWIN-Transformer和Vanilla ViT，也表现出了卓越的基准性能。因此，作者在本研究中采用了DEtection TRansformer(DETR)来执行目标检测。

Iv-1 Architecture

图II-A展示了作者所提出的方案的流水线。输入图像经过一个ResNet进行特征提取。并将提取到的特征以及位置编码嵌入分别传递给编码器和解码器。图4进一步详细说明了编码器-解码器结构的详细情况。编码器首先采用多头自注意力层，然后是一个add & norm层，与FFN相连，最后又是一个重复的add & norm层。解码器遵循类似模式，在头中采用两个FFN进行最终预测，一个用于边界框预测，一个用于类别预测。编码器-解码器的嵌入大小和层数设置为256。总共设置有6个编码器-解码器层，其中包含8个自注意力层。

picture.image

编码器接收输入序列，并生成输出，该输出被解码器使用。解码器还接收目标 Query ，有助于位置编码嵌入的解码。初始时，这些目标 Query 是随机的向量，但在训练过程中进行了调整。遵循二分匹配损失来进行基于真实值和预测的损失计算。解码器的输出然后通过一个前馈神经网络进行处理，其中网络数量等于目标类别数量，每个网络包含多个层。

图3：系统流水线大小为N，用空值填充。要在这两个集合之间找到二分匹配，作者寻找一个包含大小为N的元素的排列σ，其中σ的最小成本。二分匹配损失：

picture.image

作者用y表示物体 ground truth 集，用表示预测集。假设大于图像中的物体数量，作者将也视为

其中是地面 truth 和预测值之间的配对匹配成本。

Iv-A2 Training Configuration

作者按照表2所示的训练配置进行了操作。总的训练时间为45小时。

picture.image

V Experiments and Results

在本节中，作者将详细介绍为了对所提出的算法进行定量验证而进行实验的细节。本节将用作任何时间重复获得结果的参考。本节中还将对数据集、评估指标和实验的详细信息进行分别提供。

Evaluation Metrics

这是一项目标检测问题，基本的评估指标是精确度和召回率。它们用于评估检测性能。精确度和召回率的计算使用真阳性（TP）、假阳性（FP）、真阴性（TN）和假阴性（FN）。

精确度和召回率的计算如下：

每个类别的平均精确度和召回率被计算出来，然后在不同的IoU值下确定平均平均精确度（mAP）和平均平均召回率（mAR）。

mAP mAP通过在其值在10个不同的IoU阈值下取平均计算得出，这些阈值范围从50%到95%。
mAP50 mAP50是通过在50%的IoU阈值下计算的平均mAP得出的。
mAR10d mAR10d是通过给予每张图像10个检测，并将平均值乘以所有类别的最大召回值得出的。
mAR100d mAR100d是通过给予每张图像100个检测，并将平均值乘以所有类别的最大召回值得出的。

Results and Analysis

本文部分详细介绍了实验结果和分析。作者在定制的数据集上对DETR进行微调，得到的平均mAP为0.95，当IOU阈值设定为0.50时，如表3所示。观察到这个mAP是一个在数据集覆盖的困难条件下得到的好结果。随着周期的增加，mAP不断提升，表明其学习过程是平滑的，这一现象可见图IV-1。考虑到数据集涵盖的低光、噪声环境、遮挡和混乱环境等不同恶劣实际条件，结果相当令人印象深刻。由于这是一个私有且专有的数据集，因此没有相关的工作可供比较。

picture.image

图6展示了推理结果，左侧是实际输入，右侧是来自DETR的输出图像。在第一行，可以看到网络准确检测到了感兴趣的目标。第一行中，两个边界框被检测到，一个是置信度为0.90，另一个是0.79。置信度为0.79的目标在仅考虑其视觉特性时是极难看见的，“stop-sign”的文字完全不可见，但DETR通过考虑全局上下文信息，有效地检测到了这个stop签。此外，在第二行，可以看出这是一个低光环境，通过放大观察，即使是人类也会发现右侧道路旁停放的车辆很难被检测到。DETR在这种条件下表现出色，检测到了所有停放在加油站黑暗停车场里的车辆。如果一个检测器仅考虑图像的视觉特性，暗色会更为 dominant，无法检测到所有的车辆，但DETR作为一个 Transformer ，通过考虑全局上下文信息有效地进行了检测。这些实验结果证明了在最恶劣的条件下，最先进的最小化均方误差（MMAP）DETR可以成为一个稳健的目标检测网络，适用于卡车的仪表盘摄像头。

picture.image

VI Conclusion

在本文中，作者提出了一种基于 Transformer 的车辆 Dashcam 目标检测解决方案，用于解决高度动态环境下的目标检测难题。

为此，作者在自定义数据集上微调了最先进的 Detection Transformer (DETR)。

结果与分析部分讨论的实验结果表明，DETR 是一种在恶劣部署条件下的强大目标检测网络，如由于天气和不同日间、遮挡和噪声环境以及高度动态环境造成的低光照水平。

在这个提出的解决方案中，网络考虑上下文信息使其在高度具有挑战性的问题上变得强大且高效。

这项研究验证，如果 DETR 在覆盖主要部署条件的一般数据分布上进行训练，则 DETR 在部署上能够很好地泛化，性能不会下降。这项研究可以作为未来在该领域工作的参考之一。

参考

[1].Object Detection for Vehicle Dashcams using Transformers.

点击上方卡片，关注「AI视界引擎」公众号

通过 Transformer 使用行车记录仪也能目标检测 ！

I Introduction

II Related work

Object Detection

III Dataset

方法论

Iv-1 Architecture

Iv-A2 Training Configuration

V Experiments and Results

Evaluation Metrics

Results and Analysis

VI Conclusion

参考