实时检测 Transformer（RT-DETR）与 EBC 简单图像表示的组合，超越现有先进成果！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

基于事件的摄像头(EBCs)作为一种受生物启发的替代传统摄像头的技术，因其在能耗效率、时间分辨率和高动态范围方面的优势而崭露头角。

然而，由于EBC数据的稀疏性和异步性，开发相应的图像分析方法颇具挑战。本研究旨在解决EBC摄像头中的目标检测问题。当前针对EBC目标检测的方法主要集中在构建复杂的数据表示，并依赖于专门的设计架构。

在此，作者证明了通过将最新的实时检测Transformer或RT-DETR与EBC数据的一种简单图像表示相结合，可以获得出色的表现，超越了现有的最先进成果。具体而言，作者展示了一个针对EBC数据训练有素的RT-DETR模型，在性能上可与最先进的EBC目标检测方法相媲美。

随后，作者提出了一种受低秩适应(LoRA)启发的方法来增强RT-DETR模型以处理数据的时间动态。设计的EvRT-DETR模型在标准基准数据集Gen1 () 和 Gen4 () 上均表现优于当前最先进的结果，同时仅使用自然图像和视频分析的标准模块。

这些结果表明，主流目标检测架构的有效适应可以在不需特殊架构工程的情况下实现有效的EBC目标检测。

unset

unset1. Introductionunset

unset

基于事件的相机（EBCs）提供了一种受生物学启发的替代传统基于帧的相机的方法。与传统相机在预定的帧率下捕获数据不同，EBC的像素完全异步，在检测到亮度变化时才生成数据。这使得EBC具有显著的低功耗（低至10毫瓦）和减少的数据传输速率。结合其卓越的时间分辨率（微秒级）和高动态范围（大于100 dB），EBC已在自动驾驶、机器人技术以及可穿戴电子设备等多个领域得到广泛应用。

尽管具有这些优势，EBC数据给计算机视觉应用带来了独特的挑战。传统相机生成的是规律形状的二维（2D）图像帧，而EBC数据则是异步的像素事件流。每个事件是一个包含三个元素的元组：亮度变化发生的位置、时间戳以及极性（亮度是增加还是减少）。只有当亮度变化超过预设阈值时，相机像素才会生成事件，因此数据具有较高的稀疏性。EBC数据的稀疏性和时间特性使得直接应用传统的计算机视觉技术变得非 trivial。

本文解决了与电磁波测距（EBC）数据相关的目标检测问题。当前针对这一问题的解决方案主要集中在两个方向：(1) 构建复杂的图像似表示方法来表示EBC数据（例如[34]），以及(2) 设计能够处理EBC数据时间特性的新型目标检测架构（例如[20]）。这两个方向都使得使用EBC数据获得高性能的目标检测方法成为可能。

尽管现有的EBC目标检测方法性能良好，但也存在一些不足。首先，它们在数据表示和模型架构设计上需要大量的工程努力。这导致了一条专门的发展路径，与基于帧的相机的目标检测方法的发展路径产生了偏离。这种偏离使得直接从传统计算机视觉领域的进展中获益变得非 trivial。

在此，作者探索了如何利用最新的自然图像检测器——实时检测Transformer（RTDETR）[32]，通过两阶段方法有效适应EBC。在第一阶段，作者使用EBC数据的一种简单的图像表示，并直接在该表示上训练RT-DETR模型。值得注意的是，这种简单的方法已经达到了与最先进的EBC特定目标检测方法相当的表现。这尤其令人惊讶，因为EBC特定方法试图利用EBC数据的时间特性，并关注遥远的过去。另一方面，作者的方法仅使用一个固定的单帧时间窗口（50毫秒），类似于传统的基于帧的相机。

在第二阶段，RT-DETR模型被扩展以处理EBC视频，即固定时间帧的序列。受低秩适应（LoRA）[13]等高效适应方法的启发，作者以预训练的RT-DETR模型为基础，该模型在单一帧上进行预训练。作者将此模型冻结，并在其编码器的潜在空间中插入一个基于递归神经网络（RNN）的时间处理模块。设计的EvRT-DETR模型仅使用简单的EBC数据的图像似表示和标准的RT-DETR架构，在最小的时间修改下，实现了标准基准数据集Gen1 [5]和Gen4 [22]上的最先进性能。

本工作的贡献在于：

作者证明，RT-DETR 在简单图像化表示的EBC数据上训练后，其性能与专门针对EBC目标检测的方法相当。
作者提出了一种高效的方法，通过最小的架构修改将冻结的RT-DETR模型适应于基于视频的目标检测。
EvRT-DETR 通过对RT-DETR进行极小程度的修改，在标准Gen1 () 和Gen4 () EBC基准测试中取得了最先进的性能。

unset

unset2. Related Workunset

unset

当前对EBC数据的分析研究主要集中在两个方向。首先，是寻找高效的EBC数据表示方法；其次，是探索最适合EBC数据的神经网络架构。

数据表示。事件相机产生以形式的时间序列事件数据，其中是事件的时间戳，是亮度变化的极性（正或负），是事件像素的位置。为了简化分析，事件数据通常会被转换为其他形式的表示，以便更适合传统的图像分析算法。

事件相机数据最简单的图像表示被称为事件帧或二维直方图表示[6]。要构建这种表示形式，可以从事件流中按固定时间窗口进行分割。然后，在每个时间窗口内收集事件，形成一个形状为的二维框架，其中第一维对应事件极性，而则对应于相机传感器阵列的索引。

2D直方图表示的自然演变是堆叠2D直方图表示，在这种表示中，每一帧进一步划分为固定的时间间隔 ([6])。这样的划分导致了形状为的数据表示，通常会被 Reshape 为并被视为具有个通道的自然图像。

直方图和堆叠的直方图是最简单且最图像化的EBC数据表示形式。然而，直接在这些表示形式上应用现有的计算机视觉算法会导致性能不佳[22]。

为了获得更好的性能，正在探索其他表示方法。例如，时间表面(TS)表示法[6, 34]是一种图像类型的表示方法，其中像素值编码了给定像素上最近一次事件以来的时间间隔。因此，与最简单的固定时间窗口表示法不同，TS有可能编码任意远的过去。实验证明，使用TS表示法在目标检测任务上的性能显著优于2D直方图表示法[22]。

许多其他事件数据表示方法也被提出。最近的ERGO-12 [34] 工作开发了高效的图像-like 表示方法，在Genl 数据集上实现了最先进的目标检测性能。与此同时，其他方法通过将事件视为空间-时间空间中的点或将它们离散化为 Voxel 网格来将目标检测重新表述为三维问题[6]。虽然这些表示方法在计算上更为沉重，但它们能够保留精确的事件时间信息，有可能更好地处理重叠目标和复杂运动。

基于EBC的目标检测架构。选定数据表示后，可以开始开发目标检测算法。针对特定数据表示，已设计了几类目标检测方法。

例如，可以使用最简单的2D直方图（帧）表示方法，并直接在这些帧上应用传统的图像目标检测方法。虽然这是一种最直接的方法，但不幸的是它的性能较差 [22]。

几种基于2D直方图帧的方法将分析扩展到视频序列。例如，循环视觉 Transformer （RVT）[10]和状态空间视觉 Transformer （S5-ViT-B）[35]设计了具有各种形式时序记忆的神经架构，以更好地捕捉EBC帧的序列特性。与独立帧相比，利用时间维度显著提升了目标检测的质量。

最近的研究方法致力于使用更高效的事件表示形式，以进一步提高目标检测性能。例如，通过广义 Wasserstein 优化得到的 12 通道事件表示形式（ERGO-12）[34] 构建了一种优化后的图像样式的事件表示，并展示了标准的目标检测方法在这种表示上表现优异。另一种方法，异步时空记忆网络（ASTMNet）[15] 和自适应事件转换（AEC）[19] 则尝试结合更好的事件表示形式，并采用新颖的神经架构来扩展现有最先进的成果。

其他多种方法已经被开发出来，这些方法要么将EBC目标检测视为一个三维检测问题[9, 22, 26]，要么利用神经形态架构的优势[2]，要么探索各种混合方法[20, 21]。

unset

unset3. Methodsunset

unset

本节描述了作者针对EBC目标检测的方法。首先，作者解释了所使用的EBC数据表示形式，然后讨论了作为基准模型使用的RT-DETR架构的结构。最后，作者介绍了对RT-DETR架构进行的轻量化修改，使其具备视频记忆功能。

3.1. Event Representation

如前所述，作者尝试使用一个简单的预处理Pipeline，并将EBC数据转换为类似于堆叠二维直方图的图像表示[6]。

EBCs 生成一个异步事件流，其中每个事件是一个形式为的四元组。在这里，是事件的时间戳，是极性（光强度的变化是正向还是负向），是生成该事件的像素的空间坐标。在本工作中，作者将事件流划分为固定时间窗口，并将每个时间窗口中的事件缓冲到一个图像似的历史图中，作者称之为“帧”。为了确保与现有方法直接可比，作者采用 RVT [10] 的帧构建参数，从而隔离作者的架构选择对数据预处理的影响。具体来说，作者从事件流中划分出一系列连续的固定时间窗口，每个时间窗口持续，每个这样的窗口对应一个单一的帧。接下来，作者将每个帧进一步细分为 10 个的区间。为了构造对应区间的帧，作者从该区间内的事件集中创建一个中间堆叠直方图。

其中，是 bins 的索引，是事件在 EBC 矩阵中的空间索引，而 1 是指示函数。一旦构建了一个形状为的堆叠直方图，作者就可以合并极性和时间维度，得到一个形状为的图像样式的 2D 帧。

3.2.TheRT-DETR Model

本文依赖于RT-DETR架构[32]进行目标检测。RT-DETR模型属于由检测Transformer（DETR）[1]衍生出的一系列模型中的一个。DETR是首个广泛成功应用的基于Transformer的目标检测模型[29]。与传统的基于卷积神经网络（CNN）的架构[11, 25]不同，DETR简洁而优雅的目标检测Pipeline使得它成为了一个极具吸引力的选择。

DETR模型是一种混合CNN-Transformer模型，采用主干-编码器-解码器架构。主干是一个传统的CNN特征提取主干（例如，ResNet [12]），之后是一个Transformer编码器，将其特征转换为Token，并捕捉它们之间的相关性。最后，DETR的解码器部分基于Transformer解码器架构。它通过交叉注意力机制对编码器输出进行解码，以识别图像中的目标。

原版DETR模型在整体性能上表现良好[1]，但存在严重的训练不稳定问题[30]、对小目标预测质量差[1]以及推理时间过长的问题[33]。一系列后续工作[1, 33]尝试通过使用特征金字塔网络（FPN）特征、重新审视解码器Token的作用以及采用可变形注意力机制以高效进行特征 Query 来解决这些问题。

累积对DETR模型的改进促成了RT-DETR模型[32]的实现，该模型在所有物体尺度上的检测性能优异、训练稳定且推理时间短。先进的性能与实时推理（>100FPS）相结合，使得RT-DETR成为EBC目标检测的理想基础。

3.3. Temporal Dependencies

如第3.1节所述，作者使用固定时间帧的图像形式表示EBC数据。虽然这些帧可以独立处理，但实际上它们构成了连续的时间序列（视频）。时间维度包含了有助于目标检测问题的重要信息。

特别是，与传统的能够捕捉整个场景的相机不同，EBCs只能检测亮度的变化。

在均匀光照条件下，这相当于只能检测运动。由于EBCs的这一特性，静止物体几乎是看不见的。

如果静止目标出现在事件摄像头视场中，仍然可以通过考虑物体的过去历史间接推理其存在。如果在过去某个时间点，该目标曾进入摄像头场景，那么其停止位置可以近似认为是在任意未来时间点该目标的位置。因此，为了静态目标的定位，可能需要使用具有时序记忆的目标检测架构。

设计目标检测架构中的记忆机制有多种途径。例如，最近的EBC检测方法依赖于RNN记忆机制[10]或状态空间模型[35]。另一方面，自然目标检测方法倾向于使用Transformer架构作为记忆机制[24]。

虽然Transformer和RNN架构都可能捕捉到时间依赖关系，但RNN由于具有任意长范围的注意力跨度，在长时间段内追踪停止的目标时具有优势。

基于这些考虑，即长范围注意力和实现的简便性，作者在方法中采用了基于RNN的记忆机制。

3.4.EvRT-DETR

作者的EBC目标检测方法结合了RT-DETR的目标检测能力与基于RNN的时间记忆模块，从而形成了一个混合的RT-DETR+RNN架构（EvRT-DETR）。然后，作者采用两阶段的方式对其进行训练。

在第一阶段，作者在一个个EBC帧上训练一个RT-DETR模型（参见3.1节），将它们视为传统的图像。该RT-DETR模型提供了坚实的baseline，并作为第二阶段的基础。

在第二阶段，作者从上一阶段开始使用一个预先训练好的RT-DETR模型，并将其冻结。接着，作者通过在冻结编码器的潜在空间中插入轻量级RNN模块，为其添加时间处理能力。然后，作者仅在EBC视频片段上训练时间RNN模块，同时保持 Baseline RT-DETR冻结。

这种模块化设计有几个优点。首先，它清楚地分离了空间和时间特征处理，允许使用不同的空间/时间架构进行简单的替换。同样地，这也使得可以利用已经证明有效的RTDETR训练策略作为第一阶段，从而减少超参数探索的空间。其次，冻结RT-DETR可以防止RNN梯度振荡破坏基础模型的表现。最后，这种分离使得每个组件可以独立优化。

unset

unset4.Experimentsunset

unset

4.1.Datasets

作者使用两种标准的EBC目标检测基准数据集——Gen1 [5] 和 Gen4 [22] 数据集来测试作者的算法。这些数据集包含由神经形态视觉技术公司Prophesee收集的各种驾驶场景下的EBC记录。

Gen1. Genl数据集[5]是一个广泛用于目标检测的汽车数据集。该数据集包含超过39小时的各种驾驶情况连续记录。数据集是由一个具有304×240像素空间分辨率的GEN1 EBC获取的。为了便于分析，数据集组织成60秒的视频片段，并划分为训练/测试集，其中包含1460个训练片段和470个测试片段。Gen1以1-4Hz（根据记录的不同而不同）的频率从自然图像帧的并行流进行手动标注。标注了两类目标：汽车和行人。

Gen4. Gen4 [22]（也称为数据集）使用的是Prophesee摄像头的新一代GEN4版本进行收集。与GEN1摄像头不同，GEN4配备了一个更大的传感器，分辨率为1280×720。数据集包含超过14小时在各种条件下的驾驶记录。类似地，该数据集被分成60秒的视频片段，并划分为训练/测试集，其中包含11.19小时的训练视频和2.25小时的测试视频。数据集以60 Hz的频率自动标注。对于目标检测任务，该数据集提供了对车辆、两轮车以及行人的标注信息。

4.2. Data Pre-processing

作者在数据预处理方面遵循了成熟的RVT协议[10]。作者将事件帧构建为每个50毫秒时间窗口的2D直方图表示。每个帧被划分为10个等时长的5毫秒间隔。对于大小为(240, 304)的Genl数据集，作者将帧通过零填充调整为(256, 320)，以确保其能够被32整除。

对于Gen4数据集，作者将图像尺寸从(720,1280)调整为(360,640)，以与以往的工作保持一致。作者通过首先构造一个大小为(720,1280)的完整事件帧，然后使用双线性插值将其缩小两倍来实现尺寸调整。类似地，对于Gen1数据集，作者也通过零填充将帧大小调整为(384,640)。对于Gen4数据集，作者稍微偏离了RVT的方法，后者只保留每隔一帧的标注。相反，作者保留所有帧的标注，这简化了数据预处理过程，并未对模型性能产生任何明显影响。

4.3. Training

作者在两个阶段训练EvRT-DETR。在第一阶段，作者使用Adam优化器[14]训练RT-DETR Baseline 模型。作者采用批大小为32，并在整个训练过程中保持学习率为不变。按照标准的RT-DETR训练方法，作者保存了模型权重的指数移动平均（EMA），动量为0.9999。总共，作者训练RT-DETR达400,000个迭代。

对于第二个EvRT-DETR模型训练阶段，作者从上一步的RT-DETR Baseline 开始。作者将固定RT-DETR，并训练一个在其顶部操作的RNN记忆模块。对于RNN模块的训练，作者紧密模仿了RVT的设置[10]。具体来说，作者在完整的视频中随机和顺序片段的混合中进行训练。每次迭代中，作者选择4个随机片段并使用4个连续片段，总批次大小为8。对于每个随机片段，作者会重置记忆RNN，但对于同一个视频中的连续片段，作者则保持RNN记忆的一致性。对于Gen1数据集，作者使用21帧的片段；对于Gen4数据集，作者使用10帧的片段。作者依赖于Adam优化器、1-cycle学习率调度器[28]以及最大学习率为。作者没有观察到使用指数移动平均(EMA)来训练RNN记忆模块有任何益处。总共，RNN训练运行了200,000次迭代。

4.4. Evaluation Metrics

作者根据标准的COCO（Common Objects in Context）Mean Average Precision (mAP)指标评估模型性能[16]。为了与之前的文献保持一致性，作者依赖Prophesee的Automotive Dataset Toolbox提供的EBC特定实现的COCO指标[22, 23]。

4.5.Results

表2展示了EvRT-DETR模型的性能与文献中的结果进行对比。对于单帧训练，作者呈现了RT-DETR-T模型（RT-DETR PResNet-18配置）和RT-DETR-B模型（RT-DETR PResNet-50配置）的性能。

picture.image

如表2所示，直接在EBC数据上训练RT-DETR模型已经表现出了相当有竞争力的性能，无需进行任何架构工程或数据表示设计。通过添加RNN插件，EvRT-DETR在所有竞争对手中均表现出更优的效果，甚至在最轻量级配置（EvRT-DETR-T）下也是如此。

在本研究中，作者专注于直接模型检测性能的评估。虽然计算效率非常重要，但由于文献中报告的时间基准存在异质性（不同的硬件配置、预处理 Pipeline 的包含与否、数值精度、图编译选择等因素），直接运行时比较变得颇具挑战性。因此，作者仅呈现模型的检测性能，将系统的和稳健的时间分析留待未来的工作。鉴于原始RT-DETR实现版本在分辨率高于作者EBC帧（Gen1和Gen4）的自然图像上每秒可处理108帧（FPS），作者预期计算性能足以满足实际应用的需求。

4.6.Ablations

在这里，作者探讨了数据增强的作用，并利用YOLOX Baseline 方法进行了测试，该方法源自YOLO系列的一次检测器。

数据增强。当RT-DETR模型直接在基准数据集上训练时，作者观察到严重的过拟合现象和较差的模型泛化能力。因此，本文在很大程度上依赖于数据增强技术。

表3总结了各种数据增强方法在此次研究中的消融实验。前两行展示了RT-DETR-B模型在有和没有数据增强时的性能。随后的行则演示了当作者将最终配置中的一个数据增强方法移除时，模型性能的变化情况（这些移除操作是独立的，而非累积的）。

picture.image

根据表e 3，RT-DETR-B的表现没有数据增强的情况下下降了9 mAP。在各个贡献中，随机平移和随机缩放产生最大的性能提升。随机旋转和随机擦除在模型性能上产生的改进相当但较小。最后，随机剪切对模型性能的影响最小。

替代基准模型。作者基于RT-DETR Backbone开发了一个目标检测模型。自然地，人们可能会质疑这些观察到的改进是否仅为RT-DETR所特有，还是可以通过其他常见的目标检测Backbone进行复制。

作者尝试用另一个流行的自然图像架构YOLO替代RT-DETR Baseline 模型，具体使用的是YOLOX [7]。YOLOX的目标检测 Head 已经在其他EBC目标检测架构中成功探索过 [10, 35]，因此它是一个自然的选择来进行对比。

表4展示了YOLOX目标检测 Baseline 在Gen1数据集上的性能。YOLOX模型的训练设置与RT-DETR Baseline 完全相同。尽管最佳性能的YOLOX-X模型的mAP值为43.4%，低于RT-DETR-B的47.6%，但它依然在与专门针对EBC架构的竞争中表现出色。这表明自然图像检测器在EBC数据上的效果可能不仅限于RT-DETR，特别是在YOLO家族的新版本上更为明显。

picture.image

unset

unset5. Conclusionsunset

unset

本研究展示了主流的RT-DETR目标检测算法在EBC中的惊人力效。作者证明，将RT-DETR应用于EBC数据的基本图像表示形式，其实现的效果与专门针对EBC的方法相当。

此外，作者对冻结状态的RT-DETR进行的最少时间调整实现了最先进的性能，同时保持了架构的简洁性。

另外，作者在YOLOX上的实验虽然没有达到RT-DETR的性能，但表明使用自然图像的目标检测方法对EBC数据的图像表示可能存在跨不同架构的一般化能力。

这些结果表明，通过仔细调整主流的检测架构可以有效地处理具有独特特性的EBC数据，从而可能减少专用架构开发的需求。

unset

unset参考unset

unset

[0]. EvRT-DETR: The Surprising Effectiveness of DETR-based Detection for Event Cameras .

点击上方卡片，关注「AI视界引擎」公众号

实时检测 Transformer（RT-DETR）与 EBC 简单图像表示的组合 ，超越现有先进成果 ！

unset

unset

unset

unset

unset

unset