用于室内感知的多视角雷达检测 Transformer ! - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

室内雷达感知由于新兴的汽车成像雷达发展带来的低成本驱动以及降低隐私关切和恶劣条件下的可靠性（例如，火灾和烟雾）的益处，正日益受到关注。

然而，现有的雷达感知 Pipeline 未能考虑到多视图雷达设置的独特特性。在本文中，作者提出了一种名为雷达感知Transformer（RETR）的扩展方法，即Radar dEtection TRansformer，这是针对多视图雷达感知的改进版DETR架构。

RETR继承了DETR的优势，消除了在图像平面上进行目标检测和分割需要手工设计的组件的需求。

更重要的是，RETR融入了精心设计的修改，包括：

1）通过可调位置编码（TPE）实现的深度优先特征相似度；

2）来自雷达和相机的三角平面损失；

3）通过参数化，可学习的雷达到相机的转换，以考虑到多视图雷达设置的独特性。

在两个室内雷达感知数据集上进行评估，作者的方法在目标检测方面比现有最先进的方法提高了15.38+ AP，在实例分割方面提高了11.77+ IoU。

1 Introduction

感知信息包括检测、解释和理解周围环境的过程和技术。与主流的摄像头和激光雷达传感器相辅相成，雷达可以在低光、恶劣天气（如雨、雪、尘）以及危险条件（如烟雾、火灾）下提高感知的安全性和韧性，同时具有可承受的设备和维护成本。雷达感知的新兴应用包括室内传感与监控在老年护理、建筑能源管理以及室内导航方面。室内雷达感知的显著局限性在于雷达信号的语义特征较低。

早期的工作使用雷达检测点来支持简单的分类任务，如跌倒检测和活动识别，这些任务在有限的模式上进行。为了支持具有挑战性的感知任务，如目标检测、姿态估计和分割，更喜欢使用雷达信号的低级表示，如雷达 Heatmap 。沿这条线，最早的RF-Pose工作使用基于卷积的自编码器网络将两个雷达视点的特征融合，并回归关键点进行2D图像平面姿态估计[43]。后来扩展到3D人体姿态估计[44]。值得注意的是，RF-Pose并不是公开可用的。

最近，RFMask[38]通过在水平雷达 Heatmap [27]中提出候选区域，借用Faster R-CNN框架[38]，仅在水平雷达 Heatmap [27]中通过区域建议网络(RPN)确定候选区域。在同一深度水平候选区域中，自动确定垂直雷达 Heatmap [27]中的相应候选区域。

然后将水平 Proposal 和垂直 Proposal 投影到图像平面进行边界框(BBox)估计。此外，RFMask仅在2D水平雷达视图上计算BBox损失，并忽略垂直雷达视图[27]中的特征进行BBox估计。

在本文中，作者利用水平和垂直雷达视图的特征进行目标估计和分割，并引入了雷达检测Transformer（RETR）（图1）。RETR扩展了流行的检测Transformer（DETR）[3]，该方法有效地消除了需要手工设计的非极大值抑制和目标/ Anchor 点生成的需求，扩展到多视雷达感知。更重要的是，RETR采用了精心设计的修改，以利用多视雷达设置的独特性，如共享深度维度和雷达与摄像机坐标系之间的转换。作者的贡献如下：

picture.image

扩展DETR用于多视图雷达感知：

1）编码器：作者通过在池化的多视图雷达 Token 上应用自注意力来将来自两个雷达视图的特征关联起来，从而无需复杂的关联方案。作者引入了一种顶K特征选择，允许每个视图保留K个特征，从而保持复杂度较低。

2）解码器：DETR解码器提供了一种自然的方式，通过交叉注意力将相同的目标 Query 关联到两个雷达视图的对应特征。

因此，目标 Query 能够学习雷达坐标系中物体的3D空间嵌入。

可调位置编码：为了增强两个雷达视图之间的特征关联，作者进一步利用两个雷达视图共有的深度维度，引入了一种可调位置编码（TPE）作为内生偏置。TPE在注意力图上施加约束，以优先考虑深度维度的相对重要性，并避免雷达视图之间的完全相关性。

从3D雷达坐标和2D图像平面双向获取三面体损失：作者强制DETR解码器输出的 Query 直接预测雷达坐标系中的3D BBox，并将其转换为2D图像平面。作者引入了一个三面体损失，它结合了3D雷达平面中的框损失和2D图像平面中的框损失，以计算全局预测损失。

可学习雷达到相机坐标转换：作者通过校准过程和可学习坐标变换（通过保持旋转矩阵的正交规范（即，三维特殊正交群）结构进行重参化）来实现校准的雷达到相机坐标变换。

作者通过在两个开源数据集上进行的评估来展示作者贡献的有效性：HIBER数据集[38]和MMVR数据集[26]。

相关研究：基于雷达的目标检测与分割：室内雷达感知任务包括目标检测（边界框）、姿态估计（关键点）和实例分割（人体 Mask ），不同数据格式的雷达数据集在中有所报道。特别是，由于与稀疏雷达点云提取的语义特征相比具有更丰富的语义特征，基于雷达 Heatmap 的方法在室内感知和汽车雷达感知中都引起了关注。RF-Pose [43]使用基于卷积自动编码器的架构在图像平面上预测人类姿态。

利用HIBER数据集[38]，RFMask考虑基于 Proposal 的目标检测和实例分割。最近，MMVR [26]已公开发布，以加速室内雷达感知的先进技术发展。

基于DETR的图像目标检测与分割：自DETR在2D图像平面目标检测中引入以来，后续研究基于其框架发展了许多研究，主要归功于DETR消除了许多需要人工设计的组件，如非极大值抑制（NMS）。在[21]中，条件DETR分解了 Transformer 解码器中内容嵌入和位置嵌入的作用，不仅提高了预测准确性，而且提高了训练收敛速度。最近，[25]提出了基于秩的架构设计 Rank-DETR，确保预测中降低假阳性率和假阴性率。

3 Preliminary

生成雷达 Heatmap ：概念上，让作者考虑一对（虚拟）水平及垂直的天线阵列，每个阵列包含个元素，分别发送一组频率调制连续波形（FMCW）脉冲用于目标检测[26, 38, 34]。这两个一维阵列在方位角-深度域生成一个水平雷达视图，以及在仰角-深度域生成一个垂直雷达视图。

picture.image

表示在根天线上的第个 FMCW 扫描的波长，是第个样本的波长，表示第个阵元到位置的往返距离，和分别表示样本数量和天线阵元数量。通常，方位角位于区间中，而俯仰角和深度类似地定义。在某一时刻，作者拥有水平雷达热力图和垂直雷达热力图，它们共享深度轴。HIBER [38] 和 MMVR [26] 利用先进的 MIMO-FMCW 雷达系统进行了多视角雷达测试床。作者将 MIMO-FMCW 雷达热力图生成推迟到附录 D。

室内雷达感知：作者采用连续的多视角雷达 Heatmap 和作为输入，目标是检测图像平面的物体。

picture.image

其中表示目标检测的预测边界框以及实例分割的像素级 Mask 。以图2中的和作为输入，作者的流水线包括以下步骤：

图2(a)：通过将连续的帧的雷达视图作为输入，端到端目标检测模块输出描述雷达坐标系中3D边界框的一组参数；
图2(b)：雷达到摄像机3D坐标转换将的输出预测的3D边界框转换为相应的3D边界框在3D摄像机坐标系中；
图2(c)：3D到2D投影将摄像机坐标系中的3D边界框投影到已知针孔相机模型对应的相应2D图像平面上。

4 RETR: Radar Detection Transformer

作者首先提出了RETR架构，然后强调了雷达导向的修改。关于分割的讨论，作者推迟到附录B中。

RETR Architecture

作者在图3中提出了RETR架构，并按照从左到右的顺序介绍了其主要模块。有关详细架构，请参阅附录A。

picture.image

Backbone 网络：给定和 , 一个共享的 Backbone 网络（例如，ResNet [8]）可以生成独立的水平视图和垂直视图雷达特征图：和 , 其中和分别表示通道数和空间维度的下采样比例。

Token 化：基于 Transformer 的编码器期望作为输入的是一系列 Token 。这是通过将特征图映射到一序列的多视雷达 Token ：和，其中。Token 化讨论详见第4.2节。

编码器作为跨视雷达特征关联：Transformer 编码器提供了一种简单而有效的方法，通过在多视雷达 Token 池上应用自注意力来关联来自水平和垂直视图的雷达特征，从而无需复杂的关联方案。具体而言，第层（）的编码器通过多头自注意力更新多视雷达 Token ：

picture.image

其中，FFN 表示 FFN ，

是编码器层数，Que, Key 和 Val 分别用于从

中提取多头 Query 、 Key和Value 嵌入。对于第一层（0-层），作者有

。请注意，作者在 Eq. 3 中省略了“层范数”和“多头索引”的描述，以提高清晰度。

此外，由于多视图雷达 Token 缺乏位置信息，而自注意力是置换不变的，作者在每个编码器层输入中为补充了位置嵌入（或附加）。请参阅第4.3节了解可调位置编码。

解码器用于将目标 Query 与多视图雷达成像特征关联：解码器通过交叉注意力提供了一种自然的方式，将来自两个雷达视图相同目标 Query 的特征关联起来。对于每个解码器层，它将个目标 Query 作为输入，并包括自注意力层、交叉注意力层和FFN。具体对于第层（），它首先通过多头自注意力更新所有 Query ：

picture.image

然后，解码层通过多头交叉注意力与编码器输出中的多视图雷达 Token 进一步更新等式4中的物体 Query ：

picture.image

其中，

和

都引入了位置嵌入。最后，解码器输出

个增强的物体 Query

以执行下游任务。

将3D雷达坐标映射到2D图像平面：给定增强的目标 Query ，RETR直接在雷达坐标中估计3D BBoxes。

picture.image

其中，描述了3D BBox的中心和沿着3D轴相应的长度，而 sigmoid 函数对3D BBox的预测进行了归一化，使其在[0,1]范围内。然后，如图2(b)所示，作者应用了一个从雷达到相机的转换，将预测的3D BBox转换为在3D相机坐标系中的3D BBox。

picture.image

其中

是三维旋转矩阵，

是三维平移向量，

是对应

的三维 BBox 的第

个角。在图2（c）中，作者通过三维到二维投影将

的三维 BBox 投影到二维图像平面上。从投影后的二维角，可以计算出图像平面上 BBox 的中心、宽度和高度。

picture.image

最终图像中的边界框估计通过将一个偏移 Head 添加到原始边界框上，以补偿空间下采样并将其归一化到区间：

picture.image

Top- Feature Selection as Tokenization

在DETR中，tokenization仅将特征图的空间维度简化为单一维度，分别得到和的水平和垂直雷达特征图token。因此，作者得到的多视角雷达token。已知 Transformer 的复杂性随着token长度的四次方成倍增长。

在这里，作者引入了一种定制的Top-特征选择作为tokenization，保持RETR编码器和解码器的低复杂性：，，其中。在这种情况下，作者将多视角雷达token从缩小到。

对于每个雷达帧，作者始终选择Top-的最强特征，这些特征可能源自不同的空间位置，具体取决于特定的雷达帧。因此，梯度通过选定的个特征回传到 Backbone 权重，与它们的空间位置无关。

TPE: Tunable Positional Encoding

条件DETR [21] (见图4(b))中的内容嵌入（在编码器中为特征嵌入，在解码器中为解码器嵌入）与位置嵌入之间的拼接操作构成了TPE。

picture.image

其中表示连接，而不是DETR [3]中的求和（参见图4（a））：

picture.image

观察到等式10消除了等式11中的内容和位置嵌入之间的交叉项，使得内容/位置嵌入能够专注于各自的注意力权重，从而有助于加速训练收敛[21]。

在作者的情况下，位置编码由深度（y）轴和角度（方位角x或仰角z）轴组成。因此，，其中表示深度位置编码，表示角度位置编码。然后将方程10展开为，得到

picture.image

在方程12中，作者有以下观察结果：

反映了关键特征和 Query 特征之间的相似程度；

深度相似度在关键和 Query 来源于相同雷达视图或不同雷达视图时保持一致；

当键和 Query 来自相同的雷达视图时，Angular similarity 可以是一种自角相似性（方位角到方位角或仰角到仰角）。而对于不同的雷达视图，Angular similarity 则可以是一种交叉角相似性（方位角到仰角或仰角到方位角）。

受到上述观察的启发，作者可以通过允许深度和角度嵌入之间可调整的尺寸，促进具有相似深度嵌入的关键和 Query 之间的更高相似度得分，尤其是对于来自不同视点的那些。

picture.image

当可调整的维数比例α在区间[0,1]内时，具体内容如下：

如图4(c)所示，当α=0.5时，位置嵌入等同于条件DETR中使用的嵌入。当α接近0时，深度位置嵌入最小化，使得深度相似度在方程12中可以忽略不计。相反，当α接近1时，深度位置嵌入维度增加，深度相似度在方程12中的重要性也随之增加。

作者实现作者的TPE时，在深度和角（方位角或仰角）维度上使用固定的正弦/余弦位置编码。对于深度/角位置维度均匀的情况，作者有

式（14）定义了深度轴和角度轴上的位置索引和维度，其中i为（偶数/奇数）元素索引， = 10000是温度。通过调整方程（12）中的比例，作者改变了深度在方程（14）中的维度，以及角度在方程（15）中的维度，同时保持总位置维数不变。作者在附录C中展示了TPE的可视化。

Tri-Plane Set-Prediction Loss

DETR 计算一个匹配成本矩阵，其中每个元素都由两部分构成：

一个分类成本，2) 在 N 个预测结果和 GT 边界框（包括“无目标”类）之间的加权组合交并集（GIoU）损失 [28] 和损失。

picture.image

在N个预测结果和真实目标目标之间的排列集合中，应用Hungarian算法[12]并使用匹配成本矩阵来找到预测结果与真实目标目标的最优分配。给定，只计算匹配对子的损失，并将其称为集合预测损失。

由于RETR在3D雷达坐标中预测3D BBoxes ，并将其映射到2D图像平面，作者提出了一种使用雷达坐标和图像平面双倍增强上述匈牙利匹配成本矩阵的方法，即使用 Tri-Plane BBox Loss 。

这如图5所示，其中在雷达坐标中的3D BBox 被投影为1) 2D水平雷达平面上的（上分支）；2) 2D垂直雷达平面上的（中分支）；以及3) 2D图像平面上的，等式9（下分支）。使用等式16，Tri-Plane BBox损失将所有三个平面的2D BBox损失相加。

picture.image

RET通过使用原始分类成本

和三平面BBox损失

的匹配成本，找到最优的

分配。利用

得到的集合预测损失被称为三平面集合预测损失。

Learnable Radar-to-Camera Coordinate Transformation

在式（7）中的雷达到摄像机变换中的旋转矩阵和平移向量可以在事先进行校准。然而，这种校准过程只能对有限的深度和角度范围有效。作者没有依赖校准变换，而是通过在上进行可学习的变换来实现参数化，同时保持正交性。为此，作者需要确保可学习的位于 3D 特殊正交群。

考虑到是 Lie 群的一个特殊情形，是一个可微分流形，作者可以首先将 3D 向量使用投影映射到 Lie 代数。然后，作者应用指数映射，将映射到中的最近点，使得结果的位于上且满足正交结构 [13, 33]。这导致了以下关于的表示：

上述参数化后，在式(7)中的可学习雷达到摄像机坐标变换可简化为学习向量和平移向量。其中，是范数。

实验

Setup

数据集：作者在两个公开的室内雷达感知数据集上评估性能：MMVR4[26]和HIBER5[38]。MMVR包括从20多名人类受试者在9天内的6个房间中收集的多视角雷达 Heatmap 。在作者的实现中，作者使用来自协议2（P2）的数据，该数据包括237.9万帧数据帧，捕捉了多种人类活动，如行走、坐下、伸展和板书等。对于训练-验证-测试划分，作者遵循MMVR中定义的数据划分S1。

HIBER，部分公开，包括来自10名不同角度在同一房间内的多视角雷达 Heatmap 数据：

1）"WALK"，包括73.5K个数据帧，只有一个受试者（见5.2节）；

2）"MULTI"，包括70.8K个雷达帧，多个受试者（2人）在房间内行走（见附录G）。更多数据集详情可在附录E中找到。

实现：作者视RFMask [38]和DETR [3]为基准方法。由于RFMask和DETR原初只在2D水平（H）雷达平面和2D图像（I）平面分别计算BBox损失，因此，作者增强这两种方法，使用统一的双平面BBox损失（H + I）。作者还引入了一种DETR变体，具有顶部K特征选择，允许其从水平（H）和垂直（V）热力图输入特征。对于RETR，作者设置顶部K选择为K=256，位置嵌入维度为d_{pos}=256}，并设置可调比例α=0.6。作者还包含一种只使用TPE在解码器（TPE@Dec.）的变体。更多超参数设置请参见附录E。

指标：对于目标检测，作者采用在两个IoU阈值处（和）的平均精确度（AP）()和，以及在其阈值范围内的平均（AP）。此外，在仅允许每个图像进行一次检测（）或最多10次检测（）的情况下，作者也考虑平均召回率（AR）。对于分割，作者报告预测 Mask 和真实 Mask 之间的平均IoU值。详细的指标定义请参见附录F。

Main Results

表1在“P2S1”设置下在MMVR数据集上显示了主要结果。与RFMask相比，仅具有单个水平雷达视图的DETR性能没有提高。通过仅在输入中添加垂直雷达视图，具有顶-选择的DETR相对于RFMask显示了明显的性能提高。在基于DETR（Top-K）的基础上，RETR（Dec. TPE）实现了两个改进：

1）解码器处的TPE和2）三平面BBox损失，从而进一步提高了性能，分别提高了6.23、10.75和4.57，突显了在垂直雷达视图处TPE和监督的重要性。通过在编码器处进一步集成TPE，完整的RETR相对于RFMask实现了令人印象深刻的表现提高，分别提高了15.38、22.30和18.58。MMVR上“P2S2”设置下的结果请参见附录G。

picture.image

表2在"WALK"下展示了HIBER数据集的主要结果。与表1类似，作者从DETR到RETR变体观察到性能提升的趋势。具体来说，当直接比较RETR与RFMask时，作者看到了RETR到RFMask的、和的性能提升。这些性能提升相较于表1中的提升要小。这可能是由于在"WALK"下的HIBER数据主要涉及行走，而RFMask的固定高度垂直 Proposal 可能非常适用。相比之下，在"P2"下的MMVR包括更多样化的活动，如坐姿，导致RFMask可能产生了过高的垂直 Proposal ，从而在MMVR上的提升大于HIBER。HIBER在"MULT"下的结果请参见附录G。

picture.image

图6展示了在预测的边界框（通过目标 Query ）和多视角雷达特征之间，最后解码层中的交叉注意力图。RETR准确预测图像平面（中间面板）背景中的主体（向前弯曲的姿势， Query 1）。Query 1的交叉注意力图，从水平（左）和垂直（右）雷达特征来看，突出了对 Query 1做出贡献最多的区域。这些贡献区域在垂直平面上的拉伸程度比水平平面上的大。值得注意的是，来自两个视图的贡献区域深度区间相似。对于 Query 2，它识别出前景中的主体，交叉注意力图的重点转移到与 Query 1相比更接近的深度贡献区域，表明RETR输出中对目标 Query 的3D空间嵌入有效。作者在附录H中提供了更多的可视化。

picture.image

局限性：作者在附录H的图15中提供了失败案例。预测手臂位置仍然具有挑战性，这表明RETR可能没有关注到雷达反射较弱的区域。此外，地面、天花板及其他强散射体（如金属）的多路径反射可能导致（一阶或二阶）鬼目标，并提高噪声底噪。传统信号处理技术可以减轻这些影响，但需要访问原始雷达数据。另外，可以在多视图雷达 Heatmap 中 Token 鬼目标，尽管这可能需要花费时间和金钱。然后，可以将RETR扩展为将输出 Query 分类到{空集、人、鬼}之一，并将 Query 回归到BBox参数。

picture.image

Ablation Studies

作者在MMVR上进行了RETR的消融研究。消融研究的进一步结果可见附录G。

可调维数比例α：表2（a）展示了可调维数比例α的消融研究及其对目标检测性能的影响，以（主要垂直轴）和（次要垂直轴）表示。结果表明，当时，性能最佳。当接近和时，检测性能逐渐降低。

可学习变换（）：为了评估第4.5节中可学习变换的有效性，作者将比较带有和不带的RETRs的和指标。表2（b）的结果表明，可以在不进行繁琐的校准步骤的情况下，将雷达到摄像头的几何信息集成到端到端雷达感知 Pipeline 中，同时仍可实现可比的感知性能。

三角面损失用于RETR：表2(c) 将RETR 与双平面BBox损失（水平雷达平面和图像平面）进行了比较，与三平面损失（包括垂直雷达平面）进行了比较。结果强调了考虑垂直BBox损失和利用垂直雷达热力图中的特征的重要性，从而在AP中实现了4.47的性能提升。

6 Conclusion

在本文中，作者提出了RETR，将DETR扩展到多视角雷达感知。通过精心设计的修改，例如通过TPE实现深度优先的特征相似性，从雷达和相机的坐标中获得三角平面损失，以及可学习的雷达到相机的变换，实现了多视角雷达感知。在两个雷达数据集上的实验结果以及全面的消融研究证明，RETR显著优于RFMask和DETR Baseline 方法。

更广泛的感应：室内雷达感知技术，包括RETR，在导航和监测如老年人、婴儿、机器人以及类人生物等目标时，提供了多种社会应用，既增强了安全性又提高了能效，同时保护了隐私。

然而，感知结果必须保持安全和隐私，以防止在推理目标的属性（如性别、大小和身高）时造成滥用。这些技术可能会被用于在未经个人承认或同意的情况下提高室内监控。

参考文献

[0]. RETR: Multi-View Radar Detection Transformer.

点击上方卡片，关注「AI视界引擎」公众号