MonoMM: 一种实时单目3D目标检测的多尺度 Mamba 增强网络！

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

     加入【  **智驾实验室** 】交流群，获取更多内容和资料

picture.image

最近，基于Transformer的单目3D目标检测技术在从单张2D图像中推理3D属性方面取得了显著进步。通过将深度信息和图像的视觉特征相结合，这些方法提高了空间感知能力，在自动驾驶等应用中发挥关键作用。然而，现有的许多方法依赖于耗资源丰富的Transformer结构，处理长序列数据时往往会导致计算效率和性能急剧下降。

为解决这些挑战，提升单目3D目标检测技术，作者提出了一种创新网络架构，MonoMM ，即M ulti-scale M amba-Enhanced网络用于实时M 单目3D目标检测。

这种精心设计的架构主要包括以下两个核心模块：

聚焦多尺度融合（FMF）模块：该模块专注于有效地保留和融合不同尺度下的图像信息，并降低计算资源的消耗。通过精确调控信息流通，FMF模块增强了模型对尺度变化的适应性和鲁棒性，同时保持图像细节。

深度感知特征增强Mamba（DMB）模块：该模块利用图像特征融合的输出作为输入，并采用一种新颖的自适应策略，全局集成深度信息与视觉信息。

这种深度融合策略不仅提高了深度估计的准确性，还提升了在不同的观察角度和环境条件下的模型性能。蒙目MM的模块化设计提供了高灵活性和可扩展性，可以根据特定应用需求进行调整和优化。

在KITTI数据集上的大量实验表明，作者的方法超过了先前的单目方法，实现了实时检测。

1 Introduction

基于卷积神经网络（CNNs）的2D目标检测技术得到了迅速发展。它们在各种领域得到了广泛应用，如车牌识别和缺陷检测。然而，在机器人导航、自动驾驶和多目标跟踪等领域，仅通过2D目标检测获得更接近真实世界的检测结果是难以实现的。因此，为了获得更接近真实世界的检测结果，许多研究行人使用距离传感器，如激光雷达（LiDAR）或双目摄像头作为输入设备来获取精确的深度信息。尽管性能很高，但这些方法面临高昂的硬件成本。相比之下，从单图像中获得高精度的3D检测结果可以大大降低计算和设备成本。目前，已经提出了使用单目摄像头的

2 Related Work

Monocular 3D Target Detection

许多现有的单目3D目标检测方法依赖于2D目标检测器。MonoRCNN [25] 通过将目标距离分解为物理高度和投影2D高度，并建模它们的联合概率分布，从而增强了3D目标检测。MonoDLE [32] 强调了对2D边界框估计的准确性对预测3D属性的重要性，并将深度误差视为关键的限制。M3D-RPN [19] 引入了深度感知卷积，以生成受2D边界框约束的3D目标 Proposal 。MonoCon [33] 引入了辅助学习任务以提高泛化性能。Monopair [34] 利用目标对之间的空间关系来增强3D位置信息。MonoJSG [35] 利用像素级几何约束精炼深度估计。MonoFlex [36] 利用多个深度预测器来解决长尾目标预测问题。PDR [37] 采用单视角估算器来简化此方法，并使用较轻的架构。MonoGround [38] 引入了局部地面平面的先验概率，并通过在目标底部平面周围采样来丰富深度监督。MonoDDE [18] 基于关键点信息扩展深度预测分支，强调了深度多样性。

尽管这些方法取得了进步，但由于缺乏深度线索以及几何约束中错误累积，纯单目方法在精确物体定位方面仍然面临挑战。

Depth-assisted Monocular 3D Object Detection

为了获得更高的性能，许多方法利用深度信息来辅助3D目标检测。一些方法 [25, 23] 利用高级深度估计器和相机参数将图像映射到3D空间，将其转换为伪激光雷达数据表示。这些表示然后与基于激光雷达的3D目标检测器一起使用以增强检测。伪激光雷达++ [41] 优化了立体深度估计，利用稀疏激光雷达传感器来改善自动驾驶中的3D目标检测。D4LCN [23] 和 DDMP-3D [25] 开发了基于融合的方法，将图像和估计的深度与专门的卷积网络相结合。CaDDN [43] 根据每个像素的特定深度分布学习鸟瞰图（BEV）表示，并从BEV投影中恢复边界框。MonoDTR [31] 使用激光雷达点云作为其Transformer的辅助监督，并从Transformer中使用学习的深度特征作为解码器的输入 Query 。MonoDETR [39] 使用物体标签来预测前景深度图。为了提高推理效率，MonoATT [42] 引入了一个自适应标记Transformer，将更精细的标记分配给图像中的更关键的区域。

State Space Models

状态空间模型（SSMs）起源于经典控制理论[45]，近年来在深度学习中受到关注，因为它们有能力管理长期依赖关系和时序数据。Hippo模型[46]利用多项式最高次幂运算符初始化，增强了SSMs捕捉长期依赖关系的能力。LSSL模型[47]证明了SSMs处理这些依赖性的有效性，尽管它面临与计算和内存效率相关的挑战。为了应对这些问题，Gu等人引入了结构化状态空间序列模型（S4）[48]，通过归一化参数化策略降低计算开销，从而使SSMs更实用。S4将深度状态空间模型应用于长期依赖关系。S5模型[49]融合了MIMO SSM和高效并行扫描，而H3[50]缩小了SSMs和Transformer模型在自然语言处理（NLP）中的性能差距。最近，Mamba[51]以其先进的设计，包括选择性机制和优化的硬件使用，在NLP中表现出色，超越了一些Transformer模型。与Transformer不同，Mamba能够有效处理长序列，在序列长度上保持线性计算成本， unlike Transformers，需要指数增长的资源。这种效率使得Mamba成为大规模序列数据的有效解决方案。

3 Methods

Overview

如图1所示，MonoMM框架包括五个主要组件：

一个 Backbone 网络（Backbone），一个关注多尺度的融合（FMF）模块，一个深度辅助感知（DAP）模块，一个深度感知特征增强Mamba（DMB）模块和一个2D-3D检测Head。遵循[31]中的方法，作者采用DLA-102[52]作为 Backbone 网络。

给定一个输入大小的RGB图像（）， Backbone 网络在不同层输出特征。FMF模块将这些特征图整合成一个融合特征图，其中，， = 256。卷积层通过整合图像中的空间位置信息来增强特征表示，从而提取更高层次和更抽象的视觉特征。此外，作者引入了深度辅助感知（DAP）机制[31]，它使用多个卷积层来特别捕捉深度相关的特征。然后，DMB模块高效地整合了视觉和深度感知的特征，进一步增强了特征的全面性和判别性。为了充分利用这些融合特征，作者使用基于 Anchor 的检测Head架构，并选择合适的损失函数，旨在同时实现精确的2D和3D目标检测任务。

picture.image

Focused Multi-Scale Fusion Model

本论文提出了一种名为MonoMM的单目图像基于三维目标检测的总体框架。首先，输入图像经过backbone提取特征。自注意力机制（Focused Multi-Scale Fusion，FMF）模块通过特定特征聚焦和扩散机制在各个尺度上保持详细信息。深度辅助感知（Depth-Assisted Perception，DAP）模块通过协助监督学习学习深度感知特征。深度感知特征增强Mamba（Depth-Aware Feature Enhancement，DMB）模块使用适应性策略完全集成视觉信息。

现有的多尺度特征融合方法主要关注跨不同层数的上下文信息整合。然而，由于感受野大小限制，将不同层级的上下文信息有效融合在一起是具有挑战性的。此外，引入注意力机制还会增加额外的计算负担。为了解决这些问题，作者受[28]和[29]在密集预测任务中的工作启发，提出了一种全局集中聚焦（FMF）模块，用于单目图像基础的三维目标检测。与现有多尺度融合方法[28; 29; 52]不同，作者提出的FMF模块不仅捕获不同尺度之间的长程依赖，而且避免注意力机制，显著降低计算成本。

初始融合阶段如图2（a）所示，主要包含三个组件：1×1卷积层AConv和上采样层。在AConv单元内，集成了平均卷积（AC）和最大卷积（MC）两个子模块。AC子模块通过合并平均池化和卷积操作有效聚合和平滑特征，降低计算复杂度，并实现关键特征的高效提取。而MC子模块则通过利用最大池化和卷积增强图像中显著的特征，从而提高模型对小尺寸位移的鲁棒性。具体来说，从backbone中提取的不同尺度特征并行处理上述操作，以获得丰富的多尺度特征表示，从而增强特征表达能力。此外，通过调整特征图的大小，可以有效捕获和保留在初始融合阶段跨不同尺度丰富的信息和细节。这一全面方法确保对图像的全局和局部特征有全面的了解。生成的特征表示为F∈R^{3C×H×W}，其中C1=256，H1=H/16，W1=W/16。过程可由方程1表示。

picture.image

深度聚焦扩散模型如图2（a）所示，FMF模块在两个阶段上保持更多详细信息。多尺度特征融合生成特征F，进一步深化和优化在初始融合阶段生成的特征并将其与F融合，最终生成Fout。

具体来说，在详细融合阶段，网络并行处理初始融合阶段生成的特征以进行更深层次的特征提取和管理计算资源消耗。接下来，将不同分支路径的特征图在00维度上堆叠，以确保完全保留多路径信息。为了将多路径信息融合为统一特征图，模块采用00维上的求和，从而凝聚不同路径传输中的丰富信息和小纹理，构建后续检测任务富有和全面的特征表示。此后，卷积和跳跃残差连接机制用于将未经过优化的初始融合特征与通过深度分离卷积优化的当前特征进行集成。这种方法保持全局和局部图像特征的一致性和连续性。最后，通过转置卷积（TConv），特征图大小翻倍，有效补偿由前面降采样步骤引入的信息损失。这一步 enhance 分辨率，确保详细信息的完全恢复和传递。该过程可由方程2表示。

Depth-Aware Feature Enhancement Mamba Model

为了获取用于后续与视觉特征融合的深度感知特征，作者受到了MonoDTR [31]的启发，并采用了一种基于该方法的分层决策堆叠模块（DMB）模块。DMB模块通过将精确的深度图作为辅助监督信号，有效地学习和精炼了与深度相关的特征信息。这确保了DMB模块全面而深入地将深度感知特征与视觉特征集成，捕获和优化来自两个领域的细微信息。因此，它增强了整体检测性能和精度。

作者提出的DMB模块的结构如图3（a）所示。为了处理来自视觉和深度感知特征融合得到的特征，作者首先将转换为一个扁平2D序列，其中表示特征块的总数，代表通道数。这一转换可通过方程3表示：

picture.image

其中表示深度感知特征的第个块，是一个可学习特征的投影矩阵。它将这些块映射到更高维的特征空间，以捕获更复杂的视觉模式。这种方法受到ViT [53]和Vim [26]等前沿研究的启发，它们创新性地应用基于块的方法，将图像划分为连续的标记序列以进行全局分析。遵循这一概念，作者从划分的块被转换为标记序列并输入DMB模块，产生经过层输出后。为了进一步精炼和稳定这些特征表示，经过归一化以确保在各个维度上的特征分布一致。这个过程可以用方程4表示：

具体而言，在归一化输入标记后，它们经过两个并行分支处理。在第一个分支中，将序列通过线性投影转变为一维向量，然后通过可变形卷积（DCN）更好捕获和表达原始信息的复杂性，同时减少参数数量。接着经过SiLU激活函数、深度可分离卷积（DSSM）层和归一化（Norm）。在第二个分支中，序列同样经过线性投影转变为一维向量，然后经过SiLU激活函数。之后，来自两个分支的特征通过逐元素乘法进行聚合。代表隐藏状态的维数。最后，将特征投影回原始大小，生成与输入相同形状的输出。此过程详细如算法1所示：

picture.image

输入：，，一个从上到下的顺序，分别捕获全局上下文和细节，形成更全面的信息传递，以提高性能进一步。如图3（b）所示，在第一个分支的前向路径中，特征经过线性操作，被映射到新的特征空间，以增强它们的表达能力。

接下来，一个1D卷积层带有SiLU激活函数引入非线性特性，增强了特征学习能力。这个过程与SSM层配合，以共同促进有效的特征精炼。在第二个分支中，执行与前向分支相反的相同处理顺序，以确保全面的信息沟通和特征信息的优化，加深了模型对细节的理解。第二个分支也始于一个线性映射步骤，以保留更多的全局粗粒度信息，这对防止训练中可能出现的技术爆炸至关重要。

然后，一个SiLU激活函数遵循此以保持特征的非线性传播。来自两个分支的特征通过Hadamard乘法进行融合，这是一种有效结合不同视角特征强度的聚合方法。最后，将融合特征 Reshape 为原始尺寸，为下一层处理做准备。

Train loss and 2D-3D Detection

作者采用了单阶段检测方法[29,54]，该方法利用预定义的2D-3D Anchor 点来确定边界框。作者的输出变换方法受到Yolov5's[55]策略的启发，预测每个 Anchor 点的一组2D参数[t_{x},t_{y},t_{w},t_{h}]和一组3D参数[t_{x},t_{y},t_{w},t_{h},t_{l},t_{z},t_{\theta}]。这些参数概括了2D和3D边界框的偏移量，并输出每个类别的分类分数cls。通过将 Anchor 点的 Baseline 位置与网络的预测相结合，作者可以准确恢复目标物的边界框。

损失函数。在本论文中，作者采用了focal loss[1]和smooth L1 loss[2]，分别用于分类损失L_{cls}和回归损失L_{reg}。具体而言：

其中，\alpha 是平衡正负样本的权重系数，调整不同类别的权重；\gamma 是聚焦参数，减少容易分类样本的权重，使模型更关注难以分类的样本；\delta 是一个阈值参数：当绝对误差小于 \delta 时，损失函数切换到平方损失，以保证平滑梯度输出，避免在遇到较小误差时对模型造成严重影响。当绝对误差大于等于 \delta 时，使用绝对损失，帮助处理较大误差，减轻异常值对模型训练的影响。

对于深度损失L_{dep}，作者遵循MonoDTR[31]设定的方法，将深度估计视为一个分类任务。作者利用LiDAR生成的深度桶的真正值\hat{D}。作者使用focal loss进行此目的，如下所示：

其中，P是图像上具有有效深度标签的像素区域。

4 Experiments

Experimental setup

为了验证作者提出的方法的实用性，作者选择了广泛使用的KITTI 3D目标检测数据集作为评估平台。该数据集总共包括7,481个训练图像和7,518个测试图像。遵循[56]中的方法，作者将训练集划分为两个子集：一个包含3,712张图像的训练子集和一个包含3,769张图像的验证子集。在这个划分框架内，作者进行了消融实验，以系统地分析每个组件对提高模型性能的贡献。这种严格的实验设计确保了结果的可信度，并验证了作者提出的Methodology的有效性。

关于评估方法，无论是在3D目标检测任务还是鸟瞰视图（BEV）检测任务上，平均精确率（AP）都是关键的性能评估指标。本研究采用AP在40重召回位置的度量来减小潜在偏见。根据物体尺寸、遮挡程度和截断情况，基准测试将检测难度分为“容易”、“中等”和“困难”。方法主要根据其在“中等”难度设置下的3D AP值（Mod.）进行排名，这与KITTI基准相符。此外，根据官方指南，分别设置0.7，0.5和0.5的交点与 Union（IoU）阈值来分别检测汽车、骑行者和平行移动者类别。

在实现过程中，具体操作如下：参考[31]的设置，使用Adam优化器训练网络模型。训练过程总共包括100个周期，每个批次包含12个样本。初始学习率设置为0.0001，并使用余弦退火算法动态调整。在每个特征图的每个像素位置，设计48个 Anchor 框，覆盖3个不同的长宽比（0.5，1.0，1.5）。此外，根据指数函数生成12个不同高度的 Anchor 框，编号为0到15。3D Anchor 框的参数采用训练数据集训练数据的中值和方差作为 Anchor 框的参考统计数据。为了缩短推理时间，在预处理过程中，对每个图像的上100个像素进行裁剪，并将所有图像都均匀缩放到288×1280维度。在训练过程中，对数据进行随机水平翻转以进行数据增强。推理过程中，低于0.75的信心分数的预测被舍弃，并使用IoU阈值为0.4的非极大值抑制（NMS）算法消除冗余预测。

主要结果

在KITTI测试集的汽车类别结果中，如表1所示，本文提出的单目三维检测方法（MonoMM）与其他最近的单目3D检测状态最先进方法进行评估。研究发现，MonoMM在适度的物体（AP）上取得了优越性能，这是KITTI评估中最关键的指标。这尤其值得关注，因为适度的样本通常尺寸较小，而先前的算法[19, 20, 23]在融合特征时容易引入过度的粗粒度信息，导致检测不准确。另一方面，MonoMM通过实施FMF模块，解决了过度的粗粒度信息结合问题，从而更加关注详细信息。这种完善的结果在检测适度物体上取得了显著改进。

picture.image

在本论文中，作者在KITTI验证集的汽车类别下进行了实验，实验条件不同IoU阈值和任务条件，如表2所示。提出的算法在多个图像方法中表现优异。具体而言，与MonoDTR [31]相比，作者的方法在0.5的IoU阈值时，在容易、适度和中难度设置中均表现出优势。该模型分别将3D平均精确度（AP）提高了1.22, 2.21和1.00个百分点。此外，鸟瞰视图平均精确度（AP）也分别提高了1.92, 1.43和2.19个百分点。这些改进证实了模型的优秀准确度和稳健性能，以及复杂环境下的广泛适用性。

picture.image

表3展示了在KITTI测试集的行人和自行车类别上的结果，进一步阐明了模型在这些类别上的表现。检测行人和自行车比汽车类别更具挑战性，主要是因为它们的大小较小和非刚性身体结构，这使得准确定位更具困难。总的来说，模型在行人类别上明显优于其他最新方法，实现了约15%的改进。关于3D检测自行车，作者在容易难度上达到了与CaDDN [43]相当的结果，并在适度难度和困难度上超过了其他方法。表3中的结果证实了模型在行人和自行车类别上的 exceptional versatility（出色的灵活性）。因此，本文提出的方法能够准确检测到具有多样化外观的物体。

运行时间分析

picture.image

在单个Nvidia 4090 GPU上，整套验证集以1批处理，平均每帧运行40帧，得出平均运行速度为40帧/秒。这种性能突显了所提出方法的高效性。与现有的最先进方法相比，作者的MonoMM模型在速度上得到了显著提高，是CaDDN方法[43]的15倍。导致在速度上存在显著差异的几个关键因素包括：

首先，CaDDN通过预测深度图来生成3D检测的鸟瞰图表示，这需要设计更复杂的架构来实现精确的深度预测，从而导致处理时间增加。其次，融合方法通常使用两个独立的 Backbone 网络来提取图像和深度特征，这个过程本质上消耗了更多的计算资源和时间。此外，深度估计器的推理时间也是额外的一个因素，在表1中未考虑。

相反，本文提出的模型采用了轻量级的FMF模块，该模块专门设计来增强详细特征表示，而不会产生较大的计算开销。此外，DMB模块有效地将深度感知特征与视觉特征集成，显著提高了模型的特征处理能力，同时显著降低了运行时间。这种战略集成和高效的模块设计彰显了作者的模型的优越性能。

Ablation Study

为了验证本文模型中提出的组件的有效性，作者进行了如表4所示的消融实验，其中基准模型采用[34]中的模型。

picture.image

（a）基准模型。

（b）基于基准模型，本文将特征融合模块替换为FMF，以观察这种特征融合方法对3D目标检测性能的影响。

（c）基于基准模型，使用DMB模块感知图像特征，仅使用图像感知特征观察其影响。

（d）使用卷积操作集成上下文特征，并将其与深度感知特征元素相加，再次观察结果。

（e）单人MM集成上述所有模块。如表4所示，实验结果划分了各个模块对整体性能的贡献和影响。根据实验，将FMF模块引入基准模型显著提高了不同难度 Level 的3D检测平均精确度（AP），从19.35/15.47/12.83提高到20.71/16.95/13.26，强调了FMF模块在增强细节特征和促进检测性能方面的积极作用。

将DMB模块集成到基准模型中进一步提高了AP到24.32/18.89/14.12。这种显著的改进表明DMB模块在将深度信息和视觉信息集成方面相较于原始配置更为有效，从而显著提升了3D目标检测的准确性。

此外，将DMB模块与基准模型的卷积层结合导致AP的提升到25.03/19.62/14.14。这种结果突显了卷积操作在集成上下文特征方面的有效性，并验证了DMB模块作为集成视觉和深度特征的稳健策略。

picture.image

最终，结合所有提出的优化模块的MonoMM模型在AP方面实现了6.39/5.31/3.89的显著提升，从而证实了本文研究中提出的检测准确性、模型稳定性和鲁棒性方面的显著改进。上述消融实验共同证明了模块设计的合理性和提出方法的效用以解决单目3D目标检测任务。

定性结果

picture.image

图5显示了在KITTI验证集上的一个定性示例，可用于直观验证作者的方法。如图所示，预测的边界框与实际标签之间的匹配程度非常高，证明了作者模型预测的准确性得到了显著改进。最后，本文中的模型允许实时推理。作者的框架实现了性能和延迟之间的最先进折衷。

5 结论

作者介绍了一种新颖的单目3D目标检测算法，其中集成了聚焦多尺度融合模型（FMF）。FMF采用先进的特征聚焦和扩散机制，将上下文丰富的特征传播到多个检测尺度，从而有效减轻噪声干扰。

此外，本文还提出了一种创新的将深度敏感特征增强模块（DMB）集成到单目3D目标检测中的方法，高效地将图像中的上下文信息融合在一起。

作者将深度和视觉信息相结合的开创性自适应策略，显著提高了后续深度预测 Head 的性能。

这种方法不仅提高了深度估计的准确性，而且还优化了模型在不同视角和环境条件下的性能。

在KITTI数据集上的全面实验表明，作者的模型能够实现实时检测，并超越了现有单目检测方法的表现。

参考

[1].MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

picture.image

MonoMM: 一种实时单目3D目标检测的多尺度 Mamba 增强网络 ！

1 Introduction

2 Related Work

Depth-assisted Monocular 3D Object Detection

State Space Models

3 Methods

Overview

Focused Multi-Scale Fusion Model

Depth-Aware Feature Enhancement Mamba Model

Train loss and 2D-3D Detection

4 Experiments

Experimental setup

Ablation Study

5 结论

参考