CoMamba:利用状态空间模型解锁实时协作感知！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

合作感知系统在提高自动驾驶的安全性和效率方面起着重要作用。虽然最近的研究已经强调车辆到一切（V2X）通信技术在自动驾驶方面的有效性，但仍然存在一个重大的挑战：

如何在车辆和基础设施等扩展网络的多个高带宽特性之间有效地集成多个实时的整车感知。

在本文中，作者引入了CoMamba，一种新颖的合作3D检测框架，旨在利用状态空间模型进行实时车辆感知。

与先前的基于 Transformer 的最先进模型相比，CoMamba是一种更可扩展的3D模型，采用双向状态空间模型，绕过了注意力机制的二次复杂性痛点。通过在V2X/V2V数据集上的广泛实验，CoMamba在现有方法方面表现出优越的性能，同时保持了实时处理能力。

提出的框架不仅提高了目标检测的准确性，还显著减少了处理时间，使其成为下一代智能交通网络中合作感知系统的 promising 解决方案。

unset

unsetI Introductionunset

unset

近年来，涉及多个互联和自动驾驶车辆（CAVs）的合作感知新范式 [1, 2, 3] 已经吸引了大规模的研究兴趣。通过利用车辆到一切（V2X）或车辆到车辆（V2V）通信，智能实体现在能够与附近邻居“交谈”，共享信息如姿势和感知数据（例如，点束、RGB图像或神经特征）。尽管V2X合作系统具有改变交通工业巨大潜力的能力，设计有效的融合策略以有效地将大型，高维特征集成在一起仍然是一个具有挑战性和未解决的研究课题。

受关于视觉 Transformer （Vision Transformer）的惊人研究 [4] 的启发，该研究表现出在通用视觉任务上的强大视觉学习能力，先前的V2X感知模型已经研究了使用 Transformer 作为合作感知的基础架构。例如，OPV2V [1] 实现了一个单头自注意力模块来融合V2V感知特征。V2X-ViT [5] 提出了一种统一的视觉 Transformer （ViT）架构用于V2X感知，能够捕捉V2X系统的异质性。CoBEVT [2] 提出了一种整体的视觉 Transformer （ViT）用于多视角合作语义分割。这些方法通过利用自注意力机制来建模长程空间交互增强其视觉学习能力。然而，这些方法在大规模，复杂实时场景中的实际部署仍然受到推理速度慢和基于注意力的架构的扩展性不佳的限制。

为了克服这些限制，最近状态空间模型（SSMs）的进展提供了与 Transformer 相比具有竞争性的替代方案，尤其是在计算密集型任务中 [8, 9, 10]。一个显著的模型，Mamba [11] 通过维持状态空间中的连续线性更新路径，实现显著降低的线性复杂性，在自然语言处理等长序列建模任务中展示出强大的性能。

unset

unsetII Related Workunset

unset

V2X合作感知。 V2X 系统可以通过使 CAVs 之间进行数据共享，显著提高自主车辆的感知能力，从而在复杂场景中扩展检测范围，提高驾驶安全[20, 21, 22, 23]。在建模方面，V2X-ViT [5] 引入了一个专门用于处理多尺度 V2X 系统异质性和多尺度特性的统一 Transformer 框架。Where2comm [24] 提出了一种基于空间信心图的多智能体感知框架，以有效平衡通信带宽和感知性能。CoBEVT [2] 采用了一种轴向注意力机制的轴向多智能体感知框架，共同生成稀疏位置的预测，以捕捉图像块之间的长程依赖关系。此外，SCOPE [25] 将时间上下文集成到基于学习的多智能体感知框架中，以增强身份代理的能力。

V2X感知系统部署。 尽管 V2X/V2V 系统具有巨大的潜力，但这些架构在现实场景中的部署需要克服许多基本挑战，包括模型异质性[26, 27]、损耗通信[28, 29]、对抗性弱点[30, 31]、位置错误[32] 和通信延迟[5, 33]，等等。在这些挑战中，V2X-ViT [5] 提出了一个延迟感知的定位编码模块，通过使用统一的视觉 Transformer 来减小使用通信延迟和 GPS 定位错误。FDA [34] 通过跨域学习方法以及特征分布感知的聚合框架来解决各种私人数据之间的分布差异。S2R-ViT [35] 引入了一种从仿真到实际（即 Sim-to-Reality，S2R）迁移学习方法，以减少 V2V 感知部署中的应用差距。

状态空间模型。 受线性时不变（LTI）系统的启发，状态空间模型（SSMs）[8, 9, 10] 逐渐成为序列到序列建模任务的有效替代方案，相较于变形器，更高效。其中一种引人注目的模型 Mamba [11] 引入了一种动态从序列数据中提取特征以捕捉长程上下文依赖性的选择机制。

它在各种一维数据集上表现出色，同时需要显著更少的计算资源。受其在语言建模方面的成功启发，状态空间模型还被扩展到各种计算机视觉任务 [15, 16, 17, 18]。例如，视觉状态空间模型（Vim）[36] 将 SSM 与双向扫描相结合，增强图像块之间关系的依赖关系。

VAMba [37] 进一步引入了一种跨扫描技术，一种四方向建模方法，它可以揭示图像块之间的额外空间关系，以充分利用图像块之间的依赖关系。然而，尚不清楚状态空间模型是否可以成为更具通用的视觉任务基础模型，如 3D 点云理解，3D 视觉和自主驾驶。

unset

unsetIII Methodologyunset

unset

目前的ViT（Visual Transformer）基础V2X（Vehicle-to-Everything）感知系统受到注意力机制的二次方复杂度和大量内存占用的问题，使其在大规模、复杂的现实世界场景中部署变得不切实际。尽管有一些尝试引入稀疏注意力以提高效率，但这些模型在代理数（或自车辆所汇总的特征维度）的增长时，仍无法实现顺利扩展。作者首次尝试探索线性复杂度Mamba模型在V2X合作感知中的潜力，以克服可扩展性限制。借鉴SSM（Single Shot MultiBox Detector）的惊人效率和建模能力，作者构建了一个完全无需注意力的架构，称为CoMamba基于SSM的V2X感知框架（如图1中的a所示），完全基于SSM。作者的CoMamba模型主要由两个组成部分构成：合作2D选择扫描模块和全局池化模块。得益于SSM的效率友好的设计，作者的CoMamba模型实现了 实时推理速度（26.9 FPS） ，并显著优于当前最先进的 Transformer 模型。在本节中，作者将详细介绍作者提出的CoMamba模型的架构设计。

picture.image

unset

unset Preliminaries unset

unset

状态空间模型（State space models） 状态空间模型（SSMs）[8, 10, 38]是一种连续序列到序列建模系统，以其线性时不变（LTI）特性而著称。它们将一维输入序列映射到一维输出序列，通过一个中间隐藏状态，其中 , , 是演变和投影参数，分别为维矩阵和标量。SSMs 通过隐式地映射到潜在状态有效捕获全局系统感知。当 , 和具有常值时，等式（1）定义了一个 LTI 系统 [8]。否则，Mamba 引入了一个线性时变（LTV）系统 [11]。LTI 系统天生缺乏感知内容的能力，而 LTV 系统旨在具有输入感知性，这是一个注意力模型也具有的重要特性。这一关键区分使得 Mamba 能够超越 SSMs 的限制，允许更强大的建模能力。

为了促进离散部署以实现深度学习，引入了一个时间尺度参数，将连续参数和转换为相应的离散版本，分别表示为和。选择性扫描机制（Selective scan mechanism） 传统 SSMs 由于其 LTI 特性而受到限制，无论输入的变化都会导致不变的参数。为了克服这一限制，选择性状态空间模型（Mamba）[11] 采用选择性扫描机制，整合了三种经典技术： Kernel 融合、并行扫描和重计算。通过使用选择性扫描算法，Mamba 实现了强大的建模能力，同时保留了高效的计算复杂性和降低的内存需求，这有助于其快速推理。

unset

unset CoMamba V2X-based Perception System Design unset

unset

在图1（a）中，作者展示了基于CoMamba V2X的感知框架 Pipeline 的系统设计。首先，作者从CAVs（自动驾驶车辆）中选择一个ego车辆，构建一个包含在其V2X通信半径内的附近CAVs的空间图。认识到CAVs和智能基础设施之间相似的数据共享能力，作者的方法将每个基础设施单元都等同于一个CAV。
紧邻的CAVs使用自己的和ego车辆的GPS位置，将他们的原始LiDAR数据捕获并投影到ego车辆的坐标系上。从ego车辆和其他CAVs得到的点云分别表示为和,其中表示周围CAVs的数量。
在V2X感知系统中，每个CAV都有自己的LiDAR特征提取编码器。在特征提取后，ego车辆通过V2X通信从相邻的CAVs接收视觉特征。从周围个CAVs收集到的中间特征表示为,而ego车辆的特征表示为。
，以及来自其他CAVs的，被作者的CoMamba融合网络处理。最终特征图被传递给预测模块进行3D边界框回归和分类。

unset

unset CoMamba Fusion Network unset

unset

整体架构。图1（b）显示了CoMamba融合神经网络的概要示意图。经过和的编码，来自自车辆和其他CAVs的中间神经特征和被分别获得。这些特征然后被输入到协作2D选择扫描(CSS2D)模块进行线性时间3D信息混合。在CSS2D模块中，作者首先通过应用Layer Normalization（LN）对特征图进行归一化，然后利用深度卷积和线性层提取特性图，从而获得其特征图。处理后的特征映射被输入到CSS2D处理图2中，以保持其优势，该过程。然后接下来的特征再输入到LN，线性层和跳跃连接，以及最大池和平均池操作模块，以获取全局池化模块（GPM）并获得最终的融合特征。

合作2D选择扫描（CSS2D）。作者利用在文献[37]中提出四方向序列建模方法来提高高阶空间特征的全球空间感知。具体而言，输入特征图和首先被扁平化为维数，其中。这一过程确保了所有CAVs的神经特征在V2X通信范围内的所有神经特征都被压缩成一维序列集。

根据CSS2D模块处理后的增强特征，作者将其表示为

。为了获得所有这些CAVs的交叠特征的全局感知属性，作者利用了最大池化和平均池化生成的空间特征，如图1(b)所示。

特征首先输入Layer Norm和Linear Layer（LLs），然后通过计算沿第一个信道轴的最大池化和平均池化降维到

和

。这两个特征图结合得到最终的融合特征

，其中包含了原始中间特征图的两个全局空间信息。

复杂性分析。 当前的V2X方法主要基于Transformer架构 [2, 5]。在优化空间计算效率方面已经做出了很大的努力，但是忽视了潜在连接代理数量增加的可能性。随着智能代理和V2X感知系统的未来普及，对于V2X系统中合作感知所需代理的数量将不可避免地呈指数增长。

然而，先前的合作Transformer将无法处理更多的CAVs，因为自注意力模型的复杂性为平方，且占内存空间较大。作者需要强调的是，作者提出的CoMamba在空间维度的整个范围上都是可扩展的，包括2D特征维度和代理数量。图3显示了作者的CoMamba与先前的最先进Transformer模型（V2X-ViT [5]和CoBEVT [2]）在FLOPs、延迟和内存占用方面的比较。

作者可以看到，两种Transformer模型在两个指标上均具有平方复杂性，而CoMamba以线性方式享受优势。当代理数量超过20时，单个48GB GPU设备（NVIDIA RTX A6000卡）的内存容量无法再运行其他两种模型。相比之下，CoMamba利用SSM的优势在相对于代理数量的GFLOPs、延迟和GPU内存上实现了线性成本，同时保持了出色的性能（第四部分B）。

picture.image

unset

unsetIV Experimentunset

unset

unset Datasets and experimental setup unset

unset

数据集 。作者在三个多智能体数据集上进行了广泛的实验：OPV2V [1]，V2XSet [5] 和 V2V4Real [19]。OPV2V [1] 和 V2XSet [5] 是由 CARLA 模拟器和 OpenCDA 协同模拟框架 [40] 生成的模拟数据集。其中，OPV2V 数据集被组织成 6,764 帧用于训练，1,981 帧用于验证，和 2,719 帧用于测试。其中，来自 CARLA Towns 街区的 2,170 帧和 Culver City 的 594 帧被用作两个不同的 OPV2V 测试集。V2XSet 是由训练、验证和测试三部分组成，其中分别有 6,694、1,920 和 2,833 帧。V2V4Real [19] 是一个广泛的实世界 V2V 感知数据集，由美国俄亥俄州哥伦布市的两辆 CAV 收集。它包含覆盖交叉口、高速公路匝道和城市道路的 20,000 个 LiDAR 帧。数据集被分成 14,210/2,000/3,986 帧用于训练/验证/测试，分别。

对比方法 。在这里，作者评估了七种最先进的 V2X 融合方法，其中所有方法都采用中介融合作为主要策略：AttFuse [1]， V2VNet [41]， F-Cooper [3]， V2X-ViT [5]， CoBEVT [2]， Where2Comm [24]。

评估指标 。最终 3D 车辆检测精度是作者选择的表现评估。遵循 [1,5] 的设定，作者设置评估范围为米，米，包括所有 CAV 在此空间范围内。作者测量值在 IoU 阈值和。

实验设置 。为了确保公平比较，所有方法都采用 PointPillar [42] 作为点云编码器。作者使用 Adam 优化器 [43]，初始学习率为，每个 10 个 epoch 后，以 0.1 的比例逐渐衰减。遵循 [5] 的设置，所有模型都在两个 NVIDIA RTX A6000 GPU 卡上进行训练。作者还进行了大量的实验，专门针对相机仅有的合作感知任务。作者使用单一尺度、历史免费的 BEVFormer [44] 作为每个智能体的 3D 目标检测器。作者使用 EfficientNet 作为图像后端，并使用 0.4 米的更细网格分辨率以保留详细的空间信息。

unset

unset Quantitative Evaluation unset

unset

表1：结果显示，所有的CP方法都明显地超越了_NO Fusion_，展示了V2X感知系统在三个模拟测试集的优势。在OPV2V默认测试集中，作者提出的CoMamba超越了其他七个高级融合方法，在AP@0.5/0.7的指标上达到了91.9%/83.3%，并在表1中用粗体突出显示。在V2XSet测试集中，V2X-ViT [5]实现了88.2%/71.2%的AP@0.5/0.7，而作者的CoMamba在AP@0.5/0.7的指标上达到了88.3%/72.9%，比V2X-ViT [5]提高了1.7%。这些结果表明，作者提出的CoMamba可以有效地增强CAVs特征之间的互动，在模拟的V2X点云数据上取得最佳性能。

picture.image

表3：图3中对当前流行的V2X感知方法的处理速度进行了比较。在作者的V2X数据集上，CoMamba以每秒26.9帧的速度进行推理，并在0.64 GB的GPU内存中实现实时感知性能。

picture.image

视觉化 。图4展示了V2X-ViT [5]、CoBEVT [2]和作者提出的CoMamba在三个测试集的3D检测可视化示例。可以看出，作者提出的CoMamba在模拟和实际点云场景中都实现了更精确的3D检测结果，证明了其在合作感知任务中的优越性能。作者使用两个点云样本在图5中 visual化了中间特征。

picture.image

消融研究 。表3突出了作者的CSS2D和GPM模块在CoMamba框架中在V2XSet[5]和V2V4Real[19]测试集上的贡献。在V2V4Real测试集中， Baseline 是一个简单的平均融合方法，采用1x1卷积层。将CSS2D和GPM集成到CoMamba中，与 Baseline 相比，在V2V4Real测试集上的AP@0.5/0.7的指标提高了15.4%/11.4%，这说明它们的集成对整体性能起着重要作用。

unset

unsetV Conclusionunset

unset

作者将作者从方法CoMamba和其它SOTA方法V2X-ViT和CoBEVT的融合中间特征进行比较。第一行展示了作者CoMamba的两个点云样本，对应于随后的行的融合中间特征。

很明显，作者的融合中间特征更清晰，目标的局部特征更准确。此外，场景建模的形状 compared to the其他 methods更完整。

unset

unset参考unset

unset

[1].CoMamba: Real-time Cooperative Perception.

点击上方卡片，关注「AI视界引擎」公众号

CoMamba:利用状态空间模型解锁实时协作感知 ！

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset

unset