纽劢提出全新3D车道线检测方法CurveFormer++ | 超越SOTA,解决大曲率车道线检测困境

技术

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

picture.image

在自动驾驶中,使用单目相机进行3D车道线检测对于各种下游规划和控制任务至关重要。最近的卷积神经网络(CNN)和Transformer方法通常在模型设计中采用两阶段方案。第一阶段将前视图像的特征转换成鸟瞰图(BEV)表示。随后,一个子网络处理BEV特征图以生成3D检测结果。然而,这些方法在很大程度上依赖于一个具有挑战性的图像特征变换模块,将透视视图转换为BEV表示。

在作者的工作中,作者提出了CurveFormer++,这是一种基于Transformer的单阶段方法,它不需要图像特征视图变换模块,并直接从透视图像特征推理3D车道线检测结果。具体来说,CurveFormer++将3D检测任务建模为一个曲线传播问题,其中每条车道由一个带有动态有序 Anchor 点集的曲线 Query 表示。通过使用Transformer解码器,模型可以迭代地改进3D车道线检测结果。

在Transformer解码器中引入了曲线交叉注意力模块,以计算图像特征与车道的曲线 Query 之间的相似性。为了处理不同车道长度,作者采用了上下文采样和 Anchor 点限制技术,为曲线 Query 计算更为相关的图像特征。此外,作者还应用了一个时序融合模块,该模块融合了选定的信息丰富的稀疏曲线 Query 及其相应的 Anchor 点集,以利用历史车道信息。

在实验中,作者在两个公开可用的真实世界数据集上评估了作者的3D车道线检测方法。结果显示,与基于CNN和Transformer的方法相比,CurveFormer++提供了卓越的性能。作者还进行了消融研究,以分析作者方法中每个组件的影响。

I Introduction

车道线检测在自动驾驶感知系统中起着至关重要的作用,它可以为静态交通场景提供来自前视摄像机的准确车道信息。通过利用在 ego 车辆坐标系中的车道线检测结果,可以开发出各种重要的驾驶特性,包括基本的先进驾驶辅助系统(ADAS)特性,如车道保持辅助(LKA)、车道偏离警告(LDW),以及更高级的功能,如智能巡航控制(ICC)和领航辅助(NOP)。这些特性有助于提升驾驶辅助和自动化能力,最终提高了自动驾驶车辆的安全性和便利性。

早期对车道线检测的研究主要集中在图像空间,将其视为一个语义分割任务,或者利用线回归技术。例如,基于CNN的分割方法SCNN从输入图像中区分车道线与交通背景,而基于回归的方法Ultra-Fast旨在在图像空间上识别车道线上的关键点。然而,对于下游任务,如规划和控制,更希望在3D空间中以曲线参数的形式表达车道线。因此,需要后处理步骤将2D车道结果从图像空间转换到自主车辆坐标系统,如图1(a)所示。

picture.image

不幸的是,由于缺乏深度信息和准确的实时相机外参,将车道线从图像平面投影到鸟瞰视图(BEV)视角往往会导致误差传播问题。此外,典型的后处理步骤,如聚类和曲线拟合方法往往比较复杂且耗时,这使得车道线检测方法不够健壮,也不太适合于现实的感知系统。

为了解决两阶段方法后期处理中的局限性,已经提出了基于卷积神经网络(CNN)的方法,用于端到端的3D车道线检测任务。这些方法采用逆投影映射(IPM)将图像特征图转换到地面平面。例如,图1(b)所示的3D-LaneNet,它使用基于 Anchor 点的3D车道表示并预测摄像机姿态,使用IPM将2D特征投影出来。

同样,Gen-LaneNet提出了一种虚拟俯视图,将IPM投影的鸟瞰图(BEV)特征与真实世界车道对齐。基于CNN的另一种3D车道线检测方法涉及深度估计及该信息的整合。例如,ONCE执行2D车道语义分割和深度估计,整合这些结果来推导3D车道。然而,准确摄像机姿态估计或深度估计的要求可能会导致丢失车道高度,从而影响这些方法的鲁棒性,特别是在平面地面假设不成立的情况下。

近年来,基于Transformer的方法在计算机视觉和机器人任务中取得了显著进展,展现了卓越的成功。最初由DETR引入到目标检测领域,基于Transformer的方法因其能够消除对后处理步骤的需求,直接从输入图像推理输出而受到欢迎。同样,基于Transformer的3D车道线检测方法采用类似的原理从输入图像计算3D车道结果。这些方法首先通过视图变换构建密集的鸟瞰图(BEV),然后使用解码器层中的交叉注意力从中间BEV特征图计算3D车道结果。

例如,PersFormer构建了一个密集的BEV Query ,并使用Transformer将BEV中的 Query 与图像特征进行交互(如图1(c)所示)。然而,尽管这些方法努力利用Transformer进行3D车道线检测,缺少图像深度或BEV图高度限制了它们通过获取与 Query 精确对应的特征来提高性能。因此,这些方法可能限制垂直信息的表达,特别是在3D车道线检测场景中,近处对应平坦道路,而远处可能涉及上坡或下坡路段。

为了解决上述挑战,作者提出了CurveFormer++,一个增强的基于Transformer的3D车道线检测方法(图1(d))。在CurveFormer++中,车道被表示为稀疏的曲线 Query 及其相应的车道置信度、两个多项式和起始和结束点(图4(a))。受到DAB-DETR 的启发,作者引入一组3D动态 Anchor 点以促进曲线 Query 与图像特征之间的交互。通过使用相机外参将高度信息融入,3D Anchor 点使作者能够精确地与每个 Anchor 点对应的图像特征对齐。此外,动态 Anchor 点集在Transformer解码器序列中迭代优化。

此外,作者在解码层中引入了一个新颖的曲线交叉注意力模块,以研究曲线 Query 和动态 Anchor 点集的效果。与直接从 Query 预测采样偏移的标准Deformable-DETR 不同,作者引入了一个上下文采样单元,从参考特征和 Query 的组合中预测偏移,以指导采样偏移的学习。为了提取具有不同长度的车道的更准确特征,作者在特征采样步骤中采用了动态 Anchor 点范围预测作为限制。此外,还采用了辅助分割分支来增强共享的CNN Backbone 网络。通过这种方式,作者的CurveFormer设计适用于3D车道线检测。

picture.image

历史帧中的时间信息在推进自动驾驶中的3D感知方面发挥着关键作用。最近,基于Transformer的BEV方法将来自多帧图像特征的BEV特征图融合到一个统一的BEV空间中,以提供时间信息。与单帧方法相比,这些方法在目标检测和静态交通场景理解任务中取得了显著性能。对于3D车道线检测任务,STLane3D应用了类似的想法,将来自先前观测的密集BEV特征进行融合,如图2(a)所示。尽管BEV特征融合具有优势,但图像到BEV视角转换所需的密集特征采样对精确的BEV时间对齐提出了挑战。特别是当对齐缩小尺度的BEV特征图时,考虑到交通车道只占据密集BEV空间的一小部分,这尤其具有挑战性。因此,这些困难可能会限制利用历史信息进行3D车道线检测的有效性。

受到融合历史 Query 信息的StreamPETR的启发,在本研究中,作者提出了一种新颖的方法来执行历史结果的时效融合。CurveFormer++包括利用历史稀疏曲线 Query 和动态 Anchor 点集,实现了有效的时间传播。如图2(b)所示,作者的时间融合方法不依赖于密集的BEV特征图。

为了验证所提出算法的性能,作者在OpenLane数据集和ONCE-3DLanes数据集上评估了作者的CurveFormer++。CurveFormer++在ONCE-3DLanes数据集上为3D车道线检测取得了具有竞争力的结果。与近期提出的基于Transformer的3D车道线检测方法相比,它在OpenLane数据集上也展现出了前景的性能。同时,每个组件的有效性也得到了验证。

通常,作者的主要贡献有三个层面:

  1. 作者提出了CurveFormer++,一种基于Transformer的新型三维车道线检测算法。通过将解码器层中的 Query 格式化为动态 Anchor 点集,并应用曲线交叉注意力模块来计算 Query 与图像之间的相似性。此外,在解码器层中采用了动态 Anchor 点范围迭代方案,以实现准确的特征提取。
  2. 作者引入了一种以车道为中心的时间建模范式,其中长期历史信息通过稀疏 Query 和 Anchor 点逐帧传递。为此,CurveFormer++ 可以通过选择性的时间曲线 Query 和历史 Anchor 点,将从图像序列中融合时间信息到3D车道线检测任务中。
  3. 实验结果表明,
  4. 在几个公共数据集上与基于CNN和基于Transformer的最先进方法相比,取得了有希望的性能。

与会议论文的区别。 本工作的初步版本,CurveFormer,已被 ICRA 2023 接收。与会议版本相比的改进如下:

  1. 作者将CurveFormer 进行了扩展,以编码来自图像序列的时间信息。具体来说,作者提出了一个时间曲线交叉注意力模块,使模型能够通过稀疏曲线 Query 和动态 Anchor 点集逐帧传播历史信息。所引入的时间融合方法确保了3D车道预测结果在帧与帧之间的稳定性。
  2. 作者修改了曲线 Anchor 点建模,以融入一个动态控制 Anchor 点数量的 Anchor 点范围限制。由于每条车道的长度并不固定,所提出的范围限制使得 Anchor 点集合能够有效地提取车道图像特征。这种方式确保了增加 Anchor 点数量不会导致包含无效的图像特征。
  3. 作者在新数据集ONCE-3DLanes上进行了实验,并且还在OpenLane数据集上提供了额外的实验来评估CurveFormer++。扩展版的CurveFormer++相较于原始的CurveFormer实现了显著的提升。

II Related Work

2D车道线检测。 早期深度学习车道线检测方法在图像平面上执行,可以分为分割方法和回归方法。分割方法通过分配一组预定义的语义标签来区分图像中的每条车道线。除了标准的分割方法外,还引入了捕捉车道结构先验的方法。SCNN首次引入了在特征图上逐片卷积,因为它更适合于车道线检测。LaneNet通过增加一个聚类嵌入分支,将语义分割升级为实例分割。SAD提出了一种可插入的自注意力模块,以增强特征的学习能力,无需额外的监督。RESA [4]基于车道的强形状先验,在垂直和水平方向上结合空间信息。Bi-Lanenet提出了一种新的双边车道识别网络,使用随机样本共识。MFIALane [6]聚集多尺度特征信息并采用通道注意力机制。

与使用全局分割方法相比,近期研究也将车道线检测制定为局部车道线回归任务。车道回归算法可以分为关键点估计,基于 Anchor 点的回归和行回归。PINet 通过独立的关键点制定车道,并使用实例分割解决聚类问题,而 GANet 将车道表示为与起点相关联的一组关键点。DevNet 结合了基于点估计的偏差感知和语义特征。Point2Lane 选择可变数量的主点,并通过连接它们简单地再现目标车道。Point-LaneNet 和 CurveLane-NAS 将图像划分为非重叠网格,并相对于垂直线 Proposal 回归车道偏移。

Line-CNN 和 LaneATT 在预定义的光线 Proposal 上回归车道,而 CLRNet 将射线 Anchor 的起始点和角度设置为可学习参数,并在特征金字塔层之间进行细化。Ultra-Fast 将车道线检测视为一种行分类方法,显著降低了计算成本。LaneoFormer 通过行列自我关注重新构建传统的 Transformer 架构,以更好地获取车道的形状和语义信息。

除了点回归,使用多项式方程建模车道是另一种已经探讨过的方法。PolyLaneNet 利用全局特征直接在图像平面上预测多项式系数。PRNet 增加了两个辅助分支:初始分类和高度回归,以增强多项式估计。文献 [36] 中的方法应用IPM(逆透视映射)和最小二乘拟合直接在BEV(鸟瞰图)空间预测抛物线方程。LSTR 使用Transformer与图像特征和车道 Query 交互,直接预测3D车道参数。

三维车道线检测。 近年来,采用端到端方法进行车道线检测的趋势日益增强,特别是在三维车道线检测的背景下。大多数基于CNN和Transformer的方法首先构建一个密集的BEV特征图,然后从此中间表示中提取三维车道信息。3D-LaneNet提出了一种双路径架构,使用IPM转置特征并通过垂直 Anchor 定回归检测车道。

为了解决车道方向上的 Anchor 定限制,3D-LaneNet+将BEV特征划分为非重叠单元格,并通过与单元格中心相关的横向偏移距离、角度和高度偏移来重新定义车道。文献[38]中的方法引入了不确定性估计,以增强[17]网络的性能。GenLaneNet首先引入了一个虚拟俯视坐标框架以改善特征对齐,并提出了一种两阶段框架,将车道分割和几何编码解耦。BEVLaneDet提出了一种虚拟相机以确保空间一致性,并通过关键点表示3D车道以适应更复杂的场景。GroupLane首次在BEV中引入了按行分类的方法,该方法支持任意方向的车道,并与实例组内的特征信息进行交互。

由于相机姿态估计是三维车道线检测的关键,CLGo提出了一种两阶段框架,该框架从图像估计相机姿态,并从BEV特征解码车道。PersFormer使用离线相机姿态构建了密集的BEV Query ,并在基于Transformer的框架下统一了2D和3D车道线检测。STLanes3D使用融合的BEV特征预测3D车道,并引入3DLane-IOU损失以耦合横向和高度方向上的误差。

为了减少计算开销,一些方法最近试图在不显式构建BEV特征的情况下检测3D车道。例如,Anchor3DLane,这是一种基于CNN的方法,它直接从基于3D Anchor 定的图像特征回归3D车道。CurveFormer利用Transformer中的稀疏 Query 表示和交叉注意力机制高效地回归3D车道多项式系数。紧随CurveFormer的类似 Query Anchor 定建模,LATR构建了一个车道感知 Query 生成器及动态3D地面位置嵌入,以提取车道信息。

除了将相机作为传感器输入之外,-3DLaneNet 还融合了激光雷达数据,通过将图像特征提升到3D空间,进而在鸟瞰图(BEV)空间中融合多模态特征,以增强单目3D车道线检测。

时间融合。 来自历史帧的时间信息为自动驾驶中的3D感知提供了额外的信息。例如,在3D目标检测任务中,BEVFormer 将时间建模引入到多视图3D目标检测中,它采用时间自注意力来融合历史BEV特征。Sparse4D 通过稀疏采样和按照特定顺序融合多维度特征来迭代优化3D Anchor 点,以获得准确的检测结果。StreamPETR 将之前的和当前的稀疏目标 Query 都输入到Transformer解码器中,以执行空间时间交互。

在3D车道线检测任务中,Anchor3DLane-T 通过将当前帧的3D Anchor 点投影到之前的帧上来采样特征,从而融入时间信息。PETRv2 扩展了3D位置嵌入和多视图图像特征,用于时间建模,为Transformer解码器中的 Query 学习提供信息丰富的指导。STLane3D 提出了一种在BEV空间下的新颖多帧预对齐层,它将来自不同帧的特征统一投影到相同的ROI区域。

III Method

Overview

图3(a)和(b)分别展示了作者CurveFormer++在单帧3D车道线检测框架的概览以及所提出的时间融合块。

picture.image

在图3(a)中,CurveFormer++由两个主要部分组成:一个共享的CNN Backbone 网络,它接收单个前视图图像作为输入并输出多尺度特征图;以及一个曲线Transformer解码器,通过曲线交叉关注传播曲线 Query ,并迭代地细化 Anchor 点集。

最终,应用一个预测头输出3D车道参数。第个输出可以表示为,其中是前景置信度,和分别是Y方向上的起始点和结束点。3D车道的两个多项式分别由和表示,阶数为,分别用于在X-O-Y和Y-O-Z平面上建模交通车道。

如图3.(b)所示,作者提出的时间传播融合块采用了稀疏曲线 Query 和动态 Anchor 点集。作者只将置信度最高的曲线 Query 和 Anchor 点传播到下一帧。

Shared CNN Backbone

Backbone 网络接收输入图像并输出多尺度特征图。在训练阶段,作者添加了一个辅助分割分支以增强共享的卷积神经网络 Backbone 。

Sparse Curve Query with Dynamic Anchor Point Set

DAB-DETR 提出了一种新颖的方法,其中 Query 被建模为 Anchor 框,由4D坐标(x, y, w, h)表示。这种表示使得交叉注意力模块能够利用每个 Anchor 框的位置和大小信息。受到DAB-DETR的启发,作者将类似的方法应用于基于Transformer的3D车道线检测,并使用动态 Anchor 点集。

picture.image

如图4(a)所示,这些点在一系列固定的位置上进行采样。通常,作者将表示为第个 Anchor 曲线。其对应的内容部分和位置部分分别是和。位置 Query 通过以下方式计算:

其中位置编码(PE)被用来使用浮点数生成嵌入,而多层感知机(MLP)的参数在所有层之间共享。

通过将曲线 Query 表示为一个有序的 Anchor 点集 ,作者可以在Transformer解码器中迭代地细化曲线 Query 。具体来说,每个Transformer解码器层通过共享参数的线性层估计相对位置 。这种方式使得曲线 Query 表示适用于3D车道线检测,并通过采用逐层细化方案来增强学习收敛性。图4(b)展示了在图像平面中的迭代细化过程。

Curve Transformer Decoder

作者的曲线Transformer解码器主要包括三个主要部分:一个多头自注意力模块,一个上下文采样模块以及一个曲线交叉注意力模块。作者在自注意力模块中应用了可变形注意力,该注意力集中于参考点周围的一组有限的关键采样点,而不管特征图的空间大小。

上下文采样模块。 在可变形DETR 方法中,使用一个可学习的线性层来估计与 Query 相关的参考点的采样位置偏移,这些偏移与图像特征无关。与这种方法相比,作者引入了一个上下文采样模块,通过结合更多的相对图像特征来预测采样偏移。图5展示了标准采样偏移模块(a)与作者的上下文采样模块(b)之间的区别。

picture.image

首先,一个动态 Anchor 点集 通过摄像机参数投影到图像视图中。作者对这些投影点 应用双线性插值,从多尺度特征图 中提取特征。最终的特性 是通过以下方式计算的:

在公式中, 用来确定一个投影点 是否位于第 个特征图的外部。而 是一个很小的数,用来避免除以零的情况。

随后,作者采用一个可训练的线性层来预测 个采样偏移量。通常,对于一个具有 Anchor 点集 的曲线 Query ,上下文采样模块可以表示为:

这里的 且 。

Anchor 点范围限制。 在实际场景中,车道的长度可能会有所不同,这使得依靠稀疏的固定- Anchor 点集合来准确表示车道变得不切实际。此外,实际的车道长度也不太可能精确地与采样长度相匹配,这导致 Anchor 点缺乏足够的 GT 值监督。为了应对这一挑战,作者提出了一个 Anchor 点范围限制模块,该模块预测每个 Anchor 点集合的起始和结束位置。

与在III-C中估计每个 Anchor 点的相对位置类似,每个解码层也使用共享参数的线性层预测每个 Anchor 点集合 的 Anchor 点范围 。此外,与之前的方法不同,作者在 轴上采用更密集的采样来构建使用 Anchor 点范围限制的动态 Anchor 点集合。为此,作者的模型允许动态调整 Anchor 点集合,以增强模型在准确表示不同长度车道时的鲁棒性和适应性。

曲线交叉注意力。 作者将Deformable DETR中的可变形注意力模块整合到作者的曲线交叉注意力模块中。在数学上,考虑位于内的 Query 元素及其对应的 Anchor 点集,作者的曲线交叉注意力的计算可以表示为:

在表示注意力头的索引、特征 Level 以及采样点。 和 分别指-th特征 Level 中-th注意力头的-th采样点的采样偏移量和注意力权重。标量注意力权重被归一化到总和为1。函数负责将归一化的坐标重新缩放以与输入特征图对齐。

Propagation Fusion Module.

在自动驾驶中,当前帧观察到的静态车道实例往往会在后续帧中持续存在。这一观察激发作者将历史信息传播到下一帧。基于CurveFormer++的独特设计,作者提出了一个简单直接的时间融合模块,该模块融合了曲线 Query 及其相应的 Anchor 点集。

如图6所示,作者比较了四种基于CurveFormer++构建的不同时间传播融合模块,以验证融合历史信息所带来的改进。

picture.image

利用历史 Anchor 点集。 如图6(a)所示,最简单的方法是使用自运动信息将当前帧的初始 Anchor 点集替换为来自历史帧的 Anchor 点集。通常,给定一个在 时刻的地面上3D点 ,作者可以将其变换到第 帧的地面坐标:

其中, 表示从第 帧到第 帧的变换矩阵。

利用历史曲线 Query 。 与BEVFormer不同,后者通过使用自注意力将时态建模融入到多视图3D目标检测中,以融合历史鸟瞰图(BEV) Query ,作者提出了一个替代框架,使用稀疏 Query 作为时态传播的隐藏状态。具体来说,作者将历史信息从稀疏曲线 Query 传递到当前帧。这是通过使用历史帧曲线 Query 同时作为_键_和_值_,并在当前帧的初始曲线 Query 上应用时态自注意力来实现的,如图6(b)所示。

利用历史Top-K曲线 Query 。 在基于Transformer的检测模型中, Query 的数量通常远超实际目标数量,导致一些 Query 无法有效地学习目标的表示。遵循[31, 47]的方法,作者只将置信度最高的曲线 Query 传播到下一帧。如图6(c)所示,作者将历史的Top-k曲线 Query 直接与当前随机初始化的 Query 连接起来,并将曲线 Query 作为temporal self-attention中的 Query 、keys和values进行融合。

利用历史Top-K曲线 Query 和 Anchor 点集。 为了充分利用空间和上下文先验,作者不仅将传播扩展到Top-K曲线 Query ,还将在当前帧中转移相应的 Anchor 点集。如图6(d)所示,在传播历史Top-K曲线 Query 时,作者使用方程(6)将Top-K Anchor 点集转换到当前的坐标系统中,然后将它们与初始 Anchor 点集连接起来。通过包含历史曲线 Query 及其相关的 Anchor 点,模型能够捕捉并利用车道之间的时间依赖性和空间关系,从而提高了3D车道线检测的性能。

Curve Training Supervision

本节概述了作者的模型的训练监督。除了增强的 Anchor 点集 之外,作者模型的预测头还生成 个3D车道的曲线参数,其中 超过训练数据集中标记车道的最大数量。

类似于[42],首先通过解决二分匹配问题将预测的曲线 与真实车道 关联起来,其中 (0:背景,1:车道)。作者使用预测的曲线参数采样一组3D点 来计算匹配和训练损失。车道边界(起始和结束点)表示为 。

令 表示预测的3D车道线集合, 表示真实值的集合。

注意, 通过填充非车道线以使真实车道线数量达到 。匹配问题被表述为一个成本最小化问题,通过搜索一个最优的单射函数 来实现,其中 是指分配给第 个真实3D车道线 的3D车道线预测 的索引:

匹配成本计算如下:

其中 , 和 是调整分类、多项式拟合和边界回归损失效果的系数,而 是一个指示函数。

通过匈牙利算法解方程7之后,最终的训练损失可以表示为:

在哪里, 是曲线预测损失, 是对每条曲线精细化 Anchor 点集的深度监督,而 是一个辅助分割损失。曲线预测损失定义为:

其中 , 和 与方程8中的系数相同,以及对精细化 Anchor 点集的深度监督,包括车道线的 Anchor 点位置和范围:

IV Experiments

Dataset

OpenLane 数据集。 OpenLane 数据集是第一个真实世界的3D车道数据集,基于 Waymo 开放数据集,以每秒10帧的频率包含超过20万帧。总共,它拥有一个带有157K张图片的训练集以及一个含有39K张图片的验证集。该数据集提供了相机内参和与 Waymo 开放数据集相同数据格式的相机外参。

ONCE_3DLanes 数据集。 ONCE_3DLanes 数据集是从最近的大规模自动驾驶数据集 ONCE 构建的一个真实世界的3D车道数据集。该数据集包含211K张具有高质量3D车道点标注的图像,涵盖多种天气和地区条件。

Experiment Settings

实现细节。 作者使用EfficientNet 作为 Backbone 网络,它提供了4个尺度的特征图。输入图像被调整为 的大小。3D空间范围沿 x、y 和 z 轴分别设置为 。

对于曲线表示,作者在该范围内均匀地采样固定 个 y 位置。作者将系数设置为 ,,,,以及 。所有实验都是在已知摄像机姿态和两个数据集提供的内在参数的情况下进行的。作者的网络使用 Adam 优化器,基础学习率为 ,权重衰减为 。所有模型都是从零开始使用4个 NVIDIA RTX 3090 GPU 训练50个周期。OpenLane 数据集的批处理大小设置为2,而 ONCE-3DLanes 数据集设置为8。

Evaluation Metrics

现有评估指标。 对于OpenLane数据集,作者遵循由Gen-LaneNet设计的评估指标。当预测和GT都覆盖了一个-位置时,计算点对欧几里得距离。对于每个预测的车道,当其覆盖的-位置中有的点对欧几里得距离小于允许的最大距离(1.5米)时,作者认为它是匹配的。作者报告平均精度(AP)、F分数以及错误(近距离和远距离),以研究作者模型的性能。

ONCE-3DLanes数据集采用两阶段评估指标来检测车道。最初,匹配度是基于俯视图平面上的交并比(IoU)确定的。如果匹配对的IoU超过某个阈值,它们将进一步使用单向 Chamfer 距离(CD)作为匹配误差进行评估。在作者的评估中,作者报告了在ONCE-3DLanes数据集上的F1分数、精确度、召回率和CD误差的结果。

近年来,在利用各种时间信息方面,4D目标检测已取得显著进展。历史信息的融合已被证明可以增强模型在遮挡场景中的性能。然而,在车道线检测任务中应用时间模块的好处可能并不明显。这是因为检测远距离车道是一项重大挑战,而历史信息只能覆盖当前帧中的近区域。因此,作者提出了一种评估视频中预测结果稳定性的方法。具体来说,作者计算视频中每一帧的预测结果与GT之间的轴误差,然后计算预测差异的标准差。对于包含帧的视频段的稳定性指标可以如下推导:

最终,将 的平均值报告为在测试数据上的统计稳定性性能。

Main Results

表1列出了在ONCE-3DLanes数据集和OpenLane数据集上F1分数的实验结果。类似于CurveFormer的 Query Anchor 建模方法,LATR通过利用语义结果作为 Transformer Query (Lane-Embed)的输入和动态3D地面位置嵌入(Ground-Embed)来构建一个关注车道的 Query 生成器,以增强车道信息。LATR在OpenLane和ONCE-3DLanes数据集上都取得了最先进的结果。

在OpenLane子集数据集(约300个视频片段)中,当不使用Lane-Embed和Ground-Embed组件时,CurveFormer++比LATR取得了更优的结果。如[44]中所声称的,主要的改进是通过Lane-Embed和Ground-Embed实现的。由于CurveFormer++没有使用这两个组件,作者在后续表格中主要比较了其他未包含这些组件的方法。

picture.image

在ONCE-3DLanes数据集上的结果。 表2展示了在ONCE-3DLanes数据集上的实验结果。基于Transformer的方法优于基于CNN的方法。例如,CurveFormer++相比于3D-LaneNet和Gen-LaneNet显示出显著的改进。它还在F-Score上比Anchor3DLane高出2.78%,在精确度上高出1.72%。

picture.image

此外,CurveFormer++超越了基于Transformer的方法,其F-Score比PersFormer高出5.15%,比STLane3D高出3.17%。值得注意的是,CurveFormer++达到了与STLane3D-T相当的性能,后者还额外结合了时间特征信息。作者的时间模型,CurveFormer++-T,与单帧设置相比,实现了更高的F-Score(+0.63)和召回率(+2.1)。

在OpenLane数据集上的结果。 对于OpenLane数据集,作者在整个验证集以及六个不同场景集上评估了CurveFormer++和CurveFormer++-T。在表3中,CurveFormer++与可能限制垂直信息表达的密集BEV方法相比,展示了显著的改进。通常情况下,在整个验证集上,它比PersFormer 在F-Score上高出2.2%。

picture.image

同样,作者对CurveFormer的修改使得在验证集上的F-Score提高了2.2%,相比其原始版本。在各种场景中,包括上坡、下坡、曲线以及夜间条件,作者的基于Transformer的方法相较于基于CNN的方法Anchor3DLane(同样没有采用密集的鸟瞰图模块)提供了更准确的结果。

picture.image

表4显示CurveFormer++-T在x和z误差上的预测更为精确,表明融合时间信息可以提高近区域检测结果的准确性。此外,作者使用第IV-C节提出的稳定性评估指标,对PersFormer,CurveFormer++和CurveFormer++-T在200个测试视频片段上进行评估。在96%的视频片段中,CurveFormer++-T的标准差低于PersFormer,并且在58%的视频片段中,在标准差降低方面优于CurveFormer++。相应的结果展示在图7中。

picture.image

Ablation Study

在本节中,作者通过在OpenLane数据集的一个子集(约300个视频片段)上进行的消融研究,分析所提出的关键组件的效果。

V-E1 Single-frame Experiments

作者进行了验证,以评估CurveFormer++的组件和设置的有效性。

动态 Anchor 点集设计。 在作者的Curve Transformer解码器中,每个3D车道 Query 被表示为一个动态 Anchor 点集。动态 Anchor 点提取更准确特征的效率对每个解码器层上 Query 的逐步优化具有至关重要的作用。

picture.image

为了研究作者动态 Anchor 点集的有效性,作者进行了实验,变化 Anchor 点的数量以及是否对 Anchor 点应用范围限制。实验结果列于表5中。正如预期的那样,简单地将 Anchor 点数量从10增加到40并不能提供性能提升。这可以归因于车道长度的变化,如果没有范围限制, Anchor 点可能会提取不相关的特征。

总体而言,当同时使用40个带有范围限制的 Anchor 点时,性能在F-Score上显示出显著提高2.7%。然而,使用超过40个 Anchor 点并没有提供任何额外的改进。这表明增加 Anchor 点数量可能会在特征提取中引入冗余,可能导致从图像中采样重复的车道特征。

网络结构与设置。 为了简化模型并降低计算成本,作者用仅解码器的网络替换了文献[32]中描述的原始编码器-解码器架构。两种结构的性能展示在表6中。

picture.image

结果表明,使用仅解码器结构对性能的影响最小(0.1% F-Score),同时减少了13.8%的计算开销。此外,作者对CurveFormer++在不同批处理大小和输入图像分辨率下的表现进行了实验。在所实验的设置中,CurveFormer++在OpenLane数据集子集上,以720x960图像分辨率的条件下,获得了最高的F-Score(54.3%)和11.4 FPS。

V-B2 Multi-frame Experiments

作者现在分析CurveFormer++-T的几个设计选择。

时间传播融合模块。 在本节中,作者探索不同的时间融合模块,在相同设置下用单帧模型传播历史信息。实验中使用了,结果总结在表7中。

picture.image

结果表明,使用历史 Anchor 点(图6(a))和历史曲线 Query (图6(b))可以得到类似的结果,并且通过融合时间信息提高了性能。历史 Query 和 Anchor 点都被证明能有效地增强3D车道线检测结果。同时,曲线 Query 比单独使用 Anchor 点取得稍微好一点的结果,这表明潜在的曲线 Query 可能包含除了显式点表示之外的额外信息。

在使用历史曲线 Query 时,选择具有最高置信度分数的前K个曲线 Query (图6(c))可以进一步提升F-Score 1.1%。这证明了仅使用信息丰富的 Query 作为历史信息来编码时间信息的重要性。最后,利用前K个精炼的稀疏曲线 Query 及其相应的动态 Anchor 点集(图6(d))相比于单帧模型取得了实质性改进,F-Score从51.8%提高到54.2%。这一改进验证了作者在时间传播模块设计中有效捕捉和利用时间信息的优越性。

时间融合参数。 表8展示了不同时间融合模块参数的结果。为了满足车道线检测任务的实时要求,作者将实验限制在最大历史长度为3。使用前两帧在不同帧长度上可以获得更好的结果。当使用超过两帧时性能的退化可能是由于时间序列中存在较大的自我运动差异。是先前帧数量的最佳选择。这一选择与大多数实际场景中通常有六条车道的事实相符合。从历史帧中维持超过六条车道可能会在模型传播过程中引入假阳性。通过将车道数量限制为六条,作者确保了更准确和可靠的车道线检测结果。

picture.image

实验结果表明,在考虑2个历史帧的同时,结合6个得分最高的曲线 Query 及其相应的 Anchor 点集,可以获得最佳的绩效,F-Score达到了55.4%。

V Conclusions

在本文中,作者介绍了CurveFormer++,一种基于Transformer的3D车道线检测方法。它使用动态 Anchor 点集来构建 Query ,并在Transformer解码器中逐层细化。此外,为了关注更多相关的图像特征,作者提出了曲线交叉注意力模块和上下文采样模块来计算关键点与图像的相似性。作者还融入了一种 Anchor 点范围限制方法,以增强模型在准确表示不同长度的车道时的鲁棒性和适应性。

此外,CurveFormer++应用了一种新颖的时间融合,利用稀疏曲线 Query 和动态 Anchor 点集来融合历史结果。在实验中,作者展示了CurveFormer++与基于CNN和基于Transformer的方法相比,取得了令人鼓舞的结果。

参考

[1].CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention.

扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息

picture.image

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论