美团提出LiDAR-PTQ | CenterPoint量化后几乎无损,速度提升2倍

技术

以下文章转载自 【智驾实验室】公众号平台,如有侵权,请联系删除文章

picture.image

由于计算能力和内存的高度限制,将基于3D激光雷达的检测器部署在自动驾驶车辆和机器人上装备的边缘设备上提出了一个至关重要的挑战。作为一种方便且直接的模型压缩方法,后训练量化(PTQ)已经被广泛应用于2D视觉任务中。然而,将其直接应用于基于3D激光雷达的任务不可避免地会导致性能下降。作为补救措施,作者提出了一种有效的PTQ方法,称为LiDAR-PTQ,这是特别为3D激光雷达检测(包括基于SPConv和无需SPConv)而设计的。

LiDAR-PTQ具有三个主要组成部分:

  1. 基于稀疏性的校准方法,以确定量化参数的初始化;

  2. 一种任务引导的全局正向损失(TGPL),以减少量化前后最终预测之间的差异;

  3. 自适应四舍五入到最近的操作,以最小化逐层重建误差。

广泛的实验证明,当LiDAR-PTQ应用于CenterPoint(包括基于Pillar和基于Voxel的)时,可以实现最先进的量化性能。据作者所知,在基于激光雷达的3D检测任务中,首次实现了PTQ INT8模型的准确性与FP32模型几乎相同,同时享有3倍的推理加速。此外,LiDAR-PTQ具有成本效益,比量化感知训练方法快30倍。

代码:https://github.com/StiphyJay/LiDAR-PTQ

1 Introduction

基于LiDAR的3D检测在自动驾驶和机器人领域有着广泛的应用。快速准确检测周围环境中的物体非常重要,这既对性能提出了高要求,也对延迟有严格的标准。目前,主流的基于网格的3D检测器将不规则的点云转换为有序的网格( Voxel /Pillar),并取得了顶尖的性能,但在将基于3D LiDAR的模型部署到资源受限的边缘设备时,面临着一个重大挑战。因此,提高基于网格的3D感知方法的效率(例如,减少内存和计算成本)至关重要。

量化是一种通过减少激活和权重表示所需的位数来实现高效计算的有效模型压缩方法。与需要访问所有标注的训练数据以及大量计算资源的量化感知训练(QAT)方法相比,训练后量化(PTQ)更适合快速有效的工业应用。这是因为PTQ只需要少量未标注样本作为校准集。此外,PTQ不需要使用所有可用的标注数据重新训练网络,从而使得量化过程更短。尽管已经提出了几种先进的PTQ方法用于基于RGB的检测任务,但由于图像和点云之间的差异,直接将其应用于基于3D激光雷达的任务不可避免地会导致性能下降。

picture.image

如图1所示,激光雷达点云的固有稀疏性和不规则分布为基于3D激光雷达的检测器的量化提出了新的挑战:

  1. 点云的稀疏性。 与密集的RGB图像不同,非零像素在整个场景中只占很小的部分(在Waymo数据集中约为10%)。例如,大量的零像素导致与基于密集RGB的任务在激活分布上存在显著差异。
  2. 较大的算术范围。 与8位(0-255)RGB图像相比,在Waymo数据集中, Voxel 化后的点坐标位于一个1504 1504 40( Voxel 大小=0.1m)的3D空间中,这使得它更容易受到量化(如剪辑误差)的影响。
  3. 前景实例与大量冗余背景区域之间的不平衡。 例如,基于CenterPoint-Voxel,一个具有的车辆在输入的鸟瞰图(BEV)特征图上仅占用像素。这种小的前景实例和3D检测中的大感知范围要求量化模型具有较少的信息损失以保持检测性能。因此,这些挑战阻碍了将为2D视觉任务开发的量化方法直接应用于3D点云任务。

为了应对上述挑战,作者提出了一种有效的PTQ方法,称为LiDAR-PTQ,这是专为基于3D LiDAR的目标检测任务精心设计的。

  • 首先,引入了一种基于稀疏性的校准方法,以确定参数空间上量化参数的初始化。
  • 其次,提出了任务引导的全局正向损失(TGPL),以找到模型空间中适合最终输出性能的量化参数。
  • 第三,使用自适应舍入值来减轻量化模型与全精度模型之间的性能差距。所提出的LiDAR-PTQ框架是一种通用且有效的量化方法,适用于基于SPConv和不基于SPConv的3D检测模型。

在各类数据集上的大量实验评估表明,当LiDAR-PTQ应用于CenterPoint(基于Pillar和基于Voxel)时,能够达到最先进的量化性能(图2)。据作者所知,在基于LiDAR的3D检测任务中,首次实现了PTQ INT8模型的准确度几乎与FP32模型相同,同时享有3倍的推理加速。此外,LiDAR-PTQ具有成本效益,比QAT方法快30倍。作者将向社区发布作者的代码。

picture.image

在这里,作者总结主要贡献如下:

  • 揭示基于3D LiDAR的检测模型量化过程中性能崩溃的根本原因。此外,作者提出了一种基于稀疏性的校准方法来初始化量化参数。
  • TGPL:一种任务引导的全局正损失(Task-guided Global Positive Loss,TGPL)函数,用于最小化模型空间上的输出差异,有助于提高量化性能。
  • LiDAR-PTQ:一种通用且有效的量化方法,适用于基于SPConv和不含SPConv的3D检测模型。广泛的实验表明,LiDAR-PTQ在CenterPoint(基于Pillar和基于Voxel)上能够达到最先进的量化性能。

2 Preliminaries

基于LiDAR的3D目标检测。 给定3D空间中的点集,包含个点,定义为,其中分别表示沿X、Y、Z轴的每个点的坐标值,是激光反射强度。

给定3D场景中的一组目标,其中是目标的总数,是场景中的第个目标,是目标的中心,是目标的大小,是目标的朝向角,是目标的类别。基于LiDAR的3D目标检测的任务是从点云中准确地检测3D边界框。

张量的量化。 量化操作定义为将浮点(FP)值 (权重或激活值)映射到一个整数值 ,根据以下方程式:

其中 是四舍五入到最近点的运算符,这会产生舍入误差 。函数 将超出整数范围 的值裁剪掉,产生裁剪误差 。 表示量化后的整数值。 是零点。 表示量化缩放因子,它反映了FP值与整数之间的比例关系。 是由位宽 确定的量化范围。

在这里,作者采用均匀有符号对称量化,因为它在TensorRT中应用最广泛,并且带来了显著的加速效果。因此, 和 。非均匀量化在硬件上部署具有挑战性,所以在这项工作中不考虑它。通常,权重可以在不需要校准数据的情况下进行量化。

因此,权重的量化通常通过网格搜索或具有闭式解的解析近似来解决,以最小化PTQ中的均方误差 (MSE)。然而,激活量化取决于输入,因此通常需要少量校准数据批次来估计动态范围的收敛。为了近似实际值输入 ,作者执行去量化步骤:

其中 是去量化的浮点数(FP)值,在量化过程中引入了误差。

量化范围。 如果想要减少剪切误差 ,可以增加量化尺度因子 来扩展量化范围。然而,增加 会导致舍入误差 增加,因为 位于范围 内。因此,关键问题是如何选择量化范围 以实现剪切误差和舍入误差之间的正确权衡。

具体来说,当设置固定的位宽 时,量化尺度因子 由量化范围决定:

有两种常见的量化范围设置方法。

  1. 最大-最小校准:

可以定义量化范围为:

为了覆盖浮点值的整个动态范围。这导致没有剪切误差。然而,这种方法对异常值敏感,因为强烈的异常值可能会导致过度的舍入误差。

  1. 熵校准:

TensorRT基于KL散度最小化 与 之间的信息损失,以确定量化范围:

在这里, 表示KL散度函数。熵校准会将高于某一阈值的激活值饱和,以移除异常值。

网络量化: 对于一个具有 个层的浮点模型,作者主要关注卷积层或线性层的量化,这主要涉及权重和激活的处理。

对于给定的层 ,作者最初对其权重和输入张量执行量化操作,如方程式 14 和 2 所示,得到 和 。因此,这一层的量化输出可以表述如下。

其中,() 表示卷积操作符,(BN()) 是批量归一化过程,而 (f()) 是激活函数。量化工作通常考虑到卷积、批量归一化(BN)以及激活层。

3 Methodology

在这里,作者首先在Waymo 数据集上对CenterPoint-Pillar模型进行了PTQ消融研究,使用了两种不同的校准器(熵和最大最小值)。

picture.image

如表1所示,当使用INT8量化时,两种校准方法的性能下降都受到了严重影响,尤其是熵校准器,其准确度显著下降了**-38.67 mAPH/L2**。然而,直接使用最大最小值校准器得到了较好的结果,尽管还不尽如人意。这与在2D模型量化中的经验完全相反,在2D模型量化中,熵校准有效地减轻了异常值的影响,因此取得了更优的结果。Stacker等人(2021)也进行了类似的观察讨论。这种异常促使作者提出了一个通用且有效的针对基于3D LiDAR的检测器的PTQ方法。

在Waymo数据集中,官方评估工具在两个难度 Level 上评估了这些方法:对于包含5个以上LiDAR点的框的LEVEL_1,以及对于至少有一个LiDAR点的框的LEVEL_2。这里作者报告的是社区广泛采用的指标——平均精度均值/LEVEL_2(mAPH/L2)。

LiDAR-PTQ Framework

在本文中,作者提出了一种针对点云模型的后期训练量化框架,称为LiDAR-PTQ。LiDAR-PTQ能够使量化模型几乎达到与FP模式相同的性能,且无需额外的巨大计算成本和访问标注的训练数据。

LiDAR-PTQ主要包含三个组成部分。

  1. 基于稀疏性的校准 :采用配备轻量级网格搜索的最大最小校准器来适当地初始化权重和激活的量化参数。
  2. 任务引导的全局正损失(TGPL) :这个组件采用了一种特别设计的、关注前景的全局监督,以进一步优化激活的量化参数。
  3. 自适应四舍五入到最近值 :此模块旨在通过最小化逐层重建误差,减轻权重四舍五入误差 。

总之,LiDAR-PTQ首先通过在参数空间中搜索来初始化权重和激活的量化参数,然后通过在模型空间中的有监督优化过程进一步细化它们。因此,LiDAR-PTQ能够为某些激光雷达检测器实现几乎与浮点对应物相匹配的量化精度。

作者将在算法2中制定LiDAR-PTQ算法,用于全精度3D检测器。接下来,将为这三个部分提供详细解释。

picture.image

Sparsity-based Calibration

在这里,为了探究Max-min校准器和熵校准器之间巨大性能差距(表1中的31.29 mAPH/L2)的根本原因,作者统计分析了基于RGB的模型和基于LiDAR的目标检测模型的特征图的数值分布,并在图3中展示了主要的多样性。影响量化性能的主要因素可以概括为两点:

picture.image

输入 :预训练的FP模型,含层;校准数据集,迭代次数。

输出 :网络中激活和权重的量化参数,即权重比例 ,权重零点 ,激活比例 ,激活零点 以及权重的自适应舍入值 。

1. 巨大的稀疏性导致不恰当的量化范围。 如图1和图3所示,点云的稀疏性使得整个鸟瞰图(BEV)特征图存在大量零像素。因此,熵校准器将会统计包含零像素()的特征值以最小化信息损失,这导致了量化范围外的值被截断。然而,这些被截断的值包含了丰富的几何表示,这些表示本可以用于最终的目标检测。

2. 点云特征对量化范围更敏感。 点云通过收集环境中的激光测量信号,明确地测量空间距离和物体的形状。在 Voxel 化过程中,原始点云坐标(即自主车辆坐标系中的)被编码为 Voxel 特征的一部分,这些特征保留了基本的几何信息。特别是,输入点云坐标的算术范围随着检测距离的增加而增加。因此, Voxel 特征中的算术范围与检测距离密切相关。换句话说,点云的算术范围与几何形状有关。

此外,作者还针对不同的距离范围在waymo验证集上进行了消融研究。正如表2所示,作者发现随着距离增加,准确度的下降会加剧。

picture.image

对于熵校准器,在长距离指标(50米至无限远)上的量化性能受到了严重损害(5.90 mAPH/L2,最高下降84.5%),而在短距离指标(0-30米)上的准确度保持得较好(60.03 mAPH/L2,下降32.4%)。

这是因为熵校准器提供了一个不适当的量化范围,导致显著的剪辑误差。因此,大量的具有几何信息的值被截断,进而导致模型准确度大幅度下降。相比之下,对于涵盖FP激活整个动态范围的Max-min校准器,具有几何信息的值得到了有效的保留。因此,它在不同范围的指标上表现良好,特别是在短距离指标(0-30米)上,仅比FP模型下降了1.63 mAPH/L2(1.8%)。

基于上述发现,作者得出结论:常用的针对RGB图像的校准方法并不最优,而最大最小(Max-min)方法更适合于3D点云。因此,作者采用最大最小校准器来处理权重和激活以减轻高稀疏性的影响。

此外,为了获得更细粒度的缩放因子,并避免异常值对舍入误差 的影响,作者融入了一种轻量级网格搜索来进一步优化量化参数。

具体来说,对于权重或激活张量,首先根据公式4获取和,然后按照公式15计算初始量化参数。接着将区间线性划分为个候选Bin,表示为。,和用于控制搜索范围和粒度。最后,在中搜索,找到使量化误差最小的最优。

是Frobenius范数(均方误差损失)。

Task-Guided Global Positive Loss

上述校准初始化方法可以有效提高激光雷达检测器的量化精度,但与浮点模型相比,仍然存在较大的差距。

经验和理论证据表明,仅仅在参数空间中最小化量化误差并不能保证在模型空间中的最终任务损失等效最小化。因此,设计一个专门针对基于3D LiDAR的检测任务的全球监督信号变得至关重要。这种监督将使得进一步微调量化参数以实现更高的量化精度。必须强调的是,这一微调过程不涉及标记的训练数据。只需要最小化浮点输出与量化模型输出之间的距离,如式8所示。

在本文中,作者提出了任务引导的全球阳性损失(TGPL)函数,以限制量化模型与FP模型之间的输出差异。作者的TGPL函数具有两个特点,有助于提高量化方法的表现:

  1. 模型空间上的最优量化参数。 TGPL 函数比较的是FP模型和量化模型之间最终输出的差异,而不是每一层输出的差异。
  2. 任务引导。 如第一节和图1所述,在基于激光雷达的检测任务中,小的信息性前景实例与大的冗余背景区域之间存在极端的不平衡。对于稀疏的3D场景,模仿密集2D图像上的所有特征像素并不是最佳选择。TGPL函数被设计用来利用FP模型分类响应中的线索,以指导量化模型专注于与最终任务相关的关键区域(即阳性样本位置)。

具体来说,通过一个阈值过滤掉FP模型中所有的预测框,然后选择前个框。接着执行NMS以获得最终的预测作为正框(伪标签)。特别地,受到CenterPoint中的高斯标签分配启发,作者以中心峰值为Soft方式定义正位置的高斯分布。最后,对于分类分支,使用Focal Loss作为 Heatmap 损失。对于3D框回归,利用L1损失来监督它们的定位偏移、大小和方向。

整体TGPL损失由以下两部分组成:

Adaptive Rounding-to-Nearest

通过网格搜索初始化和TGPL函数约束,量化模型的性能得到了大幅提升,但在与FP模型实现可比较的准确度方面仍存在差距。最近,一些方法优化了一个变量,称为舍入值,以确定在量化过程中权重值是向上还是向下舍入。这样,权重量化中的方程式14可以表述如下:

在这里, 是用于决定每个权重值向上或向下取整的优化变量,即, 的取值范围是从0到1。受到AdaRound的启发,作者添加了一个局部重建项以帮助学习取整值 。局部重建项如下:

其中 是弗罗贝尼乌斯范数,而 是通过方程式10和方程式2计算得到的软量化权重。此操作使作者能够根据校准数据调整取整值以最小化信息损失,确保量化过程保留重要的细节。通过调整取整值,可以使LiDAR-PTQ的性能更优。

最后,LiDAR-PTQ的总体损失由以下两部分组成:

4 Experiments

数据集。 为了评估作者提出的Lidar-PTQ的有效性,作者在大规模自动驾驶数据集上进行主要实验,即Waymo开放数据集(WOD)。

实现细节。 在WOD数据集中,作者从训练集中随机抽取256帧点云数据作为校准数据。对于WOD,校准集的比例为 0.16% (256/158,081)。作者将网络的第一个和最后一个层次保持全精度。激活量化缩放因子的学习率为5e-5,权重量化取整的学习率为Se-3。在TGPL损失中,作者将 设为0.1,K设为500。

Performance Comparison on Waymo Dataset

由于没有专门针对基于3D LiDAR检测任务设计的PTQ方法,作者重新实现了几个在基于2D RGB视觉任务中先进的PTQ方法,分别是BRECQ、QDROP和PD-Quant。

picture.image

具体来说,选择CenterPoint作为全精度模型,并在WOD数据集上报告量化后的性能。因为其中包括基于SPConv和不含SPConv的模型,这可以有效地验证LiDAR-PTQ的泛化能力。如表3所示,LiDAR-PTQ在CenterPoint-Pillar模型上以3.87和2.00的大幅度优于BRECQ和QDrop,在CenterPoint-Voxel模型上以4.45和2.90的优势取得最先进性能。

对于PD-Quant,这是一种专为基于RGB的视觉任务设计的最先进的PTQ方法,但在基于LiDAR的任务上性能不佳。具体来说,为了解决校准集上的过拟合问题,PD-Quant根据FP模型的BN层调整激活。然而,对于对算术范围更敏感的点云来说,这种设计是无效且耗时的,并会导致准确度损失。

值得注意的是,LiDAR-PTQ在准确度上达到或甚至超过了QAT模型,并且与浮点模型相比几乎没有性能下降。

The effectiveness of LiDAR-PTQ for Fully Sparse Detector

近期,出现了一些完全稀疏的3D检测器,例如FSD,FSD++和VoxelNext等。在这里以FSD为例来验证LiDAR-PTQ在完全稀疏检测器上的有效性。

picture.image

正如表4所示,采用熵校准仍然会导致准确性显著下降**-61.50**。作者发现,在采用普通的最大最小校准的情况下,量化的FSD容易实现所需的性能。然而,使用LiDAR-PTQ可以进一步实现与其浮点对应物相媲美的准确性。实验表明,LiDAR-PTQ同样适用于完全稀疏检测器。

Ablation Study

在这里,作者基于CenterPoint-Pillar模型,对LiDAR-PTQ中不同组件进行了消融研究,以验证它们的效果。正如表5所示,基于所选的Max-min校准器,作者可以通过使用轻量级的网格搜索方法获得5.48 mAPH/L2的性能提升。然而,网格搜索仅在参数空间最小化重建误差,这并不等同于最小化最终性能损失。

picture.image

因此,通过引入所提出的TGPL函数在模型空间微调量化参数,量化模型的表现可以达到59.40 mAPH/L2。最后,通过引入自适应的舍入值,增加了一个自由度(方程10),以减轻最终性能差距,并实现与FP模型几乎相同的性能(60.12 vs 60.32)。值得注意的是,FP模型的表现是量化模型的上限,因为作者的重点是后训练量化,不使用带标签的训练数据。

Inference Acceleration

在这里,作者比较了在NVIDIA Jetson AGX Orin上量化前后CenterPoint的速度。这是一个资源受限的边缘GPU平台,广泛应用于真实世界的自动驾驶汽车中。量化模型的运行速度实现了的加速,这表明LiDAR-PTQ可以有效提升边缘设备上3D检测模型的效率。

Computation Efficiency

LiDAR-PTQ相比其他传统PTQ方法需要额外的计算和微调过程,这导致了时间成本的增加。虽然量化时间是LiDAR-PTQ的一个限制,但与其他先进的PTQ方法相比,LiDAR-PTQ的额外时间成本是可以接受的。

picture.image

此外,与QAT方法相比,LiDAR-PTQ的量化时间非常短。例如,CenterPoint-Pillar要在WOD数据集上达到与FP模型相同的性能需要94 GPU/小时,而LiDAR-PTQ仅需3 GPU/小时,比QAT方法快30。这也证明了LiDAR-PTQ是具有成本效益的。

5 Related Works

后训练量化(PTQ)。 现有的量化方法可以分为两类:

  1. 量化感知训练(QAT)
  2. 后训练量化(PTQ)

QAT方法需要访问所有标记的训练数据,但由于数据隐私和安全的考虑,这可能不可行。与量化感知训练(QAT)方法相比,后训练量化(PTQ)方法更易于使用,允许使用有限的 未标注 数据进行量化。

目前,有许多针对2D视觉任务设计的方法。AdaRound将取整任务公式化为层级的二次无约束二元优化问题,并取得了更好的性能。基于AdaRound,BRECQ提出利用块重建来进一步提高后训练量化(PTQ)的准确性。此后,QDrop在PTQ过程中随机丢弃激活的量化,并达到了新的最高准确度。PD-Quant考虑了量化前后模型的全球差异,并通过BN层统计调整激活的分布来解决过拟合问题。然而,这些方法专门为RGB图像设计,它们并不容易转移到具有很大模态差异的激光雷达点云上。

3D目标检测的量化。 随着3D目标检测在自动驾驶和机器人技术中的广泛应用,一些量化方法被设计出来以提高板上部署应用的推理速度。基于RGB图像的量化技术进展,QD-BEV通过QAT(量化感知训练)和蒸馏方法,在多摄像头3D检测任务上比 Baseline BevFormer实现了更小的大小和更快的速度。

对于基于LiDAR的3D检测,尤其是对于全卷积方法,如PointPillars、FCOS-LIDAR、FastPillars等,有效的量化解决方案可以显著提高它们的延迟以满足实际需求。(Stacker等人,2021)发现直接对2D CNN使用INT8量化会在PointPillars上带来显著的性能下降,对于熵校准器的减少甚至更为严重。

此外,BiPointNet是一种二值化量化方法,它专注于基于从小型CAD模拟捕获的点云进行的分类和分割任务。据作者所知,在自动驾驶领域,还没有针对大规模户外基于LiDAR的3D目标检测方法的量化解决方案。

6 Conclusion and Future Work

在本文中,作者分析了点云数据在量化过程中性能下降的根本原因。然后作者提出了一种有效的PTQ方法,称为LiDAR-PTQ,这是特别为基于3D LiDAR的目标检测任务设计的。

LiDAR-PTQ具有三个主要组成部分:

  1. 一种基于稀疏性的校准方法,用于确定量化参数的初始化
  2. 一种任务引导的全局正向损失(TGPL),以减少最终任务上的差异
  3. 一种自适应四舍五入到最近的操作,以最小化逐层重建误差。

广泛的实验证明,LiDAR-PTQ在CenterPoint(基于 Pillar 和基于 Voxel 的)上均取得了最先进的性能。据作者所知,在基于激光雷达的3D检测任务中,首次出现了PTQ INT8模型的准确性几乎与FP32模型相同,同时享有的推理加速。此外,LiDAR-PTQ具有成本效益,比量化感知训练方法快。

鉴于其有效性和高效性,作者希望LiDAR-PTQ可以作为当前主流基于网格的3D检测器的一个有价值的量化工具,并推动3D检测模型在边缘设备上的实际部署发展。另外,作者相信3D检测器的低比特量化将会带来进一步的效率提升。这是一个未来研究的开放性问题。

Appendix A: LiDAR-PTQ for different detectors

CenterPoint将LiDAR-based BEV检测领域的两个里程碑工作VoxelNet和 PointPillars集成为CP-Pillar和CP-Voxel。特别是,CP-Pillar和CP-Voxel的网络设计有所不同。CP-Pillar模型是一个全密度卷积网络,而CP-Voxel模型包括SP-Conv和密度卷积。作者对CenterPoint (-pillar和-voxel) 的结果表明:

  1. Lidar-PTQ适用于基于pillar和基于voxel的检测器
  2. Lidar-PTQ适用于SPConv和密度卷积操作

Appendix B: Performance Comparison on nuScenes Dataset

为了进一步评估LiDAR-PTQ的有效性,作者还对nuScenes数据集进行了实验。作者的性能评估涉及两个指标,平均精度(mAP)和nuScenes检测得分(NDS)。NDS是mAP和其他属性指标的加权平均值,包括平移、缩放、方向、速度和其他边界框属性。

picture.image

如表6所示,LiDAR-PTQ取得了最先进的性能,并且在CenterPoint-Pillar模型上以6.2 mAP和3.9 mAP的大幅优势超过了BRECQ和QDrop,在CenterPoint-Voxel模型上以5.3 mAP和2.5 mAP的优势胜出。与Waymo数据集上的准确性一致,LiDAR-PTQ在nuScenes数据集上也几乎达到了全精度模型相同的性能。

Appendix C: LiDAR-PTQ for Point Cloud Segmentation

另外,作者针对点云分割任务,在SemanticKITTI数据集上进行了实验,以进一步评估LiDAR-PTQ的泛化能力。具体来说,作者将SPVNAS作为Baseline ,这是点云分割任务中的一项代表性工作。

picture.image

如表7所示,采用熵校准导致准确度显著下降18.09 mIOU 。至于普通的最大最小校准,量化后的SPVNAS仍有2.64 mIOU 的性能下降。然而,LiDAR-PTQ能够进一步达到与其浮点对应物可比的准确度。这证明了LiDAR-PTQ在点云分割任务上的有效性。

Appendix D: Experiemnts Details

数据集。 NuScenes数据集使用32线激光雷达收集数据,包含1000个场景,其中分别有700、150和150个场景用于训练、验证和测试。3D检测任务的指标是平均精度(mAP)和nuScenes检测分数(NDS)。Waymo开放数据集使用64束激光雷达收集数据,总共包含1150个序列,其中798个用于训练,202个用于验证,150个用于测试。3D检测任务的指标是mAP和mAPH(按航向加权的mAP)。

在Waymo中,LEVEL1和LEVEL2是两个难度 Level ,分别对应于具有5个以上激光雷达点的框和至少有一个激光雷达点的框。在nuScenes和WOD中的检测范围分别是50米(覆盖面积100m x 100m)和75米(覆盖面积150m x 150m)。

实现细节。 本文中的所有FP模型都基于Det3D框架,使用了CenterPoint官方开源代码。在WOD数据集中,作者从训练集中随机抽取了256帧点云数据作为校准数据。对于WOD,校准集的比例为0.16% (256/158,081)。在nuScenes数据集中,校准集的比例为0.91% (256/28,130)。作者将网络的第一个和最后一个层次保持全精度。作者分别对主干网络进行块重建,对 Neck 和 Head 进行层重建,批处理大小为4。

需要注意的是,作者没有考虑在CenterPoint-Pillar中使用Int8量化PFN,因为输入是3D坐标,大约范围在米,精度为0.01米,因此在FPN中进行Int8量化将导致大量信息损失。激活量化缩放因子的学习率设为5e-5,权重量化取整的学习率为5e-3。在TGPL损失中,作者将设为0.1,K设为500。

作者所有的实验都是在单个Nvidia Tesla V100 GPU上进行的。对于速度测试,所有比较方法的推理时间是在一个广泛用于现实世界自动驾驶的、资源受限的边缘GPU平台——NVIDIA Jetson AGX Orin上测量的。

Appendix E: Entropy Calibration Method

给定原始数据分布 和量化后的数据分布 如下:

算法3中的熵校准方法

picture.image

Appendix F: Gird Search

对于权重或激活张量 ,作者可以使用以下方程来获取它们的初始量化比例因子:

是弗罗贝尼乌斯范数(均方误差损失)。然后将区间 线性划分为 个候选Bin,表示为 。、 和 用于控制搜索范围和粒度。

最后,搜索 以找到最小化量化误差的最优 ,算法3中的熵校准方法。

参考

[1].LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection.

扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息

picture.image

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
亿万用户下高可用融合直播的应用实践
直播融合 CDN 调度系统承担了公司内所有直播流量的接入工作,对高并发高带宽场景支持友好,有完善的体系进行容灾降级、质量优化、成本优化。本次演讲将带大家了解直播融合 CDN 调度系统的整体架构及在抖音上的应用。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论