0.15M参数185 FPS！TriLiteNet碾压YOLOPX/ HybridNets，轻量多任务自动驾驶感知新标杆 - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 现有自动驾驶感知模型在资源受限环境中难以实现实时性能的问题，尤其是多任务模型计算成本过高（数千万参数和大量FLOPs），不适合嵌入式设备部署。
1. 单任务模型需要多个独立模型处理不同感知任务（车辆检测、可行驶区域分割、车道线分割），导致计算需求呈指数增长，不适用于计算资源有限的自动驾驶系统。
1. 现有轻量级多任务模型仅关注分割任务（可行驶区域和车道线），而忽略了目标检测这一关键组成部分，无法提供全面的环境感知能力。

本文的核心创新是什么

1. 提出了TriLiteNet，一种轻量级多任务模型架构，包含共享编码器和三个任务特定解码器，能同时处理车辆检测、可行驶区域分割和车道线分割三项关键任务。
1. 设计了深度ESP模块（将ESP模块中的扩张卷积替换为深度扩张可分离卷积）和LitePAN（基于PAN架构的简化特征聚合网络），显著降低了计算成本。
1. 提供了三种模型配置（TriLiteNettiny、TriLiteNetsmall和TriLiteNetbase），参数量从0.15M到2.35M不等，满足不同资源约束场景的部署需求。

结果相较于以前的方法有哪些提升

1. 计算效率显著提升：TriLiteNettiny仅用0.15M参数和0.55 GFLOPs，在批量大小为1时达到185 FPS，远超YOLOPX（49 FPS）和HybridNets（8 FPS）。
1. 在保持低计算成本的同时实现了有竞争力的性能：TriLiteNetbase（2.35M参数）在车辆检测上达到85.6%召回率，可行驶区域分割达到92.4% mIoU，车道线分割达到82.3%准确率。
1. 嵌入式设备部署表现优异：在Jetson Xavier上，TriLiteNettiny推理延迟仅8.962ms，功耗11.908W；在Jetson TX2上延迟23.42ms，功耗3.595W，证明了实际部署可行性。

局限性总结

1. 车辆检测性能相对较弱：由于模型设计优先考虑分割任务，TriLiteNetbase的 mAP@0.5 （72.3%）低于某些专门优化的检测模型，对小目标和重叠目标的检测能力有限。
1. 分割与检测任务存在权衡：优化分割任务性能的同时牺牲了部分检测性能，这种设计权衡可能不适用于对检测精度要求极高的场景。
1. 实际部署挑战未完全解决：模型在动态交通条件、变化工作负载和环境因素下的鲁棒性仍有待提高，这些实际部署中的关键挑战需要未来研究进一步解决。

深入阅读版本

导读

高效的感知模型对于High-Level驾驶辅助系统(ADAS)至关重要，因为这些应用需要快速处理和响应，以确保在真实环境中的安全性和有效性。为了满足这类感知模型的实时执行需求，本研究介绍了TriLiteNet模型。该模型能够同时管理与全景驾驶感知相关的多项任务。TriLiteNet旨在优化性能，同时保持较低的计算成本。在BDD100k数据集上的实验结果表明，该模型在三个关键任务上实现了有竞争力的性能：车辆检测、可行驶区域分割和车道线分割。具体而言，TriLiteNetbase在车辆检测上展示了

的召回率，在可行驶区域分割上达到了

的平均IoU(mIoU)，在车道线分割上获得了

的准确率(Acc)，而仅有2.35M参数和7.72 GFLOPs的计算成本。作者提出的模型包括一个仅有0.14M参数的tiny配置，它提供了计算需求最小的多任务解决方案。在嵌入式设备上对延迟和功耗进行评估时，两种配置的TriLiteNet在推理过程中都表现出低延迟和合理的功耗。通过平衡性能、计算效率和可扩展性，TriLiteNet为现实世界的自动驾驶应用提供了实用且可部署的解决方案。

代码 https://github.com/chequanghuy/TriLiteNet

引言

高效感知模型在资源有限的环境中提升High-Level驾驶辅助系统(ADAS)的性能方面发挥着至关重要的作用。最初，这些系统依赖于雷达和LiDAR等传统传感器技术来理解周围环境。早期系统利用基于规则的算法和手动特征来处理传感器数据，这使系统具备了基本的物体识别和导航能力。然而，这些初始方法在准确性和适应性方面存在局限，特别是在复杂和动态的驾驶环境中。随着深度学习的进步，基于摄像头的感知已成为一个焦点，全景驾驶感知作为自动驾驶车辆的有效解决方案。这种方法从环境中捕获全面的语义信息，为优化驾驶决策提供必要的数据基础。[1]–[9]提出了全景驾驶感知中的三个主要任务：车辆检测、可行驶区域分割和车道线分割。

多任务模型[10]–[13]已成为一种高效的解决方案，实现了跨任务的信息共享，以降低计算成本并提高泛化能力。在具有挑战性的BDD100K数据集[14]上的结果表明，同时训练这些任务可以显著提高准确性和计算效率性能。然而，这些模型的参数从几百万[10], [15]到数千万[11]–[13], [16]不等，通常依赖于复杂的架构，使得在低成本嵌入式设备上实现实时性能变得困难。这突显了针对资源受限系统优化多任务架构的必要性，以增强其在自动驾驶中的实际适用性。Che等人[17], [18]通过引入能够同时执行两个分割任务（可行驶区域分割和车道线分割）的架构，试图降低这些模型的计算成本。这些模型利用具有不同膨胀率的膨胀卷积层，与之前的最先进(SOTA)模型相比，使用不到一百万的参数就取得了具有竞争力的结果。这是少数明确针对低计算成本的 Proposal 之一。然而，这种方法仅关注分割任务，而忽视了目标检测——自动驾驶系统中的关键组成部分。因此，开发优化性能和计算成本的多任务模型仍然是释放其在实际应用中潜力的关键研究方向。

当这三项任务集成时，自动驾驶车辆能够全面理解其环境，从而实现更准确、高效的决策。许多深度学习模型，特别是Convolutional Neural Networks (CNNs)，在全景驾驶感知任务中取得了显著成功。单任务模型在各种应用中展现了良好的性能：[1]–[4]用于车辆检测，[5]–[7]用于可行驶区域分割，[8]、[9]用于车道分割。然而，这些单任务模型一次只能处理一个任务，需要多个模型才能获得不同任务的输出。当同时使用多个模型进行推理时，这种方法显著增加了计算成本，使其不适合计算资源受限的自动驾驶系统。

在本研究中，作者提出一个轻量级多任务模型，其中共享encoder处理输入图像以提取特征。这些特征经过预处理并分配给三个独立的decoder，用于不同任务：车辆检测、可行驶区域分割和车道线分割。

本研究的主要贡献总结如下：

• 作者介绍了TriLiteNet，这是一个为低计算成本优化的轻量级多任务模型。编码器利用了采用深度可分离卷积的高效空间金字塔(ESP)块，而用于分割任务的两个解码器则利用了基于转置卷积和标准卷积的简单上采样阶段。TriLiteNet通过引入LitePAN简化了车辆检测任务的传统复杂 Neck 和 Head 设计，LitePAN受路径聚合网络(PAN)架构启发，结合了深度可分离卷积和精简的检测 Head 。TriLiteNet模型开发了三种配置，以满足不同的资源和性能需求。最大的配置TriLite

包含235万个参数，需要7.72 GFLOPs。此外，两个紧凑版本——拥有59万个参数和1.99 GFLOPs的TriLiteNetsmall，以及仅有15万个参数和0.55 GFLOPs的TriLite

——经过优化，可在资源受限的系统上部署。

• 在BDD100K数据集上的实验评估表明，TriLite

具有竞争力的性能，在车辆检测上达到85.6%的召回率，在可行驶区域分割上达到92.4%的平均IoU（mIoU），在车道线分割上达到82.3%的准确率（Acc）。TriLiteNet被部署在Jetson Xavier和Jetson TX2等嵌入式设备上。它展示了具有低延迟和最佳功耗的实时推理能力，使其适合实际应用。本文的其余部分组织如下：第II节提供了相关工作的总结。随后，第III节介绍了多任务视觉感知模型TriLiteNet，该模型能够预测三个任务：车辆检测、可行驶区域分割和车道线分割。第IV节展示了TriLiteNet模型在BDD100K数据集上的实验结果。最后，第V节总结了关键发现并讨论了未来研究的潜在方向。

相关工作

自动驾驶车辆感知模型的发展传统上依赖于单任务学习方法，其中车辆检测[1]–[3]、可行驶区域分割[5], [6], [19]和车道线分割[8], [9]等单个任务被独立处理。虽然这些单任务模型在其各自任务中取得了显著准确性，但随着任务数量的增长，它们对每个任务依赖单独模型导致计算需求呈指数增长。这种限制使单任务方法在资源受限环境（如自动驾驶车辆的嵌入式系统）中不切实际。

为了克服这些挑战，多任务学习[10]–[13], [15]–[18]已经成为一种有前景的解决方案。多任务学习同时优化多个任务，通过利用共享encoder和任务特定decoder来减少冗余并增强泛化能力。这种方法不仅通过避免需要单独的encoder来最小化计算成本，而且还能实现任务间特征的高效共享。例如，为车辆检测提取的特征也可以使segmentation任务受益——这种协同作用是单任务模型通常无法利用的。因此，多任务学习特别适合于实时自动驾驶系统，因为在这些系统中，计算效率和高性能至关重要。

尽管先前的多任务模型在同时执行车辆检测和分割任务方面取得了令人印象深刻的结果，但许多这些架构存在显著限制。现代多任务模型通常需要数千万参数和大量的浮点运算（FLOPs），使它们不适合具有严格延迟和能量约束的环境。此外，许多当前的多任务模型利用目标检测 Backbone 网络作为共享编码器，例如YOLOP [20]中的CSPDarknet，YOLOPv2、YOLOPX和YOLOPv3 [21]中的ELAN-Net，或A-YOLOM [2]中的CSPDarknet-c2f。虽然这些设计在车辆检测方面表现出色，但它们对于分割任务通常不是最优的。此外，这些模型的性能通常在RTX 3090或Tesla V100等高端硬件上进行评估，这并不能准确反映它们在现实世界自动驾驶系统中部署的可行性。先前的研究[17], [18]通过提出轻量级多任务模型解决了这些问题，这些模型针对嵌入式设备上的实时推理进行了优化。这些模型专注于可行驶区域和车道线分割任务，并在低成本自动驾驶场景中展示了有希望的结果。然而，它们仅限于分割任务，缺乏对目标检测的支持，需要集成额外的模型以实现全面功能。

为解决这些差距，迫切需要能够在资源受限系统上部署的轻量级多任务模型，这些模型能够平衡计算效率和性能。本研究介绍了TriLiteNet，这是一种新颖的架构，旨在通过高效处理多个感知任务（包括车辆检测、可行驶区域分割和车道线分割）来实现这种平衡。所提出的模型针对资源受限环境（如嵌入式系统）进行了优化，并在保持高精度的同时实现了实时推理能力。对嵌入式设备的广泛评估证明了TriLiteNet在实际应用中的实用性，特别是在具有苛刻部署条件的自动驾驶场景中。

方法论

A. 网络架构

基于先前模型的局限性，本研究提出了一种名为TriLiteNet的端到端模型，该模型能够以较低的计算成本执行多项任务。TriLiteNet包含一个共享编码器和三个特定任务的解码器，分别用于车辆检测、可行驶区域分割和车道线分割。如图1所示，输入图像

首先由编码器处理，以提取多尺度特征

和

，这些特征的分辨率分别为输入分辨率的

和

。随后，特征

和

通过空间金字塔池化（SPP）和提出的LitePAN进行处理，产生输出特征

和

，这些特征随后被输入到目标检测 Head 。LitePAN模块的灵感来自于路径聚合网络（PAN）的设计，该网络具有一个自顶向下路径和一个自底向上路径，两者都使用深度可分离卷积进行了简化。此外，特征

在发送到可行驶区域分割和车道线分割任务的解码器之前，会经过部分类激活注意力（PCAA）[23]模块的处理。这两个用于分割任务的解码器共享统一的设计，确保在保持性能的同时降低计算成本。最后，TriLiteNet整合其多任务 Head 的输出，以提供全面的全景驾驶感知结果。

picture.image

1. 编码器：TriLiteNet的编码器基于ESPNet架构[22]，该架构利用高效空间金字塔(ESP)模块作为其基础。ESP模块利用并行扩张卷积来有效地学习多尺度表示。如图2所示，ESP模块的设计包含四个主要阶段：降维、分割、变换和合并。具体来说，ESP模块首先使用

卷积降低高分辨率输入特征图的维度。随后，并行应用具有不同扩张率的扩张卷积，替代标准卷积核。然后，特征图通过步长ESP模块进行下采样，其中

卷积被替换为

步长卷积。在ESPNet架构中，ESP模块被应用

次，当前模块的输出与前一个模块的输出进行连接以保留信息。在这项工作中，作者提出将ESP模块中的扩张卷积替换为深度扩张可分离卷积[24]，同时保留步长ESP模块。这种新的组合被称为深度ESP。得益于深度可分离卷积的计算效率以及先前研究[18]中已证实的与ESPNet的兼容性，此修改显著降低了计算成本，具体来说比标准ESP模块降低了

倍。因此，深度ESP优化了计算效率，并通过扩张卷积保持了捕获多尺度特征的能力，确保模型实现最佳的表示学习性能。

picture.image

基于ESPNet [17], [18], [22]的先前研究中的编码器将大小为

的输入转换为输入尺寸最小为

的特征图，然后进入解码阶段。相比之下，TriLiteNet编码器被设计为生成多尺度的特征图，表示为

。这些多尺度特征图使模型能够捕获不同抽象层次的信息，增强其特征表示能力。具体而言，在目标检测任务中，利用原始输入尺寸的

和

等尺度的特征图是至关重要的，因为它使模型能够高效地检测和处理不同大小的目标。为了实现这一点，在TriLiteNet编码器中，作者添加了两个步进卷积操作来生成特征

和

。编码器的设计如图3所示，其中：

，

。这里，

和

表示通过平均池化获得的输入图像的下采样版本。这些下采样输入提供了来自原始图像的额外上下文信息，改善了编码过程中的特征提取。在编码器中，Depth-wise ESP块最初重复

次，而后续的Depth-wise ESP块执行

次。超参数

和

根据模型配置定义，如表1中详述。

picture.image

1. 用于检测任务的解码器：TriLiteNet在解码器中利用不同分辨率的特征进行目标检测任务。检测Head的简单设计如图4所示。利用多分辨率特征使模型能够有效检测不同大小的物体，增强了其在多样化场景中的通用性和准确性。多尺度特征通过LitePAN处理，从分辨率为

的特征图开始，该特征图在通过LitePAN之前使用空间金字塔池化（SPP）进行优化。SPP模块在多个尺度上生成和合并特征，而LitePAN则整合不同语义层次的特征，以产生多尺度和语义丰富的表示。LitePAN针对计算效率进行了优化，并基于路径聚合网络（PAN）。LitePAN的设计如图5所示。最初，LitePAN使用

卷积来调整特征图的通道维度。然后，使用深度可分离卷积和上采样执行特征变换和提取，相同分辨率的特征图通过逐元素相加进行合并。与PAN类似，作者的设计包括自下而上和自上而下的路径，通过有效聚合不同层次和尺度的信息来增强特征表示，并提高空间细节和语义理解。LitePAN是目标检测任务中的 Neck ，充当编码器和检测Head之间的桥梁。通过连续的层，它增强并合并来自 Backbone 网络的特征，为检测Head提供丰富的表示，以实现更好的检测性能。

picture.image

为了有效处理BDD100K [14]数据集中的小目标和重叠目标，作者采用基于 Anchor 点的方法而非 Anchor-Free 点方法。为了增强基于 Anchor 点方法的适应性，作者集成了基于K-means的自动 Anchor 点机制[25]。该机制动态确定最优 Anchor 框尺寸，在保持效率的同时减少手动调优。由LitePAN生成的多尺度特征图的每个网格单元被分配三个具有不同宽高比的 Anchor 点。检测Head随后预测位置偏移、宽高比、每个类别的概率以及预测的置信度。

1. 分割任务的解码器：为了为两个任务（车道线分割和可行驶区域分割）生成准确的分割图输出，作者提出了一种上采样设计，该设计将特征图

转换为两个分割图

和

，这两个分割图的大小都与输入图像

相同。这里，

对应于可行驶区域分割，而

对应于车道线分割。具体而言，这种转换不是通过维度分割来执行的，而是通过两个具有独立权重的独立分割头来实现的。

首先，从编码器中以

的分辨率提取的特征图

，通过部分类别激活注意力（PCAA）模块进行处理，生成特征图

。PCAA模块收集局部和全局类别 Level 的表示用于注意力计算，从而通过关注关键区域（如可行驶区域和车道标线）来提高分割的准确性和效率。接下来，

被输入到两个结构相同但权重独立的解码器头：车道线分割头和可行驶区域分割头。每个头应用一系列转置卷积进行上采样，然后使用卷积进行特征细化。TriLiteNet的两个分割任务的解码器架构如图6a所示。在上采样过程中，利用 Shortcut 整合下采样的输入

和

。这些连接有助于保持与输入图像的特征一致性，同时提高预测性能。两个分割头采用相同的架构，但使用不同的权重集，使模型能够无干扰地学习特定于任务的模式。PCAA与简单解码器架构的结合先前已在自动驾驶车辆分割任务中展现出强大的性能[18]。最后，两个分割头通过多个步骤执行渐进式上采样，生成输出

，分别对应于每个任务的预测结果。分割头的设计如图

所示，其中输入为

，输出为

和

。

B. 模型配置

在本文中，作者提出了具有三种配置的TriLiteNet：TriLite

、TriLiteNetsmall和TriLiteNetbase。这三种配置共享相同的整体架构，主要区别在于卷积层中的核数量以及两个超参数

和

（Depth-wise ESP块的迭代次数）。表1详细分解了编码器

、检测解码器

和分割解码器

中特征图的输出通道大小和分辨率，适用于两种分割任务。模型复杂度按照tiny、small和base的顺序逐渐增加，从而在计算成本和任务性能之间取得平衡。

C. 损失函数

由于有三个针对不同任务的独立输出，作者的复合损失函数由三个组件组成。目标检测损失计算了...的加权和(a) 分割解码器的总体架构：这两个 Head 共享相似的设计，从PCAA块接收输入。在上采样过程中，低分辨率输入通过 Shortcut 与相应分辨率的特征图进行连接，增强了整个解码过程中的信息 Stream 。

分类损失：

，目标损失 Lobj，以及回归损失

其中

和

是二元交叉熵（BCE）损失，

用于类别分类，

用于物体置信度。回归损失

衡量预测边界框和实际边界框之间的重叠率、长宽比和尺度相似性的距离。超参数

和

分别设置为0.5、1.0和0.05，以平衡

中的各项，如YOLOP [10]中所调整的。

为了训练可行驶区域分割和车道线分割任务，作者通过如下求和方式结合了Focal Loss [27]和Tversky Loss [28]：

其中

增加了难以分类像素的权重，减少了易分类像素的影响，有效解决了类别不平衡问题。同时，

通过控制假阳性和假阴性的影响来处理分割任务中的类别不平衡问题。这些损失函数使用的超参数经过精细调整如下：对于

，

；对于

，

；对于

，

。最终的损失函数通过加权求和计算如下：

其中

和

分别代表 object detection、drivable area segmentation 和 lane line segmentation 任务的损失函数。权重经过微调为

, 和

。

4 实验

A. 训练设置

1. 数据集：作者在BDD100K数据集上训练和评估模型，该数据集包含训练集、验证集和测试集，分别有

、10k和

张图像。该数据集包含来自不同天气条件和场景的各种图像，使其成为自动驾驶任务的鲁棒且可泛化的数据集。模型在训练集上进行训练，在验证集上进行评估，因为测试集不公开可用。原始图像从1280

像素调整为

像素。对于目标检测任务，四类车辆（汽车、卡车、公共汽车和火车）被合并为单一的"车辆"类别。此外，对于可行驶区域分割任务，作者将直接可行驶区域和替代可行驶区域合并为单一的可行驶区域。此外，作者在训练集中将车道线宽度调整为8像素，同时在验证集中保持2像素的宽度。这些标准做法被先前的工作[9]–[13], [15]所采用，以确保比较的公平性。 2. 2. 实现细节：作者使用PyTorch框架[29]实现了TriLiteNet模型。作者提出的模型使用AdamW优化器[30]进行训练，训练200个周期，批次大小为16张图像。初始学习率、

和

分别设置为0.001、0.937和0.999，用于优化。采用预热和余弦退火的学习率调度被应用以实现更快更好的收敛。重要的是，作者没有使用预训练模型进行微调。在训练过程中，作者充分利用EMA（指数移动平均）[31]模型作为最终的推理模型。训练方法的逐步过程在算法1中呈现。所有实验都在配备有RTX 4090 GPU和Intel(R) Core(TM) i9-10900X处理器的设备上进行。

picture.image

1. 评估指标：与先前的研究[10]–[13], [15]一致，作者采用召回率和

作为目标检测任务的评估指标。对于分割任务，作者使用平均IoU(mIoU)来评估可行驶区域分割，并使用像素准确率(Acc)和IoU(IoU)来评估车道线分割。具体而言，作者采用平衡准确率[15]而非传统的像素准确率，它通过考虑每个类别的准确率提供了更公平的评估。此外，作者基于模型的参数数量和浮点运算次数(FLOPs)来评估模型。与先前的工作[22], [32]中的定义一致，FLOPs指的是乘加运算的数量。为确保公平比较，作者对所有评估模型的FLOPs进行统一重新计算。

B. 主要结果

1. 计算成本：作者对TriLiteNet模型与其他多任务模型[10]–[13], [15], [16]进行了计算成本比较。除了参数和FLOPs外，作者还基于批量大小为1、8和32（不包括预处理和后处理时间）的推理时间评估了推理速度（FPS）。作者在实验设备上为以下模型复现的FPS指标：YOLOP 1, YOLOPv22,

, Hybridnets 4, YOLOPX5, A-YOLOM6，均计算100次并取平均值以确保公平性。表2中的结果表明，TriLiteNet配置在计算效率方面优于其他模型。值得注意的是，TriLiteNettiny在批量大小为1、8和32时分别达到了185、1340和3397的最高FPS，显著超过了YOLOPX（49、199、262）和HybridNets（8、53、121）等模型。仅有0.15M参数和0.55G FLOPs的TriLite

特别适合在资源受限的系统中部署。同时，最大的配置TriLiteNe

在批量大小为1、8和32时分别达到151、1081和1641的FPS，拥有2.35M参数和7.72G FLOPs。这些发现强调，TriLiteNet配置不仅显著降低了计算成本，还满足了实时性能要求，使其成为资源受限环境中多任务应用的理想解决方案，特别是在自动驾驶系统中。 2. 2. 与最先进方法的比较：为了展示TriLiteNet在性能和计算成本之间的卓越平衡，作者将其与其他多任务模型[10]–[13], [15], [16]进行比较。为了进行更全面的评估，作者还将其与单任务模型进行比较：车辆检测[1]–[3], [33]、可行驶区域分割[5]–[7]和车道线分割[8], [9], [34]。在本节中，作者选择TriLiteNetbase模型进行比较，如表3所示。结果表明，TriLiteNetbase取得了令人印象深刻的性能，特别是在分割任务上，可行驶区域分割的mIoU达到

，车道线分割的Acc达到

，同时IoU为

。这些结果验证了

专注于分割的架构的有效性。虽然

在车辆检测方面的性能（召回率：

，

）低于某些模型，但这是预期的结果，因为其设计优先考虑了分割任务。分割和检测之间的权衡是多任务模型中的关键考虑因素，因为优化一个任务可能会影响另一个任务的性能。在TriLite

中，对分割任务（如可行驶区域和车道线检测）的关注使模型能够在这些对自动驾驶系统至关重要的领域实现高精度。然而，这种优先级可能会略微降低模型检测较小或重叠车辆的能力，因为共享编码器和特征提取过程是针对分割进行优化的。值得注意的是，与其他多任务模型相比，这些设计权衡使

能够在分割任务上实现具有竞争力的性能。

picture.image

与单任务模型相比，TriLiteNetbase展示了其在保持竞争力的性能的同时管理多个任务的能力。在车辆检测方面，TriLiteNetbase在Recall和mAP方面仍然优于其他几个模型，如Faster RCNN [3]、MultiNet [33]和R-CNNP (DET) [10]，甚至在Recall方面超越了YOLOv8 (n) [2]，这表明尽管管理额外的分割任务，它仍然具有强大的检测能力。在可行驶区域分割方面，TriLite

超越了GCNet

mIoU)和DNLNet

mIoU)等模型，并且与专门为此任务设计的PSPNet

mIoU)表现接近。类似地，TriLite

在车道线分割方面达到了

的IoU，显著优于ENetSAD

和SCNN

，同时提供了额外的多任务处理能力。这些比较强调了TriLiteNetbase的多功能性，因为它有效地平衡了分割和检测性能。

在车道线分割任务中，TriLiteNetbase以29.8%的IoU和82.3%的准确率（Acc），在较低的计算成本下优于许多先前的多任务模型。在可行驶区域分割任务中，TriLiteNetbase达到了92.4%的mIoU，仅略低于YOLOPX、YOLOPv2和YOLOPv3等模型（这些模型均达到93.2%的mIoU）。然而，这些模型需要显著更多的参数（超过3000万，而TriLiteNetbase为235万）和更高的计算成本。与具有相似计算成本（443万参数和6.66 GFLOPs）的A-YOLOM (n)模型相比，TriLiteNetbase在分割任务上表现出优越的性能。具体而言，在可行驶区域分割任务中，TriLiteNetbase实现了高出1.9%的mIoU，而在车道线分割任务中，它实现了高出1.0%的准确率（Acc）和1.6%的IoU。尽管TriLiteNetbase的mAP比A-YOLOM (n)低5.7%，这是由于后者的设计专注于目标检测。这表明TriLiteNetbase专注于分割的设计仅用一小部分计算资源就实现了具有竞争力的性能。

总之，尽管TriLiteNet由于其专注于分割的设计未能在车辆检测方面实现最高性能，但它在分割任务上表现出色。它以显著更低的计算资源保持了具有竞争力的整体性能。与多任务模型和单任务模型相比，TriLiteNet展示了平衡的性能-成本权衡，使其成为嵌入式系统和实时应用的高效解决方案，特别是在计算资源有限的场景中。

1. 比较TriLiteNet的配置：在表4中，作者比较了TriLiteNet模型的不同配置。结果表明，随着模型复杂度的增加，计算效率成比例提高（如表1所述）。具体而言，TriLiteNetbase配置在所有任务上都取得了卓越的性能。然而，较小的配置，如TriLiteNetsmall（0.59M参数，1.99 GFLOPs）和TriLiteNettiny（0.15M参数，0.55 GFLOPs），尽管复杂度显著降低，仍然在所有三个任务上提供了令人印象深刻的结果。这些结果表明，

和TriLiteNetsmall能够以稳定的性能有效执行所有任务，同时需要最少的计算成本。然而，凭借所达到的性能，较小的配置可以满足固定或简单环境中驾驶系统的要求，并且完全适合需要资源优化的嵌入式系统。相比之下，TriLiteNetbase（2.35M参数，7.72 GFLOPs）是需要更高性能应用的理想选择，在计算效率和准确性之间提供了最佳平衡。

picture.image

C. 消融研究

作者进行了所有消融实验，以证明TriLiteNet模型在各个方面的有效性。此外，在本节中，作者报告了使用TriLiteNetsmall配置的结果。

1. 多任务与单任务对比：为了评估作者端到端模型的效率，作者比较多任务模型与单任务模型的性能。表5展示了每种设计的详细性能指标和计算成本，包括单任务和多任务配置。结果表明，作者的多任务模型在各项单独任务上达到了与单任务模型非常接近的性能水平。值得注意的是，在某些情况下，多任务训练不仅保持了有效性，还改进了结果，实现了比单任务训练更高的性能。具体而言，在车辆检测任务中，多任务模型达到了

为

，这与单任务训练获得的

非常接近。然而，在Recall方面显示出改进，达到了

，而单任务模型的Recall为

。在可行驶区域分割任务中，多任务模型达到了

的mIoU，超过了单任务模型

的mIoU。在车道线分割任务中，虽然多任务模型达到了

的IoU，低于单任务模型

的IoU，但其Acc达到了

，比单任务模型的Acc高出

。

总之，作者的研究表明，与单任务模型相比，采用多任务模型可以节省计算资源，并在某些情况下提高性能。得益于其优化设计，作者的多任务模型为那些既需要高性能又需要低计算成本的实际应用提供了一个有效的解决方案。

1. 全景驾驶感知结果：作者在BDD100K数据集上评估了TriLiteNet模型的性能，该数据集提供了按一天中的时间、天气条件和场景类型分类的多样化场景集合。这个全面的数据集使作者能够评估模型在不同环境条件下的鲁棒性和适应性。表6中呈现的结果表明，TriLiteNet在各种驾驶条件下保持稳定的性能，包括变化的照明、天气和场景复杂性。这些发现强调了该模型在自动驾驶系统中实际部署的潜力，因为在动态和具有挑战性的环境中保持一致性至关重要。
1. 量化：作者在不同精度 Level 上评估TriLiteNet模型，包括32位浮点数（FP32）、16位浮点数（FP16）和8位整数（INT8）。为了将模型量化为INT8，作者采用训练后静态量化方法，使用验证集中的500个样本对权重进行校准。表7所示的结果表明，与FP32相比，FP16推理保持了模型的精确准确度。同时，使用INT8时存在轻微的性能下降，但降幅并不显著。这表明量化是显著降低计算成本的合理方法，特别是在嵌入式设备或实时推理系统上部署时。

picture.image

这对于利用GPU或支持量化的硬件的系统尤为重要，例如NVIDIA TensorRT，它在保持高性能的同时优化了推理速度。这些发现证实TriLiteNet可以在不同的精度 Level 上有效运行，为在各种硬件平台上部署提供了高度的灵活性。

1. 不同实验设置下的消融研究：作者对TriLiteNet模型和EMA方法中的各种设计选择进行了消融研究，以评估每个因素在提高性能方面的作用。表8的结果表明，PCAA（Partial Class Activation Attention）[23]、提出的LitePAN、SPP（Spatial Pyramid Pooling）[35]和EMA（Exponential Moving Average）[31]等组件显著促进了TriLiteNet的整体性能。具体而言， Baseline 模型最初表现出稳定的性能。然而，随着每个组件的逐步添加，模型的性能显著提高。集成PCAA增强了图像分割能力，提高了可行驶区域和车道线分割任务的性能。然后，LitePAN和SPP增强了在高度复杂图像中检测小物体的能力。虽然组合这些组件可能会增加计算成本，但仔细的优化确保模型保持了合理的计算量。值得注意的是，在训练过程中应用EMA实现了最佳性能。EMA不仅加速和稳定了收敛过程，还在检测和分割任务中保持了高性能，在不显著增加参数或计算成本的情况下产生了更好的结果。

这种比较突显了每个设计组件在提升TriLiteNet性能方面的重要作用。每个组件优化了模型的不同方面，当它们结合时，使TriLiteNet能够在保持较低计算成本的同时实现理想的多任务结果。

D. 部署

为了评估推理延迟和功耗，作者在嵌入式设备上部署了TriLiteNet模型的配置，包括Jetson Xavier和Jetson TX2。表9中展示的结果是使用TensorRTFP16获得的，表明TriLiteNet可以在嵌入式设备上实现低延迟推理。TriLite

实现了出色的推理延迟，在Jetson Xavier上仅为

，在Jetson TX2上为

，使其成为资源受限设备上实时应用的理想选择。尽管TriLiteNet

和TriLiteNetbase配置相比

表现出更高的延迟，但结果确认所有三种配置在测试的嵌入式平台上都保持了低延迟推理。关于功耗，数据显示

在Jetson Xavier上平均消耗11.908W，在Jetson TX2上消耗3.595W。相比之下，

配置需要更高的功耗，在Jetson Xavier上消耗22.824W，在Jetson TX2上消耗4.590W。为确保这些测量的可靠性，每个配置都独立测试了五次。计算了平均值和标准差，以准确反映模型在现实世界中的性能，确保结果可信。

picture.image

这些结果突显了所提出方法的实际适用性。所有TriLiteNet配置在Jetson Xavier和Jetson TX2等嵌入式设备上都表现出快速推理和低能耗的特点，证明了它们在实时应用中的能力，特别是在需要平衡响应性和能源效率的场景中。

E. 可视化

为了进行全面评估，除了彻底比较TriLiteNet的配置外，作者还将TriLiteNet与YOLOP和AYOLOM (n)的定性结果进行了比较。这两个模型的计算成本与TriLiteNet相似，使它们成为在BDD100K数据集验证集上执行推理时的合适比较基准。按不同天气条件、场景类型和一天中的时间分类的可视化结果，如图7、8和9所示：(1) 图7展示了一天中不同时间的结果，包括白天、黄昏/黎明和夜晚。(2) 图8展示了各种天气条件下的结果，包括雪天、雨天、阴天和雾天。(3) 图9展示了不同场景类型的结果，如隧道、停车场、加油站和住宅区。与YOLOP和A-YOLOM (n)相比，比较可视化结果表明，TriLiteNetbase在变化的环境条件下在所有三项任务中都表现出卓越的性能。除了强大的分割性能外，

在目标检测方面也取得了显著成果，尽管这项任务并非优化的主要重点。同时，虽然TriLite

和

表现出不太突出的结果，但它们的轻量级设计确保了即使在具有挑战性的条件下也能提供有前景的性能。这些发现突显了所有配置的潜力，特别是在资源约束至关重要的场景中。

picture.image

结论与未来工作

在本研究中，作者提出了TriLiteNet，一种专为自动驾驶中资源受限环境设计的轻量级多任务感知模型。通过采用共享编码器-解码器架构和三个不同的解码器，TriLiteNet能够高效执行三项关键任务：车辆检测、可行驶区域分割和车道线分割。作者在BDD100K数据集上的实验结果证明了TriLiteNet的竞争力，它在所有任务中都实现了高指标，同时保持低计算成本。此外，三种模型配置——TriLiteNettiny、TriLiteNetsmall和TriLiteNetbase——提供了部署的灵活性，满足不同程度的资源可用性需求。在包括Jetson Xavier和TX2在内的嵌入式设备上进行的部署实验，证实了模型的低延迟和高能效，巩固了其在实际应用中的适用性。

TriLiteNet平衡计算需求和性能的能力使其成为自动驾驶系统的强大解决方案。然而，在实际部署中仍然存在挑战，如动态交通条件、变化的工作负载和变化的环境因素。在未来研究中解决这些挑战将进一步提高模型的鲁棒性和实际适用性。本研究强调了优化多任务模型以实现实际部署的重要性，并为智能车辆可扩展、资源高效的感知系统的未来研究铺平了道路。

参考

[1]. TriLiteNet Lightweight Model for Multi-Task Visual Perception