点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
准确预测驾驶员注意力可以作为智能车辆理解交通场景和做出明智驾驶决策的关键参考。尽管现有关于驾驶员注意力预测的研究通过结合先进的显著性检测技术提高了性能,但它们忽略了从认知科学角度分析驾驶任务以实现类人预测的机会。
在驾驶过程中,驾驶员的工作记忆和长期记忆分别在场景理解和经验检索中发挥着关键作用。它们共同形成了情境意识,使驾驶员能够快速理解当前交通状况并根据过去的驾驶经验做出最佳决策。
为了明确整合这两种类型的记忆,本文提出了一个自适应混合记忆融合(AHMF)驾驶员注意力预测模型,以实现更类似人类的预测。具体来说,该模型首先编码当前场景中特定危险刺激的信息以形成工作记忆。
然后,它自适应地从长期记忆中检索相似情境经验进行最终预测。利用领域自适应技术,该模型在多个数据集上进行并行训练,从而丰富了长期记忆模块中积累的驾驶经验。
与现有模型相比,作者的模型在多个公共数据集上的各种指标上均显示出显著改进,证明了在驾驶员注意力预测中整合混合记忆的有效性。
1 Introduction
人类驾驶员主要依赖视觉信息来驾驶。他们的视觉注意力分布反映了经验丰富的驾驶员对当前交通场景的认知理解,尤其是在存在碰撞风险的 safety-critical 场景中。对于智能车辆而言,准确预测驾驶员的注意力对于快速识别交通场景中的关键风险要素以及辅助决策系统有效做出避碰决策至关重要。
鉴于这种重要的研究意义,关于驾驶员注意力预测的研究如雨后春笋般涌现。这些研究通常采用基本的编码器-解码器模型架构,以 CNN 或 Transformer 作为核心组件。然而,当前注意力预测模型性能的提升主要归功于计算机视觉中 Backbone 网络的进步,而忽视了驾驶任务本身必要的认知机制分析。因此,这些模型尚未达到类似人类的驾驶员注意力预测。
在驾驶过程中,人类驾驶员必须实时处理复杂多变的交通信息,特别是在安全关键场景中。这一认知过程涉及工作记忆和长期记忆[7, 8]。工作记忆模块通过快速识别当前场景中的关键风险物体并评估其危险性来迅速处理视觉信息[9]。当潜在碰撞即将发生时,驾驶员会从长期记忆中迅速检索相关经验。这些过程共同帮助驾驶员形成情境意识,快速理解当前交通状况,并根据积累的驾驶经验做出最优决策[9,。
为了实现更类似人类的驾驶员注意力预测,本文提出了一种自适应混合记忆融合(Adaptive Hybrid-Memory-Fusion, AHMF)模型,通过明确将工作记忆和长期记忆融入驾驶员注意力预测中。此外,利用领域适应,作者的模型在多个数据集上进行并行训练,有效地丰富了长期记忆中的多样化驾驶经验。通过将场景中的特定危险刺激(由编码器作为工作记忆处理)与长期记忆中检索到的经验相结合,模型做出最终的最优预测。作者在多个公共数据集上进行了比较实验。结果表明,作者的模型在多项指标上超越了现有的SOTA模型。
本文的贡献如下:
- 作者从认知科学的视角出发,以与驾驶员对交通场景理解紧密一致的方式来预测驾驶员的视觉注意力。具体来说,模型首先编码当前场景中的特定危险刺激以形成工作记忆,然后将其与长期记忆整合以产生最终的场景编码。
- 利用领域适应,作者在多个数据集上进行并行训练,从而增强了长期记忆模块中信息的多样性,形成了一个全面的“驾驶经验”知识库,显著提高了模型的泛化能力。
- 实验表明,在多个公共数据集上,作者的模型在多项指标上达到了最先进的预测性能。
2 Related Work
Driver Attention Prediction
驾驶注意力预测的研究经历了三个阶段:早期机器学习方法、基于卷积神经网络(CNN)的方法和基于Transformer的方法。最初,经典的机器学习方法,如动态贝叶斯模型,采用了自下而上和自上而下的框架来模拟驾驶员的视觉注意力。随着卷积神经网络的发展,基于卷积的预测方法成为了主流。这些模型通常采用编码器-解码器结构,其中编码器处理当前场景信息,而解码器重构视觉注意力分布。最近,Transformer在计算机视觉中的出色表现促使基于Transformer的图像/视频显著性检测的发展。尽管取得了这些进展,但这些研究尚未达到启发于人类的预测水平,因为它们缺乏对驾驶任务中认知科学洞察的理解。预期与人类驾驶员场景理解机制更为一致的模型将进一步提高预测的准确性。
Memory-Augmented Deep Learning
认知科学与深度学习的综合发展催生了模拟外部记忆以克服工作记忆局限的记忆增强模型。一个著名的早期例子是长短期记忆(LSTM)模型[26]。随后的深度学习模型探索了各种外部记忆融合形式。在驾驶员注意力预测方面,FBLNet采用了反馈循环结构以实现递增的知识,这可以被看作是一种简单的长期记忆[24]。作者的方法有所不同,提出了分阶段的工作记忆和长期记忆建模以及有效的记忆融合方式。同时,融入领域适应显著丰富了长期记忆中积累的“驾驶经验”,并提高了模型的泛化能力。
3 Method
在本节中,作者提出了一种新颖的自适应混合记忆融合(AHMF)驾驶员注意力预测模型,该模型明确结合了驾驶员的工作记忆和长期记忆,以实现类似人类的预测。图1展示了AHMF的概览,它包含两个核心模块,即时间-空间工作记忆编码和基于注意力的混合记忆融合。此外,还融入了必要的特定领域模块,以丰富跨不同数据集积累的长期记忆。鉴于本文的篇幅限制,作者将主要使用文本描述,避免复杂的数学公式,以详细阐述所提出的AHMF模型。
Temporal-Spatial Working Memory Encoding
复杂交通场景,尤其是安全关键场景,不仅表现出强烈的时间相关性特征,而且关键风险目标在空间上分布不均,这两者都显著影响了驾驶员工作记忆的编码过程。因此,有必要采用时空调和编码模式以实现准确的驾驶员注意力预测。
在空间编码方面,作者首先采用Swin Transformer-tiny [32]作为主干网络提取基本语义特征。对不同 Level 的提取特征首先通过上采样归一化到同一维度,然后进行拼接以捕捉不同范围内的语义信息。接着,设计了一个基于空间注意力的卷积模块,以建模交通帧各种局部特征之间的内在关系,这已被证明有效增强了其空间表现能力[12, 33]。空间注意力模块可以表述如下:
其中和分别是位置索引为的输入和输出像素,表示沿着空间维度特征的一维扁平位置索引,矩阵、和表示1x1卷积层的可学习参数。然后,将编码特征与预定义的特定领域高斯先验进行拼接,以增强在各种异构驾驶场景中的泛化能力。
在时间编码方面,作者利用卷积门控循环单元(Conv-GRUs)基于更新门和重置门[34, 35]实现时间交通信息的有效传输。作者选择Conv-GRUs而不是Conv-LSTM,因为其轻量级的网络结构更适合在安全关键场景下进行高效的在线推理。### 基于注意力的混合记忆融合
在驾驶过程中,人类驾驶员的工作记忆(用于场景理解)和长期记忆(用于经验检索)在AHMF中被独立建模。此外,作者设计了一个高效的适应性记忆融合模块,该模块采用注意力机制,其灵感来源于人类驾驶员的情境感知机制。
工作记忆建模。在获取来自编码器的时空调和编码特征后,作者使用倒置残差块[36]减少通道维度,然后采用上采样层调整特征的空间维度。
长期记忆建模。长期记忆模块被建模为一个离线知识库,并且它以与工作记忆相同的大小作为一组可学习参数进行初始化(即)。在训练期间,它首先根据工作记忆中的 Query 检索关键的驾驶经验,然后不断更新以融合新编码的特征。
基于注意力的混合记忆融合。 作者采用了两个基于多头交叉注意力的融合模块来促进两个记忆之间的信息传递。由于注意力模块将序列化数据作为输入,工作记忆和长期记忆在空间和通道维度上被展平。
首先,为了用从长期记忆中检索到的“驾驶经验”增强工作记忆,作者使用线性层将工作记忆投射为 Query ,将长期记忆分别投射为键和值。采用了一个多头交叉注意力模块MHCA()来建模两种记忆之间的内在关系,具体发展如下:
其中,和分别表示工作记忆和长期记忆,表示在恢复到原始形状后增强的工作记忆,是序列长度,是展平特征的空间维度,、和分别表示多头交叉注意力模块中的 Query 、键和值,表示输入标记的正弦位置编码。在交叉注意力之后使用了丢弃和层归一化来稳定训练过程并避免过拟合。
另一个切换了键、值(即,从工作记忆投射的和)和 Query (即,从长期记忆投射的)的多头交叉注意力模块被用来用新编码的工作记忆更新累积的长期记忆(从到)。长期记忆从跨越多个数据集的多样化驾驶经验中受益。在进行在线推理时,可以弃用用于更新长期记忆的交叉注意力模块以加速推理时间。
在记忆融合之后,一个基于通道注意力的卷积模块增强了跨通道的高层特征的表示,其公式如下:
其中,点积相似性 衡量了输入特征中第个通道与第个通道之间的相互影响。最后,使用平滑滤波器来模糊最终的注意力预测。
Domain-Specific Modules for Domain Adaption
为了提高泛化能力,作者还融入了一系列领域适应技术,以在多个数据集上进行并行训练,这可以进一步丰富长期记忆中积累的驾驶经验。继之前在视频显著性建模研究[37, 38]的基础上,AHMF采用了三个领域特定模块,包括领域特定的批量归一化、领域特定的高斯先验和领域特定的平滑滤波器。领域特定的批量归一化旨在在批量归一化过程中减少不同数据集间的数据异质性[39]。领域特定的的高斯先验由一系列可学习参数建模,作为特定数据集驾驶员注意力预测的重要空间先验信息[40]。考虑到不同数据集中注意力图清晰度分布的不一致性,作者采用了领域特定的平滑滤波器来模糊最终的注意力预测,以提高性能[38]。
4 Experiments
在本节中,作者介绍了实验设置,并将所提出的AHMF模型与几种当前最优(SOTA)方法进行了比较。关于AHMF的实现细节,请参阅补充材料(S.1.1节)。
Experimental Settings
数据集。 AHMF模型在四个广泛使用的大型公开驾驶员注意力数据集上进行联合训练和测试,即驾驶员注意力和驾驶员事故(DADA)[41],伯克利深度驾驶注意力(BDD-A)[17],DReyeVE[42],以及EyeTrack[19]。这些数据集的详细描述可在附录材料(S.1.2)中查看。
评估指标。 为了全面评估模型性能,作者采用了多种显著性评估指标,包括三种基于分布的指标,即相似性(SIM)、Kullback-Leibler散度(KLD)和皮尔逊相关系数(CC),以及两种基于位置的评价指标,即归一化扫描路径显著性(NSS)和ROC曲线下面积Judd(AUC-J)。详细信息在附录材料(S.1.3)中给出。
Comparison with SOTA
定量结果。与几个现有的SOTA驾驶员注意力预测模型相比,作者的模型在DADA和BDD-A数据集上均展现出令人满意的表现(表4)。特别是,作者的模型在SIM和NSS指标上表现尤为出色,在DADA上分别达到0.57和5.02,在BDD-A上分别达到0.75和5.51,相较于最佳现有方法,分别实现了+54.0%,+21.5%,+53.1%和+9.8%的显著提升。此外,在DADA数据集上,作者的模型取得了最低的KLD值1.55和最高的CC值0.50。而且,在AUC-J和CC指标上,作者的模型也表现出色,与表现最佳的模型相当。总体而言,AHMF模型在多个指标上展现出显著优势,证明了其在驾驶员注意力建模方面的鲁棒性和有效性。
定性结果。图4可视化了驾驶员注意力预测的对比结果。与人类驾驶员关注具有特定帧间变化的物体不同,MLNet模型过度关注视频帧中的静态区域。同样,PGNet不仅过多地关注静态区域,而且在没有显著物体的情况下未能将注意力分配到前方的道路上,反而将注意力分散到路边围栏等不相关区域。相比之下,作者的模型关注具有显著帧间变化的动态交通参与者,其注意力预测与 GT 情况紧密对齐。更多的定性结果可以在补充材料(S.2.1)中找到。
Ablation Study
作者现在对AHMF在DADA数据集上的一系列消融研究进行分析。
表1:将AHMF模型与目前最先进的驾驶员注意力预测模型在DADA和BDD-A数据集上进行比较。红色数值表示最佳性能,蓝色数值表示次佳性能。
表6展示了评估作者模型不同关键组成部分贡献的消融研究结果。具体来说,它将完整模型的表现与三个变体进行了比较:没有混合记忆融合(HMF)模块、没有空间注意力(SA)模块以及没有通道注意力(CA)模块的模型。结果显示,移除任何组成部分都会导致性能下降,这证明了每个组成部分在实现最佳性能中的重要性。如预期的那样,引入HMF模块带来了最显著的改进,SIM提高了29.5%,NSS提高了11.8%。
表7分析了交通场景中工作记忆持续时长的影响,即历史输入序列的长度。结果表明,较短的记忆时长会导致性能降低,特别是在NSS指标上表现明显。这表明较长的输入序列有助于工作记忆的时间编码,实现混合记忆更有效的融合,最终提高驾驶员注意力预测的准确性。
5 Conclusion
在本文中,作者提出了一种新颖的、更类似人类的驾驶员注意力预测模型,该模型融合了工作记忆和长期记忆。与现有方法不同,作者的方法明确模拟了人类驾驶员的工作记忆以理解场景,并利用长期记忆检索经验,以模仿在驾驶过程中定位视觉注意力时的情况感知机制。实验证明,所提出的记忆建模和融合方法对驾驶员注意力预测性能的显著提升起到了关键作用。
作者以一种非常直接的方式构建了这两种记忆。未来应做出更多努力,寻找更好的记忆建模方法,并深入进行认知科学与计算机视觉之间的跨学科研究。
参考
[1].AHMF: Adaptive Hybrid-Memory-Fusion Model for Driver Attention Prediction
点击上方卡片,关注 「AI视界引擎」 公众号