SalFAU-Net | 面向复杂场景的显著性融合注意力 U-Net 模型及在自动驾驶等领域的应用！ - 文章 - 开发者社区

ADAS Laboratory

picture.image

点击上方蓝字关注 智驾实验室

picture.image

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

picture.image

显著目标检测（SOD）在计算机视觉中仍然是一个重要的任务，其应用范围从图像分割到自动驾驶。基于全卷积网络（FCN）的方法在过去几十年里在视觉显著性检测方面取得了显著进展。然而，这些方法在准确检测显著目标方面存在局限性，尤其是在具有多个目标、小目标或低分辨率目标的具有挑战性的场景中。

为了解决这个问题，作者提出了一种显著性融合注意力U-Net（SalFAU-Net）模型，该模型在每个解码器块中引入了一个显著性融合模块，以从每个解码器块生成显著性概率图。

SalFAU-Net采用了一种注意力机制，有选择地聚焦于图像中最具信息性的区域，并抑制非显著区域。作者使用二进制交叉熵损失函数在DUTS数据集上训练SalFAU-Net。作者在六个流行的SOD评估数据集上进行了实验，以评估所提出方法的有效性。实验结果表明，作者的方法SalFAU-Net在平均绝对误差（MAE）、F-measure、s-measure和e-measure方面与其他方法相比具有竞争力。

1 Introduction

显著目标检测（SOD），也称为视觉显著性检测，是指在场景中检测最显眼、独特且视觉上与众不同的物体或区域，这些物体或区域能吸引人的目光[3]。人类的视觉感知系统具有迅速识别并关注场景中视觉独特和突出物体或区域的能力[37]。这种天生的能力吸引了计算机视觉领域中许多研究者的兴趣，他们的目标是基于人类视觉注意力系统的心理和生物学特性来模拟这一过程。目标是识别图像和视频中具有重要性和有价值信息的显著物体。

鉴于SOD在计算机视觉各个领域应用的多样性，它在图像分割、目标检测、图像字幕生成[43]、自动驾驶[29]和增强现实[8]等任务中作为预处理步骤发挥着关键作用，提出了许多视觉显著性检测方法。这些方法旨在从较不重要的背景中区分出最独特的前景图像。尽管传统的显著性检测方法依赖于低级启发式视觉特征，但这些方法常常无法在具有挑战性的场景中检测到显著物体。近年来，深度学习方法，尤其是卷积神经网络（CNNs），在包括显著性检测在内的多种计算机视觉任务中显示出卓越的有效性。与传统的学习方法相比，基于CNN的方法通过利用先进的语义特征[16]取得了显著进展。

由于代表性特征对算法性能的重大影响，研究利用多级特征和上下文信息以增强显著性检测的模型是有益的。此外，尽管已经引入了基于全卷积网络（FCNs）的端到端模型，但在显著性检测任务中融合和提升传统的FCN模型，如U-Net[34]及其变体仍然具有重要意义。U-Net的一个著名变体，因其有效用于医学图像分割而知名，是Attention U-Net网络[28]，它通过在其架构中集成注意力机制，有选择地关注输入图像的相关区域，从而提高了模型捕捉复杂模式和重要特征的能力。注意力机制在图像分割等任务中可以改善性能。基于其在医学图像分割上的成功，本研究探讨了将Attention U-Net应用于显著性检测任务的可能性。作者在网络的每个解码器块中添加了一个显著性融合模块（SFM）。

picture.image

该模块使作者能够有效地生成显著性图，然后作者将每个解码器的侧输出显著性图进行拼接以获得最终的显著性图。所提出方法中的注意力门模块帮助模型学习关注不同大小和形状的显著特征。这样，SalFAU-Net能够抑制输入图像中的不相关区域，同时强调对显著性检测最重要的特征。总之，本文的主要贡献如下：

(1) 作者提出了一种用于视觉显著性检测的显著性融合注意力U-Net（SalFAU-Net）。

(2) 在网络的每个解码器块中添加显著性融合模块，以从每个解码器生成显著性图，并将这些显著性图拼接在一起，以获得最终的视觉表达，突出图像中最重要的区域或物体。

(3) 作者在六个公开可用的具有挑战性的SOD数据集上进行了实验，结果证明了SalFAU-Net在视觉显著性检测任务中的有效性。

2 Related Works

一般来说，显著性检测方法可以分为两类：传统方法和基于深度学习的方法。传统方法基于低级启发式视觉特征，如对比度、位置和纹理。这些方法大多数是无监督或半监督的。传统显著性检测方法的例子包括基于局部对比度[22]、全局对比度[44]、背景先验[45]、中心先验[42]、目标性先验[20]等。这些方法在简单图像或仅包含单个目标的场景中取得了良好的效果。然而，这些方法无法检测复杂场景、低分辨率或包含多个显著目标的场景中的显著物体。

这种局限性源于它们依赖于低级特征，这些特征对于处理由这类具有挑战性的视觉环境引入的复杂性是不够的。

近年来，基于深度学习的方法，尤其是卷积神经网络（CNNs），在多种计算机视觉任务中展示了卓越的性能，包括图像分类[17]，语义图像分割[24]和目标检测[41]。CNN能够通过提取高级语义特征来学习输入数据的丰富和层次化表示。然而，在视觉显著性检测（SOD）中，低级和高级特征对于开发良好的视觉显著性检测模型都至关重要。全卷积网络（FCNs）[25]的引入彻底改变了端到端的像素级显著性检测方法。

最初为语义分割设计的FCN，在单一网络结构中无缝结合了特征提取和像素标签预测的任务，该结构由下采样和上采样路径组成。随后，提出了许多基于FCN的视觉显著性检测模型，包括深度对比学习（DCL），多级卷积特征聚合框架（Amulet），递归全卷积网络（RFCN）[39]，以及深度不确定卷积特征（UCF）。这些进展显著提高了视觉显著性检测算法的有效性。尽管如此，探索针对不同目的设计的有效的基于FCN的模型仍然是有益的。U-Net是医学图像分割[34]中最广泛使用的网络之一。

在U-Net成功的基础上，为不同的任务引入了许多网络变体。U-Net的一个典型变体是关注U-Net模型，它专为胰腺图像分割而设计，在其他组织和器官分割中展示了令人印象深刻的结果，得益于关注门模块，能够专注于图像中相关和可变大小的区域。

大多数基于FCN的显著性模型都基于普通的U-Net，并在显著性检测方面取得了显著性能。[32]中，秦等人提出了一种双 Level 嵌套U结构，通过使用残差U块（RSU）作为视觉显著性检测的主干。与许多其他使用预训练网络作为主干的网络相比，U-2-Net的RSU块在不显著增加计算成本的情况下增加了架构深度，同时实现了竞争性性能。[14]中，韩等人提出了一种修改后的U-Net网络用于显著性检测，利用了边缘卷积约束。

这个变体有效地整合了来自多层的特征，减少了信息丢失，并实现了像素级的显著性图预测，而不是基于块级的预测，这是CNN模型中常见的。

尽管基于普通U-Net的方法在显著性检测方面取得了显著性能，但通过将不同的技术融入其架构的编码器和解码器块中，可以进一步提升其性能。最近，注意力机制在包括显著性检测在内的各种计算机视觉应用中显示出显著成果。在[21]中，Li 等人提出了一个U形网络，该网络采用堆叠层并融合通道注意力来提取最重要的通道特征，并通过集成并行膨胀卷积模块（PDC）和多级注意力级联反馈（MACF）模块有效地利用这些特征。

为了分别用不同的衰减因子递归地转换和聚合上下文特征，Hu 等人 [15] 提出了一个空间衰减上下文模块。之后，该模块仔细学习权重以自适应地融合集体上下文特征。在[48]中，Zhang 等人提出了一种新的视觉显著性检测方法，该方法利用注意力机制来细化显著性图，并通过双向细化来提高准确性。

引入双向细化突出了对全面特征提取和优化的关注。在[49]中，Zhao和Wu将空间注意力（SA）和通道注意力（CA）应用于模型的各个方面。具体来说，SA用于低级特征图，而CA融合到具有上下文感知的金字塔特征图中。这种策略性方法旨在指导网络关注给定样本的最相关特征。在[13]中，_Gong等人_ 提出了一个增强型U-Net模型，该模型融合了金字塔特征注意力、通道注意力和金字塔特征提取模块，以提升U-Net主干网络的性能。

在这项研究中，作者尝试探索注意力U-Net架构在视觉显著性检测领域的应用。作者在网络的每个解码器中添加了一个显著性融合模块（SFM），并将它们的输出连接起来以获得最终的显著性图。所提出方法中的注意力门模块帮助模型学习关注不同大小和形状的显著特征。因此，SalFAU-Net能够学习在输入图像中抑制不相关或不需要的区域，同时强调对于显著性检测任务最为关键和显著的特性。

3 Methodology

在本节中，作者提供了作者提出方法的架构的详细描述。随后是网络监督、所使用的数据集和评估指标以及实现细节。

Architecture of SalFAU-Net

本文提出的用于视觉显著性检测的融合显著性注意U-Net（SalFAU-Net）主要由四部分组成：

1）一个五级编码块

2）一个四级解码块

3）一个注意门控模块

4）一个显著性融合模块。

图1展示了所提出的SalFAU-Net模型的架构。与用于胰腺图像分割的[28]提出的Attention U-Net模型相比，作者在架构的每个解码器中增加了一个显著性融合模块，并将它们最终连接在一起以获得最终的显著性图。

3.1.1 Encoder Block

每个编码器块包含两个卷积层，其后分别跟着批量归一化层和ReLu激活函数，这会将特征图的数量从3增加到1024。在每个块的末尾，除了最后一个块，都应用了2x2步长的最大池化进行下采样，将图像大小从288x288减少到18x18。编码器块逐步降低特征图的空间分辨率，同时增加通道数，捕捉不同尺度的特征。

3.1.2 Decoder Block

解码器块负责上采样和生成显著图。它由一个上采样层、两个卷积层、批量归一化和ReLU激活函数组成。解码器块通过跳跃连接与注意力门控块相连。每个解码器块将特征图的数量减少一半，同时将空间分辨率从18x18增加到288x288。其目的是恢复在编码器下采样过程中丢失的空间细节，从而便于精确地定位和检测显著物体。

3.1.3 Attention Gate Module

注意力门（AGs）在捕捉关键区域、减少无关背景区域中的特征响应以及消除对图像中感兴趣区域（ROI）进行裁剪的需求方面表现出显著的有效性。这对于视觉显著性检测任务尤为重要。将AGs整合到传统的U-Net架构中，增强了模型通过跳跃连接强调显著特征的能力。对于一个跳跃连接特征，其中C是通道数，H和W是F的高度和宽度，作者首先应用一个卷积层、批量归一化和ReLu激活函数以获得一个关键特征，并令Q来自前一层或通过卷积层以及批量归一化和relu激活后得到的输入门控特征的门控信号。注意力系数通过对和的逐元素求和后应用relu函数来获得。最终的注意力系数值是通过将注意力系数送入一个卷积层、批量归一化和sigmoid激活函数来得到的。最后，将注意力系数值V与跳跃连接特征图进行逐元素相乘，产生最终的注意力门输出，其计算如方程3所示。

其中表示sigmoid激活函数。因此，注意力生成（AG）由参数集定义，包括线性变换和偏置项。线性变换可以通过对输入张量使用逐通道的卷积来计算。

3.1.4 显著性融合模块

显著性图融合模块是生成显著性概率图的关键组成部分。与文献 [32] 中的方法类似，作者的模型采用多阶段方法。最初，它生成了四个侧输出显著性概率图，分别表示为，，和，这些图来自解码器1、解码器2、解码器3 和解码器4 的相应阶段。这是通过一个卷积层以及一个sigmoid激活函数完成的。随后，这些侧输出显著性图的sigmoid函数之前的卷积输出被上采样到与输入图像相同的大小。通过 ConCat 操作，然后是一个卷积层和一个sigmoid函数，来完成这些显著性图的整合。这一融合过程的输出是最终的显著性图（如图1右下所示）。

从数学上讲，每个阶段的显著性概率图生成如下：

其中表示阶段（1、2、3 或 4），表示sigmoid函数，是在第阶段的卷积操作，是解码器的输出特征图。然后侧输出被上采样并拼接以生成最终的显著图：

其中 Concat 表示拼接操作，是专门用于融合过程的卷积层，表示sigmoid函数。

Network Supervision

损失函数在优化显著性检测模型中起着至关重要的作用。在二分类问题中最广泛使用的损失函数之一是二元交叉熵（BCE）损失[5]。对于视觉显著性检测，它衡量在二分类设置中预测的显著性图与 GT 之间的不相似性。

作者采用了与[32]中类似深度监督方法，该方法已经证明了其有效性。作者的训练损失表述如下：

总损失由两部分组成。第一部分是与侧面输出显著性图相关的损失，记作，其中表示图1中显示的四个监督阶段（Sup1, Sup2, Sup3, 和 Sup4）。第二部分是最终融合输出显著性图的损失，由表示。分配给这些损失项的权重分别是和。

作者使用传统的二元交叉熵计算每个项的损失，以计算预测显著性图与 GT 之间的像素级比较。

其中（H, W）是图像的高度和宽度，（x, y）是像素的坐标。GT 和预测显著性概率图的像素值分别由符号G(x, y)和P(x, y)表示。训练过程的目标是减少（6）中的总损失。在测试过程中，作者选择融合输出作为作者的最终显著性图。

4 Experimental Results

以下是第4节“实验结果”的开 Head 分。

Datasets

训练数据集： 作者使用DUTS-TR数据集训练作者的模型，这是DUTS数据集[38]的一个子集。DUTS-TR是从ImageNet DET[6]的训练和验证集中精心挑选出来的，总共有10,553张图像，每张图像都有相应的真实标签。DUTS是用于显著性检测的最大且应用最广泛的数据集。作者采用了水平翻转的数据增强技术，使得训练图像总数达到21,106张。

评估数据集： 作者使用以下六个广泛用于显著性检测的数据集来评估作者模型的检测性能。

ECSSD [36]: ECSSD（扩展的复杂场景显著性数据集）包含在语义上重要但在结构上复杂且具有挑战性的图像。这个数据集包含1000张自然图像，以及仔细标注的真实显著性 Mask 。

PASCAL-S [23]: 这个数据集是在8名受试者、3秒观看时间的情况下，利用Eyelink眼动跟踪技术从PASCAL VOC（视觉目标类别2010）[9]验证数据集中收集的。这个数据集包含850张图像，这些图像的场景中包含多个显著物体，提供了丰富多样的视觉背景。

HKU-IS [18]: HKU-IS数据集是用于视觉显著性检测更具挑战性的基准，旨在推进视觉显著性模型的研究和性能评估。这个数据集包含4447张具有挑战性的图像，具有高质量像素级标注，特点是低对比度或存在多个显著物体。

DUT-OMRON [45]: DUT-OMRON包含5,168张精心挑选的高质量自然图像，这些图像是从超过140,000张图像中选出的。这些图像的尺寸为400x或x400像素，其中x小于400。值得注意的是，每张图像都包含一个或多个显著物体，背景相对复杂。

DUTS-TE： DUTS-TE是DUTS数据集的测试集，包含5,019张测试图像，这些图像来源于ImageNet DET测试集和SUN数据集[40]。这个数据集为显著性检测模型的评估提供了极具挑战性的场景。

SOD [27]: SOD包含从Berkeley Segmentation Dataset (BSD) [26]中提取的显著物体边界。它由300张特别具有挑战性的图像组成，最初用于图像分割。

Evaluation Metrics

由深度显著目标算法生成的概率图通常与输入图像具有相同的尺寸。在预测的显著图里，每个像素的值介于0到1之间（或者[0, 255]）。GT 值通常是二值 Mask ，每个像素要么是0要么是1（或者0和255），其中1表示前景显著目标的像素，0表示背景。

为了全面评估作者模型的性能以及预测显著图与实际显著 Mask 的质量，作者使用了以下四种评估措施：(1) 平均绝对误差（MAE）[30]，(2) 最大F-measure [2]，(3) 结构度量（Sm）[10]，以及(4) 增强的一致性度量（Em）[11]。这些措施的详细描述如下。

1. F-measure

F-measure综合评估精确度和召回率如下：

由于召回率不如精确度重要，经验性地设置为0.3以强调精确度。

2. 平均绝对误差（MAE）

平均绝对误差（MAE）表示预测的显著图与其相应 GT Mask 之间每个像素的平均差异。它被用作准确评估假阴性像素的指标。

其中P和G分别是显著检测的概率图和相应的 GT 值，(H, W)和(x, y)分别是（高度，宽度）和像素坐标。较低的MAE值表示 GT 值和预测的显著图之间的高度相似性。

3. 结构度量（sm）

S-measure (Sm) 评估预测的非二值显著图与二值 GT 值之间的结构相似性。它定义为区域感知的Sr和目标感知的So结构相似性的加权和：

通常，设置为0.5。

4. 增强的一致性度量（em）

增强的一致性度量（em）通过将局部像素值和图像 Level 的均值或全局平均值结合在一个项中，同时结合局部像素匹配信息和图像 Level 的统计。

其中h和w分别是显著图的高度和宽度。是增强的一致性矩阵，反映了在分别减去P和G的全局均值之后，它们之间的相关性。

Implementation Details

所提出的网络使用PyTorch框架实现，在具有12GB视频内存的NVIDIA GeForce RTX 4070Ti GPU上进行训练和测试。训练数据集由DUTS [38]中的DUTS-TR子集的10,553张图像组成。为了增强数据集，每张图像都进行了水平翻转，从而使得训练集翻倍，达到21,106张图像。在将图像输入网络之前，它们被调整大小为320 x 320，然后在训练过程中裁剪为288 x 288。模型优化采用Adam优化器，并使用默认的超参数值（）。网络训练大约500,000次迭代，批量大小为12，以确保损失收敛。在测试时，先将输入图像调整大小为320 x 320，然后输入到训练好的网络中。随后，通过双线性插值将预测的显著性图恢复到其原始尺寸。

Comparison with Other Methods

在本节中，作者通过定性和定量分析来评估所提出模型的有效性。作者进行了实验，将其性能与其他模型进行了比较，使用了四个评估指标，分别是MAE、F-measure、s-measure和e-measure。作者将提出方法的结果与一些基于FCN的方法进行了比较，包括Amulet [46]、DCL [19]、RFCN [39]和UCF [47]。

4.4.1 Quantitative Comparison

表2：在HKU-IS、PASCAL-S和SOD数据集上，提出的方法与其他4种方法的比较，使用的评价指标为、F测度、结构测度和e测度。最佳值以粗体突出显示。

picture.image

在六个评估数据集上，使用四种评价指标的定量结果报告在表1和表2中。根据结果，很明显，作者提出的方法在DUTS-TE和HKU-IS数据集上的所有评价指标上都优于基准方法。在DUT-OMRON数据集上，作者的模型取得了令人印象深刻的结果，以最佳的MAE值超越了其他方法。此外，在ECSSD数据集上，作者的模型展示了具有竞争力的性能，MAE值为0.063，位列第二低，仅次于Amulet的稍低MAE值0.059。此外，作者计算了六种数据集上每种方法的平均MAE值。令人印象深刻的是，作者提出的方法取得了最低的平均MAE值0.068，表明与其他方法相比具有更优越的性能。图3展示了每种方法的平均MAE值结果，清楚地表明基于平均MAE值，作者的模型优于比较算法。

picture.image

4.4.2 Qualitative Comparison

除了定量评估，作者在图4中展示了所提出方法及比较方法生成的预测显著图。图4的第一列和第二列分别表示原始输入图像及其对应的真实显著图。第三列展示了作者提出方法的预测显著图，而第四、第五、第六和第七列则展示了比较方法的结果。前两行描绘了具有多个显著物体的场景；第三行展示了一个单一的较大显著物体；第四行包含小物体；第五行和第六行描绘了既有小物体也有大显著物体的图像。最后一行特点是对比度相对较低的显著物体。从图4中作者可以看出，结果显示SalFAU-Net为不同的具有挑战性的场景生成了更准确的显著图，而比较方法生成的显著图则不完整或有噪声。

从上述的定性和定量结果来看，显然作者提出的方法在解决视觉显著检测挑战方面取得了具有竞争力的结果。这些发现还突显了注意力机制在提高视觉显著模型有效性中的关键作用，因为所提出的模型在提取高代表性特征的同时，有效地消除了不想要或噪声特征。这种对注意力机制的强调不仅使作者的方法具有竞争力，而且通过优先提取相关或显著的视觉信息，提高了整体性能。

Failure cases

提出的方法在大多数情况下显示出有效的显著目标检测。然而，在某些情况下，它表现出局限性。图5展示了该方法的一些失败案例。在图5的第一列中，行人的阴影被错误地检测为显著物体。这是因为显著物体中的阴影可能会降低显著物体的可见性或可辨别性，使得它们更难以准确检测。

在第二列中，鸭子的倒影被识别为显著物体，这是由反射造成的，反射可能产生分散注意力的图像区域，可能会将注意力从真正的显著物体上转移开。第三和第四列描绘了显著物体对比度低的情况，这导致作者的模型在准确显著性检测上遇到困难。在最后一列中，尽管大多数飞机部分被检测到，但模型未能捕捉到其全部。

总的来说，这些图像对于大多数深度学习模型来说都是极具挑战性的，难以准确检测。这些挑战源于深度学习模型对显著物体中的阴影、反射和低对比度等因素的敏感性。将来，作者将进行进一步的研究，旨在解决这些问题，并开发更准确的显著性检测模型。

5 结论

在本文中，作者提出了显著性融合注意力U-Net（SalFAU-Net）作为视觉显著性检测任务的一种方法。作者的方法将显著性融合模块集成到Attention U-Net模型的每个解码器块中，这使得高效生成显著性图成为可能。在作者的方法中使用注意力门模块，有助于在图像内对信息性区域进行选择性聚焦，并抑制非显著区域。跨越六个不同SOD数据集的综合评估，无论是定量还是定性，都突显了与基准方法相比，作者提出方法的有效性。SalFAU-Net不仅展示了具有竞争力的性能，还强调了基于注意力的模型在推进显著性检测模型能力方面的潜力。

参考

[1].SalFAU-Net: Saliency Fusion Attention U-Net for Salient Object Detection.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

picture.image