FOCUS：多尺度语义网络结合蒸馏与对比学习，多任务前景分割全面领先！ - 文章 - 开发者社区

点击下方卡片，关注

「AI视界引擎」

公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

前景分割是计算机视觉中的一个基本任务，涵盖了各种细分任务。以往的研究通常为每个任务设计特定的架构，导致缺乏统一性。此外，它们主要关注识别前景目标，而没有有效地将它们与背景区分开来。

在本文中，作者强调了背景及其与前景之间关系的重要性。作者引入了FOCUS（前景目标通用分割框架），它能够处理多个前景任务。作者开发了一个多尺度语义网络，利用目标的边缘信息来增强图像特征。

为了实现边界感知的分割，作者提出了一种新颖的蒸馏方法，结合对比学习策略，在多模态特征空间中细化预测 Mask 。

作者在5个任务上对总共13个数据集进行了广泛的实验，结果表明，FOCUS在大多数指标上始终优于最先进的特定任务模型。

引言

前景分割是计算机视觉中的一个基础任务，其主要目标是区分图像中显著目标（前景）与其他部分（背景），通常涉及显著目标检测（SOD）和伪装目标检测（COD）（潘等，2022a，2024a）。在本文中，前景分割的概念可以扩展到识别图像中最感兴趣的目标，其主要目标是获取兴趣 Mask （MoI），例如，MoI应表示COD中的伪装目标 Mask 。根据此定义，如阴影检测（SD）、失焦模糊检测（DBD）、伪造检测（FD）等任务也属于前景分割的范畴。

目前，在通用分割领域，例如实例分割、语义分割和全景分割等，已经存在许多复杂的模型（Kirillov等人，2023；Cheng等人，2022；Jain等人，2023；Ding等人，2023b，a）。然而，这些模型通常缺乏针对特定前景分割任务的有针对性训练。例如，在COD任务中，SAM难以区分伪装物体与背景（Hu等人，2024）。此外，没有 Prompt 引导的方法，大多数传统分割算法会同时为一张图像生成多个 Mask （Cheng、Schwing和Kirillov，2021；Cheng等人，2022；Jain等人，2023），但在许多实际场景中，用户并不需要如此多的 Mask ，例如图像背景去除，MoI（目标物体）就是他们所需的一切。而前景分割通常只生成单个或特定类型的 Mask ，这使得它更符合用户需求。

图1：FOCUS采用一个统一的架构，能够处理各种前景分割任务。作者提出的方法能够生成比之前最先进任务特定模型更平滑、更详细的边界感知 Mask 。放大查看更多细节。

picture.image

然而，如前所述，当前景的概念被泛化为MoI时，前景分割任务的范围非常广泛。目前，尚缺乏一个优秀且通用的框架，能够处理所有前景分割任务。大多数前景分割模型都是针对特定任务的（王等，2022a；赵等，2021；朱等，2021；郑等，2024a；谢等，2022；王等，2022b）。一些模型（庞等，2024a，2022a）在SOD和COD任务中实现了通用性，但由于COD和SOD任务之间的相似性，它们在此处不会被作为通用模型讨论。据作者所知，与作者工作最接近的是（刘等，2023）。然而，在细分任务中进行微调后，它仍然在特定任务模型之后有显著差距。

此外，之前的背景分割模型主要关注识别前景目标，而没有有效地将它们与背景区分开来，忽视了背景以及背景与前景之间的关系。实际上，背景信息在计算机视觉任务中起着至关重要的作用。前景分割本身涉及将前景与背景区分开来，使得两者及其关系都至关重要。然而，现有方法未能单独处理背景分割。因此，这种疏忽影响了前景分割的整体性能。

上述问题可以概括如下：

（1）如何一般性地表示不同前景分割任务的前景和背景？

（2）如何充分利用图像的背景信息来优化预测结果？在本文中，作者引入了FOCUS，这是一种统一的多模态方法，用于解决前景分割的多个细分任务。

为了全面地表示前景和背景，作者借鉴了DETR（Carion等人，2020年）中的目标 Query 概念，引入了地面 Query 。作者采用多尺度策略（Cheng等人，2022年）提取图像特征，以供Transformer解码器使用，通过 Mask 注意力使地面 Query 能够专注于与前景和背景相对应的相关特征。作者利用从主干网络获取的特征图来初始化 Mask 注意力，这可以作为一个定位先验。在这个过程中，地面 Query 通过适应学习与不同任务上下文相关的特征，使其成为通用特征。

为了充分利用图像中的背景信息，作者采用了对比学习策略。作者提出了CLIP精炼器，利用CLIP（Radford等，2021年）强大的多模态学习能力来纠正先前模块生成的 Mask 。作者将 Mask 与图像融合，并在多模态特征空间中对融合图像及其对应文本进行对齐以精炼 Mask 。这不仅精炼了 Mask 的边缘，还突出了前景与背景之间的区别。作者将前景分割和背景分割视为两个独立任务，在推理阶段，前景和背景的概率图将共同决定MoI的边界。

作者在五个前景分割任务中针对13个数据集进行了详细实验，并在大多数提供的指标上达到了或超过了现有最佳水平。图1展示了作者提出的FOCUS在前景分割的不同子任务上的卓越表现。

作者的贡献可以概括如下：作者提出了一种统一的框架，用于前景分割任务，包括SOD、COD、SD、DBD和FD；作者提出了一种新颖的模块，采用对比学习策略，利用背景信息来细化 Mask ，同时扩大前景与背景之间的距离；作者在多个数据集和多个任务上进行了广泛的实验，结果表明，作者的方法达到了最先进的性能。

相关研究工作

前景分割

如前所述，前景分割中存在几个关键任务，包括显著目标检测（SOD）、伪装目标检测（COD）、阴影检测（SD）、失焦模糊检测（DBD）和伪造检测（FD）。SOD旨在从输入图像中分割出最具视觉吸引力的目标。COD专注于融入周围环境的伪装目标，例如拟态动物和身体彩绘。SD旨在从自然场景中分割阴影区域。DBD旨在分离清晰与模糊区域，这是由相机不同焦距引起的，与SOD略有不同。FD的目标是识别图像中的修改或篡改区域，通常涉及添加、替换或删除。以往模型通常为特定的前景分割任务设计架构（王等，2022a；赵等，2021；朱等，2021；郑等，2024a；谢等，2022），目前，缺乏有效的方法来处理这些前景分割任务。

通用分割

通用分割已成为计算机视觉领域的一个重要趋势。其目标是在单一框架内统一各种分割任务。这一趋势始于通过全景分割（Kirillov等人，2019年）统一语义分割和实例分割的尝试，并自此扩展到更广泛的任务。近期的研究工作转向设计具有泛化能力和多面性的通用分割模型。Mask2Former（Cheng等人，2022年）利用 Mask 注意力机制统一实例、语义和全景分割。OneFormer（Jain等人，2023年）进一步通过一次多任务训练设计改进了Mask2Former。更近的方法如SAM（Kirillov等人，2023年）通过零样本分割的能力推动了通用分割的边界。在前景分割领域，与作者最相关的统一架构是EVP（Liu等人，2023年）。EVP冻结了一个预训练模型，然后使用 Adapter 结构学习特定任务的知

图2：作者所提出的FOCUS概述，这是一个用于通用前景分割的多尺度、多模态语义框架，主要包括主干网络、边缘增强器、特征解码器和CLIP细化器。具体细节请参阅正文。

picture.image

方法

在本文中，作者采用了以下方法来研究并解决提出的问题：

数据收集：通过公开数据集和特定领域的数据源，作者收集了相关数据，以确保研究的全面性和代表性。
特征提取：运用机器学习技术，从收集的数据中提取关键特征，为后续分析提供支持。
模型构建：基于深度学习框架，作者构建了多个模型，以评估不同算法在解决特定任务中的性能。
模型训练与优化：通过调整模型参数，作者在验证集上对模型进行训练和优化，以提高模型的准确性和泛化能力。
性能评估：利用测试集对模型进行性能评估，比较不同算法和模型在各项指标上的表现。
结果分析与讨论：对实验结果进行分析，探讨不同方法的优势与不足，为后续研究提供参考。

请注意，如果遇到不确定的术语或表达，请随时提供 Query 或确认的选项。

统一架构

此前，处理所有前景分割子任务的统一架构尚不存在。针对不同前景分割任务提供的图像，作者的目标是利用统一架构在任务语境中预测相应的MoI（Most Important Object）。该问题可以定义为：

代表不同的前景分割任务，

属于

的统一框架

应从图像

中推理出相应的 MoI。作者提出了 FOCUS，这是一个能够处理多个前景分割任务的统一架构。作者借鉴了 (Carion 等人，2020) 中的目标 Query 概念，并在本文中引入了地面 Query

。GQ 是两个不同的张量，分别被指定为前景 Query 和背景 Query ，作者的目标是仅使用这两个学习到的张量，根据任务上下文，分别对图像中的前景和背景进行嵌入和表示。图2 提供了作者的方法 FOCUS 的概述。在从 Backbone 网络和边缘增强器获取多尺度边缘增强特征后，像素解码器将生成像素级输出，这些像素级特征将被输入到带有 GQ 的 Transformer 解码器中，其中

通过 Mask 注意力（Cheng 等人，2022）进行更新，以获得以地面为中心的输出。它可以表示为：

在这里，

属于

，表示来自像素解码器第一个块的线性变换后的

维图像特征，

指的是来自第一个变换解码器块的 Query 特征，而

由变换解码器的输入 Query 特征初始化。

是第一个地面 Query ，

定义为：

是通过解码

并进行二值化得到的，其维度调整与

DINOv2（Oquab 等人，2023）保持一致。DINOv2 是一种最近提出的模型，旨在进行视觉表示学习。其特征图的可视化表明，DINOv2 在无监督的情况下已经关注了图像中的显著物体，相比其他基础模型（Wang 等人，2022c；Meng 等人，2022），展现了更为丰富的语义。

在这里，

指的是来自最后一个 Backbone 块的二进制特征图。它被调整到与

相同的分辨率。采用新的初始化方法可以利用 DINOv2 在大规模数据上学习到的定位先验知识。

作者采用了两个多层感知器，分别称为 Mask 头和分类头，用于解码地面 Query ，并为前景和背景生成 Mask 和分类预测。在推理阶段，将前景和背景的概率分布结合，以预测最终的MoI（物体重要性）。

边缘增强器

为了利用物体的边缘信息，作者提出了边缘增强器，这是一个有效的模块，它利用前景物体的边缘信息来校正由主干网络获取的图像特征。

受到近期研究表明卷积有助于Transformer理解局部空间信息（Chen等人，2022；Wang等人，2022c）的启发，作者使用ResNet50（He等人，2016）从图像中提取边缘特征。作者将图像转换为灰度以减少颜色带来的混淆，应用高斯平滑（Davies，2004）以降低噪声，然后使用边缘检测器（Canny，1986）获取梯度图并将其叠加到原始图像上。如图2所示，ResNet可以划分为STEM和其他部分，STEM作为初始特征提取器，包含一系列卷积、批量归一化和ReLU激活层。其余卷积块输出的结果将通过

的

卷积进行扩展并投影到相同的特征金字塔维度

，然后进行连接，以获得代表输入图像分辨率的

和

。随后，作者遵循ViT-Adapter（Chen等人，2022）的方法，使用基于交叉注意的注入器-提取器结构来融合来自主干和ResNet的图像特征。注入器可以表示为：

MSDA指的是多尺度可变形注意力（Zhu等人，2020年），它将归一化的主干特征

作为 Query ，将归一化的边缘特征

作为 Key和Value 。

是一个用于平衡主干特征和融合特征的可学习参数。同样，提取器可以表示为：

这是一种类似于注入器的多尺度可变形注意力机制，它将归一化边缘特征

作为 Query ，并将输出特征

作为 Key和Value 。ConvFFN指的是包含两个全连接层和一个深度可分离卷积层的结构。

将作为下一个注入器的输入。作者将主干网络的输出从不同的块上采样到1/4、1/8、1/16和1/32的分辨率。此外，作者还分割了最后一个提取器的输出，并将它们恢复到原始大小。然后，作者将上采样的主干网络特征与提取器相应的分割输出以及STEM的输出相加，得到边缘增强的多尺度图像特征。这些特征将被输入到像素解码器，另一个基于多尺度可变形注意力的模块，以进行密集的像素级预测。

CLIP精炼器

自CLIP提出以来，许多研究开始利用CLIP进行分割（Xu等人，2022年；Li等人，2022年；Wang等人，2022年d；Liang等人，2023年），这些研究证明了CLIP不仅在图像层面有效，在像素层面也具有高效性。在本文中，作者提出了CLIP精炼器，该精炼器利用CLIP强大的多模态能力来校正前景和背景的 Mask 。

具体来说，作者将地面 Query 解码以获取前景和背景的 Mask ，对它们进行缩放，并将它们叠加到图像上。作者使用 Prompt 语“这是一张无背景的显著物体图像。”和“这是一张移除显著物体的背景图像？”来分别表示前景和背景。请注意，文本可以根据任务进行调整。例如，在阴影检测中， Prompt 语可以替换为“这是一张无背景的阴影图像？”和“这是一张无阴影的背景图像”，以将CLIP精炼器扩展到其他前景分割任务。作者借鉴了CLIP中的图像编码器和文本编码器来分别编码图像和文本。然后，作者计算 Mask 融合图像和文本特征之间的对比损失（

）。

以下是对所提供英文AI学术论文文本的翻译：

在此，

表示由CLIP获取的前景和背景的

维图像特征和文本特征，

是用于控制softmax函数平滑度的温度参数。CLIP精炼器迭代地精炼前一个模块生成的 Mask 边缘，确保只将适当的像素包含在前景或背景中。这一过程使得 Mask 融合的图像与特征空间中的对应文本更加吻合，同时将其与不匹配的文本区分开来。这不仅使得 Mask 边缘更加准确，而且扩大了前景与背景之间的差距。CLIP精炼器仅用于从CLIP中提炼知识，并在推理阶段被舍弃。此外，作者完全冻结图像和文本编码器，以充分利用CLIP的多模态能力，避免由于微调可能导致的性能下降。

表1：FOCUS与近期最先进的目标检测方法的比较。

picture.image

表2：FOCUS与近期最先进的SOD方法的比较。

picture.image

训练目标

为了联合执行前景和背景分割，作者将前景分割数据集转换为二进制形式，其中白色区域代表前景真实值，黑色区域代表背景真实值。参考（Cheng等人，2022年），作者使用二进制交叉熵（

）和dice损失（

）的组合作为 Mask 的损失函数，其中：

近期研究表明（Li等，2023），并行执行目标检测和分割可以相互受益。在本文中，作者以真实 Mask 的矩形边界作为真实边界框来执行目标检测。作者将L1回归损失（

）和广义IoU损失（

）的组合作为

的损失函数，其可以表示为：

和

分别设置为 5.0 和 2.0。作者采用标准的交叉熵损失函数作为

。最终的训练目标定义如下：

在这里，

、

和

分别表示对应损失的权重，均设置为1.0、1.0、5.0和1.0。为了找到成本最低的分配，作者采用匈牙利算法（Carion等人，2020年；Cheng、Schwing和Kirillov，2021年）在预测值和真实值之间进行匹配。

实验

数据集与评估指标

对于COD，作者遵循（Fan等人，2021；Zheng等人，2024a）的方法，在CAMO-TR（Le等人）的基础上，训练FOCUS模型。

本文主要关注了之前关于COD、SOD、SD、DBD和FD的方法，并对其进行了深入分析。针对COD10K-TR（Fan等人，2020年）和COD10K-TE（Fan等人，2020年）进行了评估，并在CAMO-TE、COD10K-TE、CHAMELEON（Skurowski等人，2018年）以及NC4K（Lv等人，2021年）上进行了测试。作者使用S度量（

）、E度量（

）、加权F度量（

）和平均绝对误差

来评估FOCUS。

在SOD任务中，作者遵循（Wang等，2023）的方法，使用DUTSTR（Wang等，2017）作为训练数据集，不添加额外数据，分别在DUTS-TE、DUT-OMRON（Yang等，2013）、HKU-IS（Li和Yu，2015）、ECSSD（Shi等，2015）和PACAL-S（Li等，2014）上评估作者的模型。作者将

作为SOD的评估指标。

在针对SD的情况下，作者采用ISTD（王、李、杨2018）作为作者的训练和评估数据集，并使用平衡错误率（BCE）作为衡量标准。对于DBD，作者参考前人研究（赵等人2018），采用CUHK（石、徐、贾2014）和DUT（赵等人2018）的结合作为训练数据集，并使用CUHK剩余的100张图片和DUT的500张图片进行测试，衡量标准使用F-measure（

的F-measure）和平均绝对误差（MAE）。遵循（王等人2022a）的方法，作者使用CASIA-2.0（董、王、谭2013）作为训练数据集，并在CASIA-1.0上进行评估，使用像素级F1分数和曲线下面积（AUC）作为评估指标。

实施细节

作者在所有实验中使用了批大小为8，并配备了2个具有48G内存的NVIDIA A6000 GPU。FOCUS模型在每个训练数据集上训练，数据集大小为

，平均迭代20,000次，使用AdamW优化器（Loshchilov和Hutter 2017）。初始学习率设置为

，权重衰减为0.05以正则化模型。使用L2范数进行梯度裁剪，梯度允许的最大值为0.01。作者使用在ADE20K（Zhou等，2017）上预训练的DINOv2-G（Oquab等，2023）作为作者SoTA模型的 Backbone 网络。作者的框架使用PyTorch 2.1.1（Paszke等，2019）实现。

主要结果

与最先进的任务特定方法的比较。作者将作者提出的FOCUS与最近提出的针对COD的模型进行比较，包括SINet（Fan等，2020年）、PFNet（Mei等，2021年）、ZoomNet（Pang等，2022b）、BSA-Net（Zhu等，2022年）、FSPNet（Huang等，2023年）、ZoomNeXt（Pang等，2024b）和BiRefNet（Zheng等，2024b），以及针对SOD的模型，包括MENet（Wang等，2023年）、SelfReformer（Yun和Lin，2023年）、BBRF（Ma等，2021年）和VST（Liu等，2021年），针对SD任务的模型包括BDRAR（Zhu等，2018年）、DSD（Zheng等，2019年）、MTMT（Chen等，2020年）、FDRNet（Zhu等，2021年）和SILT（Yang等，2023年），针对DBD的模型包括DeFusionNet（Tang等，2020年）、CENet（Zhao等，2019年）、DAD（Zhao、Shang和Lu，2021年）、EFENet（Zhao等，2021年）和DD（Cun和Pun，2020年），以及针对FD的模型包括ManTra（Wu、AbdAlmageed和Natarajan，2019年）、SPAN（Hu等，2020年）、PSCCNet（Liu等，2022年）、TransForensics（Hao等，2021年）和ObjectFormer（Wang等，2022a）。在涵盖5个任务的13个数据集上，FOCUS在大多数指标上均优于这些最先进模型。表1-3展示了作者提出的FOCUS与先前最先进模型之间的定量比较。定性比较见图3。

picture.image

在最具挑战性的前景分割任务COD中，该任务要求模型识别其周围环境中混合的目标，FOCUS在四个主流数据集上的大多数指标上都优于现有的SoTA方法。对于SOD任务，FOCUS在几乎所有指标上超过了特定任务的模型，特别是在

方面平均提高了1.8%。在SD任务中，FOCUS在ISTD数据集上对之前的SoTA有显著超越，比特误差率（BER）降低了10.3%。在DBD任务中，FOCUS在DUT上通过

指标提高了2.1%，超越了之前的SoTA。在FD任务中，FOCUS也在很大程度上超过了之前的SoTA模型，

指标提高了23.8%，

指标提高了3.8%。

表4：FOCUS提出的模块或方法的消融研究结果，包括CLIP Refiner（CR）、联合预测（JP）、边缘增强器（EE）和预训练（PR）。

表示使用冻结的DINOv2主干网络进行训练。

picture.image

图4：展示了基于主成分分析（PCA）的降维在特征图跨不同迭代中的可视化。

picture.image

比较最先进的统一方法。如前所述，目前缺乏一种统一的架构来处理所有前景任务。据作者所知，EVPv1和EVPv2（刘等，2023）是作者FOCUS在统一前景任务方面最接近的研究工作。为了展示FOCUS作为统一框架的优越性，作者在多个数据集上对FOCUS与EVPv1和EVPv2进行了广泛的实验比较。作者的结果表明，在所有指标上，FOCUS均优于EVPv1和EVPv2。这突出了FOCUS有效处理各种前景分割任务的能力，证明相较于现有的统一方法，它是一个更灵活且功能强大的模型。

消融研究

在本节中，作者进行了消融实验以分析FOCUS的性质。作者以配备DINOv2-L Backbone 网络的Mask2Former作为鲁棒的 Baseline ，并选择最具代表性的前景分割任务COD和SOD作为消融任务。对于COD，作者选择了主流数据集CAMO；对于SOD，作者选择了PASCAL-S。为确保一致性，所有实验均采用相同的训练方法，批次大小为2。COD的训练迭代次数设置为10,000次，SOD设置为20,000次。每个模块或方法相关的定量结果展示于表4。

如表所示，使用CLIP精炼器的FOCUS变体比未使用它的表现更好，这得益于从CLIP中提取的多模态知识。作者将具有联合预测的变体设置为同时进行前景分割和背景分割，与 Baseline 相比，这可以略微提升FOCUS的性能。此外，借助边缘增强器将目标的边缘信息注入到 Backbone 图像特征中，DINOv2变体的性能在所提供的指标上显著提高。作者还评估了在ADE20K上的预训练效果，这显示出适度的改进。

作者采用DINOv2-G作为作者的SoTA模型的 Backbone 网络，这不可避免地导致参数数量庞大。为确保比较的公平性，作者冻结了DINOv2-G Backbone 网络，将模型中可训练的参数数量限制在0.1G。结果显示，与完全微调版本相比，性能略有下降。然而，与BiRefNet（215M）和SelfReformer（220M）等模型相比，尽管可训练参数较少，冻结 Backbone 网络的FOCUS模型仍然能够达到或超过之前的最先进性能。

作者使用论文中 Backbone 网络的PCA降维特征图来初始化transformer解码器的第一层。如图4所示，这些PCA降维特征图在训练早期就开始展现出强烈的语义特征。随着训练的进行，作者惊喜地发现，即使没有进一步的正向传播，仅通过PCA简化的块级特征图也能接近真实质量。与随机初始化相比，使用这些特征图进行初始化为后续的 Mask 注意力提供了一个有价值的空间先验。

结论

本文提出了一种名为FOCUS的统一多模态方法，旨在解决前景分割的多个子任务。

作者利用目标 Query 的概念来处理前景分割任务，并开发了一个多尺度语义网络，该网络同时执行前景和背景分割，充分利用图像的背景信息以优化预测。

此外，作者还引入了一种新型蒸馏方法，该方法整合了对比学习策略，以增强边界感知的前景分割。从理论上讲，作者的模型可以扩展到任何前景分割任务。在多个数据集上进行的广泛实验证明了作者提出框架的有效性。

参考

[1]. FOCUS: Towards Universal Foreground Segmentation .

点击上方卡片，关注

「AI视界引擎」

公众号