FOCUS:多尺度语义网络结合蒸馏与对比学习,多任务前景分割全面领先!

大模型机器学习算法

点击下方卡片,关注

「AI视界引擎」

公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

前景分割是计算机视觉中的一个基本任务,涵盖了各种细分任务。以往的研究通常为每个任务设计特定的架构,导致缺乏统一性。此外,它们主要关注识别前景目标,而没有有效地将它们与背景区分开来。

在本文中,作者强调了背景及其与前景之间关系的重要性。作者引入了FOCUS(前景目标通用分割框架),它能够处理多个前景任务。作者开发了一个多尺度语义网络,利用目标的边缘信息来增强图像特征。

为了实现边界感知的分割,作者提出了一种新颖的蒸馏方法,结合对比学习策略,在多模态特征空间中细化预测 Mask 。

作者在5个任务上对总共13个数据集进行了广泛的实验,结果表明,FOCUS在大多数指标上始终优于最先进的特定任务模型。

引言

前景分割是计算机视觉中的一个基础任务,其主要目标是区分图像中显著目标(前景)与其他部分(背景),通常涉及显著目标检测(SOD)和伪装目标检测(COD)(潘等,2022a,2024a)。在本文中,前景分割的概念可以扩展到识别图像中最感兴趣的目标,其主要目标是获取兴趣 Mask (MoI),例如,MoI应表示COD中的伪装目标 Mask 。根据此定义,如阴影检测(SD)、失焦模糊检测(DBD)、伪造检测(FD)等任务也属于前景分割的范畴。

目前,在通用分割领域,例如实例分割、语义分割和全景分割等,已经存在许多复杂的模型(Kirillov等人,2023;Cheng等人,2022;Jain等人,2023;Ding等人,2023b,a)。然而,这些模型通常缺乏针对特定前景分割任务的有针对性训练。例如,在COD任务中,SAM难以区分伪装物体与背景(Hu等人,2024)。此外,没有 Prompt 引导的方法,大多数传统分割算法会同时为一张图像生成多个 Mask (Cheng、Schwing和Kirillov,2021;Cheng等人,2022;Jain等人,2023),但在许多实际场景中,用户并不需要如此多的 Mask ,例如图像背景去除,MoI(目标物体)就是他们所需的一切。而前景分割通常只生成单个或特定类型的 Mask ,这使得它更符合用户需求。

图1:FOCUS采用一个统一的架构,能够处理各种前景分割任务。作者提出的方法能够生成比之前最先进任务特定模型更平滑、更详细的边界感知 Mask 。放大查看更多细节。

picture.image

然而,如前所述,当前景的概念被泛化为MoI时,前景分割任务的范围非常广泛。目前,尚缺乏一个优秀且通用的框架,能够处理所有前景分割任务。大多数前景分割模型都是针对特定任务的(王等,2022a;赵等,2021;朱等,2021;郑等,2024a;谢等,2022;王等,2022b)。一些模型(庞等,2024a,2022a)在SOD和COD任务中实现了通用性,但由于COD和SOD任务之间的相似性,它们在此处不会被作为通用模型讨论。据作者所知,与作者工作最接近的是(刘等,2023)。然而,在细分任务中进行微调后,它仍然在特定任务模型之后有显著差距。

此外,之前的背景分割模型主要关注识别前景目标,而没有有效地将它们与背景区分开来,忽视了背景以及背景与前景之间的关系。实际上,背景信息在计算机视觉任务中起着至关重要的作用。前景分割本身涉及将前景与背景区分开来,使得两者及其关系都至关重要。然而,现有方法未能单独处理背景分割。因此,这种疏忽影响了前景分割的整体性能。

上述问题可以概括如下:

(1)如何一般性地表示不同前景分割任务的前景和背景?

(2)如何充分利用图像的背景信息来优化预测结果?在本文中,作者引入了FOCUS,这是一种统一的多模态方法,用于解决前景分割的多个细分任务。

为了全面地表示前景和背景,作者借鉴了DETR(Carion等人,2020年)中的目标 Query 概念,引入了地面 Query 。作者采用多尺度策略(Cheng等人,2022年)提取图像特征,以供Transformer解码器使用,通过 Mask 注意力使地面 Query 能够专注于与前景和背景相对应的相关特征。作者利用从主干网络获取的特征图来初始化 Mask 注意力,这可以作为一个定位先验。在这个过程中,地面 Query 通过适应学习与不同任务上下文相关的特征,使其成为通用特征。

为了充分利用图像中的背景信息,作者采用了对比学习策略。作者提出了CLIP精炼器,利用CLIP(Radford等,2021年)强大的多模态学习能力来纠正先前模块生成的 Mask 。作者将 Mask 与图像融合,并在多模态特征空间中对融合图像及其对应文本进行对齐以精炼 Mask 。这不仅精炼了 Mask 的边缘,还突出了前景与背景之间的区别。作者将前景分割和背景分割视为两个独立任务,在推理阶段,前景和背景的概率图将共同决定MoI的边界。

作者在五个前景分割任务中针对13个数据集进行了详细实验,并在大多数提供的指标上达到了或超过了现有最佳水平。图1展示了作者提出的FOCUS在前景分割的不同子任务上的卓越表现。

作者的贡献可以概括如下:作者提出了一种统一的框架,用于前景分割任务,包括SOD、COD、SD、DBD和FD;作者提出了一种新颖的模块,采用对比学习策略,利用背景信息来细化 Mask ,同时扩大前景与背景之间的距离;作者在多个数据集和多个任务上进行了广泛的实验,结果表明,作者的方法达到了最先进的性能。

相关研究工作
前景分割

如前所述,前景分割中存在几个关键任务,包括显著目标检测(SOD)、伪装目标检测(COD)、阴影检测(SD)、失焦模糊检测(DBD)和伪造检测(FD)。SOD旨在从输入图像中分割出最具视觉吸引力的目标。COD专注于融入周围环境的伪装目标,例如拟态动物和身体彩绘。SD旨在从自然场景中分割阴影区域。DBD旨在分离清晰与模糊区域,这是由相机不同焦距引起的,与SOD略有不同。FD的目标是识别图像中的修改或篡改区域,通常涉及添加、替换或删除。以往模型通常为特定的前景分割任务设计架构(王等,2022a;赵等,2021;朱等,2021;郑等,2024a;谢等,2022),目前,缺乏有效的方法来处理这些前景分割任务。

通用分割

通用分割已成为计算机视觉领域的一个重要趋势。其目标是在单一框架内统一各种分割任务。这一趋势始于通过全景分割(Kirillov等人,2019年)统一语义分割和实例分割的尝试,并自此扩展到更广泛的任务。近期的研究工作转向设计具有泛化能力和多面性的通用分割模型。Mask2Former(Cheng等人,2022年)利用 Mask 注意力机制统一实例、语义和全景分割。OneFormer(Jain等人,2023年)进一步通过一次多任务训练设计改进了Mask2Former。更近的方法如SAM(Kirillov等人,2023年)通过零样本分割的能力推动了通用分割的边界。在前景分割领域,与作者最相关的统一架构是EVP(Liu等人,2023年)。EVP冻结了一个预训练模型,然后使用 Adapter 结构学习特定任务的知

图2:作者所提出的FOCUS概述,这是一个用于通用前景分割的多尺度、多模态语义框架,主要包括主干网络、边缘增强器、特征解码器和CLIP细化器。具体细节请参阅正文。

picture.image

方法

在本文中,作者采用了以下方法来研究并解决提出的问题:

  1. 数据收集:通过公开数据集和特定领域的数据源,作者收集了相关数据,以确保研究的全面性和代表性。
  2. 特征提取:运用机器学习技术,从收集的数据中提取关键特征,为后续分析提供支持。
  3. 模型构建:基于深度学习框架,作者构建了多个模型,以评估不同算法在解决特定任务中的性能。
  4. 模型训练与优化:通过调整模型参数,作者在验证集上对模型进行训练和优化,以提高模型的准确性和泛化能力。
  5. 性能评估:利用测试集对模型进行性能评估,比较不同算法和模型在各项指标上的表现。
  6. 结果分析与讨论:对实验结果进行分析,探讨不同方法的优势与不足,为后续研究提供参考。

请注意,如果遇到不确定的术语或表达,请随时提供 Query 或确认的选项。

统一架构

此前,处理所有前景分割子任务的统一架构尚不存在。针对不同前景分割任务提供的图像,作者的目标是利用统一架构在任务语境中预测相应的MoI(Most Important Object)。该问题可以定义为:

代表不同的前景分割任务,

属于

的统一框架

应从图像

中推理出相应的 MoI。作者提出了 FOCUS,这是一个能够处理多个前景分割任务的统一架构。作者借鉴了 (Carion 等人,2020) 中的目标 Query 概念,并在本文中引入了地面 Query

。GQ 是两个不同的张量,分别被指定为前景 Query 和背景 Query ,作者的目标是仅使用这两个学习到的张量,根据任务上下文,分别对图像中的前景和背景进行嵌入和表示。图2 提供了作者的方法 FOCUS 的概述。在从 Backbone 网络和边缘增强器获取多尺度边缘增强特征后,像素解码器将生成像素级输出,这些像素级特征将被输入到带有 GQ 的 Transformer 解码器中,其中

通过 Mask 注意力(Cheng 等人,2022)进行更新,以获得以地面为中心的输出。它可以表示为:

在这里,

属于

,表示来自像素解码器第一个块的线性变换后的

维图像特征,

指的是来自第一个变换解码器块的 Query 特征,而

由变换解码器的输入 Query 特征初始化。

是第一个地面 Query ,

定义为:

是通过解码

并进行二值化得到的,其维度调整与

DINOv2(Oquab 等人,2023)保持一致。DINOv2 是一种最近提出的模型,旨在进行视觉表示学习。其特征图的可视化表明,DINOv2 在无监督的情况下已经关注了图像中的显著物体,相比其他基础模型(Wang 等人,2022c;Meng 等人,2022),展现了更为丰富的语义。

在这里,

指的是来自最后一个 Backbone 块的二进制特征图。它被调整到与

相同的分辨率。采用新的初始化方法可以利用 DINOv2 在大规模数据上学习到的定位先验知识。

作者采用了两个多层感知器,分别称为 Mask 头和分类头,用于解码地面 Query ,并为前景和背景生成 Mask 和分类预测。在推理阶段,将前景和背景的概率分布结合,以预测最终的MoI(物体重要性)。

边缘增强器

为了利用物体的边缘信息,作者提出了边缘增强器,这是一个有效的模块,它利用前景物体的边缘信息来校正由主干网络获取的图像特征。

受到近期研究表明卷积有助于Transformer理解局部空间信息(Chen等人,2022;Wang等人,2022c)的启发,作者使用ResNet50(He等人,2016)从图像中提取边缘特征。作者将图像转换为灰度以减少颜色带来的混淆,应用高斯平滑(Davies,2004)以降低噪声,然后使用边缘检测器(Canny,1986)获取梯度图并将其叠加到原始图像上。如图2所示,ResNet可以划分为STEM和其他部分,STEM作为初始特征提取器,包含一系列卷积、批量归一化和ReLU激活层。其余卷积块输出的结果将通过

卷积进行扩展并投影到相同的特征金字塔维度

,然后进行连接,以获得代表输入图像分辨率的

。随后,作者遵循ViT-Adapter(Chen等人,2022)的方法,使用基于交叉注意的注入器-提取器结构来融合来自主干和ResNet的图像特征。注入器可以表示为:

MSDA指的是多尺度可变形注意力(Zhu等人,2020年),它将归一化的主干特征

作为 Query ,将归一化的边缘特征

作为 Key和Value 。

是一个用于平衡主干特征和融合特征的可学习参数。同样,提取器可以表示为:

这是一种类似于注入器的多尺度可变形注意力机制,它将归一化边缘特征

作为 Query ,并将输出特征

作为 Key和Value 。ConvFFN指的是包含两个全连接层和一个深度可分离卷积层的结构。

将作为下一个注入器的输入。作者将主干网络的输出从不同的块上采样到1/4、1/8、1/16和1/32的分辨率。此外,作者还分割了最后一个提取器的输出,并将它们恢复到原始大小。然后,作者将上采样的主干网络特征与提取器相应的分割输出以及STEM的输出相加,得到边缘增强的多尺度图像特征。这些特征将被输入到像素解码器,另一个基于多尺度可变形注意力的模块,以进行密集的像素级预测。

CLIP精炼器

自CLIP提出以来,许多研究开始利用CLIP进行分割(Xu等人,2022年;Li等人,2022年;Wang等人,2022年d;Liang等人,2023年),这些研究证明了CLIP不仅在图像层面有效,在像素层面也具有高效性。在本文中,作者提出了CLIP精炼器,该精炼器利用CLIP强大的多模态能力来校正前景和背景的 Mask 。

具体来说,作者将地面 Query 解码以获取前景和背景的 Mask ,对它们进行缩放,并将它们叠加到图像上。作者使用 Prompt 语“这是一张无背景的显著物体图像。”和“这是一张移除显著物体的背景图像?”来分别表示前景和背景。请注意,文本可以根据任务进行调整。例如,在阴影检测中, Prompt 语可以替换为“这是一张无背景的阴影图像?”和“这是一张无阴影的背景图像”,以将CLIP精炼器扩展到其他前景分割任务。作者借鉴了CLIP中的图像编码器和文本编码器来分别编码图像和文本。然后,作者计算 Mask 融合图像和文本特征之间的对比损失(

)。

以下是对所提供英文AI学术论文文本的翻译:

在此,

表示由CLIP获取的前景和背景的

维图像特征和文本特征,

是用于控制softmax函数平滑度的温度参数。CLIP精炼器迭代地精炼前一个模块生成的 Mask 边缘,确保只将适当的像素包含在前景或背景中。这一过程使得 Mask 融合的图像与特征空间中的对应文本更加吻合,同时将其与不匹配的文本区分开来。这不仅使得 Mask 边缘更加准确,而且扩大了前景与背景之间的差距。CLIP精炼器仅用于从CLIP中提炼知识,并在推理阶段被舍弃。此外,作者完全冻结图像和文本编码器,以充分利用CLIP的多模态能力,避免由于微调可能导致的性能下降。

表1:FOCUS与近期最先进的目标检测方法的比较。

picture.image

表2:FOCUS与近期最先进的SOD方法的比较。

picture.image

训练目标

为了联合执行前景和背景分割,作者将前景分割数据集转换为二进制形式,其中白色区域代表前景真实值,黑色区域代表背景真实值。参考(Cheng等人,2022年),作者使用二进制交叉熵(

)和dice损失(

)的组合作为 Mask 的损失函数,其中:

近期研究表明(Li等,2023),并行执行目标检测和分割可以相互受益。在本文中,作者以真实 Mask 的矩形边界作为真实边界框来执行目标检测。作者将L1回归损失(

)和广义IoU损失(

)的组合作为

的损失函数,其可以表示为:

分别设置为 5.0 和 2.0。作者采用标准的交叉熵损失函数作为

。最终的训练目标定义如下:

在这里,

分别表示对应损失的权重,均设置为1.0、1.0、5.0和1.0。为了找到成本最低的分配,作者采用匈牙利算法(Carion等人,2020年;Cheng、Schwing和Kirillov,2021年)在预测值和真实值之间进行匹配。

实验
数据集与评估指标

对于COD,作者遵循(Fan等人,2021;Zheng等人,2024a)的方法,在CAMO-TR(Le等人)的基础上,训练FOCUS模型。

本文主要关注了之前关于COD、SOD、SD、DBD和FD的方法,并对其进行了深入分析。针对COD10K-TR(Fan等人,2020年)和COD10K-TE(Fan等人,2020年)进行了评估,并在CAMO-TE、COD10K-TE、CHAMELEON(Skurowski等人,2018年)以及NC4K(Lv等人,2021年)上进行了测试。作者使用S度量(

)、E度量(

)、加权F度量(

)和平均绝对误差

来评估FOCUS。

在SOD任务中,作者遵循(Wang等,2023)的方法,使用DUTSTR(Wang等,2017)作为训练数据集,不添加额外数据,分别在DUTS-TE、DUT-OMRON(Yang等,2013)、HKU-IS(Li和Yu,2015)、ECSSD(Shi等,2015)和PACAL-S(Li等,2014)上评估作者的模型。作者将

作为SOD的评估指标。

在针对SD的情况下,作者采用ISTD(王、李、杨2018)作为作者的训练和评估数据集,并使用平衡错误率(BCE)作为衡量标准。对于DBD,作者参考前人研究(赵等人2018),采用CUHK(石、徐、贾2014)和DUT(赵等人2018)的结合作为训练数据集,并使用CUHK剩余的100张图片和DUT的500张图片进行测试,衡量标准使用F-measure(

的F-measure)和平均绝对误差(MAE)。遵循(王等人2022a)的方法,作者使用CASIA-2.0(董、王、谭2013)作为训练数据集,并在CASIA-1.0上进行评估,使用像素级F1分数和曲线下面积(AUC)作为评估指标。

实施细节

作者在所有实验中使用了批大小为8,并配备了2个具有48G内存的NVIDIA A6000 GPU。FOCUS模型在每个训练数据集上训练,数据集大小为

,平均迭代20,000次,使用AdamW优化器(Loshchilov和Hutter 2017)。初始学习率设置为

,权重衰减为0.05以正则化模型。使用L2范数进行梯度裁剪,梯度允许的最大值为0.01。作者使用在ADE20K(Zhou等,2017)上预训练的DINOv2-G(Oquab等,2023)作为作者SoTA模型的 Backbone 网络。作者的框架使用PyTorch 2.1.1(Paszke等,2019)实现。

主要结果

与最先进的任务特定方法的比较。作者将作者提出的FOCUS与最近提出的针对COD的模型进行比较,包括SINet(Fan等,2020年)、PFNet(Mei等,2021年)、ZoomNet(Pang等,2022b)、BSA-Net(Zhu等,2022年)、FSPNet(Huang等,2023年)、ZoomNeXt(Pang等,2024b)和BiRefNet(Zheng等,2024b),以及针对SOD的模型,包括MENet(Wang等,2023年)、SelfReformer(Yun和Lin,2023年)、BBRF(Ma等,2021年)和VST(Liu等,2021年),针对SD任务的模型包括BDRAR(Zhu等,2018年)、DSD(Zheng等,2019年)、MTMT(Chen等,2020年)、FDRNet(Zhu等,2021年)和SILT(Yang等,2023年),针对DBD的模型包括DeFusionNet(Tang等,2020年)、CENet(Zhao等,2019年)、DAD(Zhao、Shang和Lu,2021年)、EFENet(Zhao等,2021年)和DD(Cun和Pun,2020年),以及针对FD的模型包括ManTra(Wu、AbdAlmageed和Natarajan,2019年)、SPAN(Hu等,2020年)、PSCCNet(Liu等,2022年)、TransForensics(Hao等,2021年)和ObjectFormer(Wang等,2022a)。在涵盖5个任务的13个数据集上,FOCUS在大多数指标上均优于这些最先进模型。表1-3展示了作者提出的FOCUS与先前最先进模型之间的定量比较。定性比较见图3。

picture.image

在最具挑战性的前景分割任务COD中,该任务要求模型识别其周围环境中混合的目标,FOCUS在四个主流数据集上的大多数指标上都优于现有的SoTA方法。对于SOD任务,FOCUS在几乎所有指标上超过了特定任务的模型,特别是在

方面平均提高了1.8%。在SD任务中,FOCUS在ISTD数据集上对之前的SoTA有显著超越,比特误差率(BER)降低了10.3%。在DBD任务中,FOCUS在DUT上通过

指标提高了2.1%,超越了之前的SoTA。在FD任务中,FOCUS也在很大程度上超过了之前的SoTA模型,

指标提高了23.8%,

指标提高了3.8%。

表4:FOCUS提出的模块或方法的消融研究结果,包括CLIP Refiner(CR)、联合预测(JP)、边缘增强器(EE)和预训练(PR)。

表示使用冻结的DINOv2主干网络进行训练。

picture.image

图4:展示了基于主成分分析(PCA)的降维在特征图跨不同迭代中的可视化。

picture.image

比较最先进的统一方法。如前所述,目前缺乏一种统一的架构来处理所有前景任务。据作者所知,EVPv1和EVPv2(刘等,2023)是作者FOCUS在统一前景任务方面最接近的研究工作。为了展示FOCUS作为统一框架的优越性,作者在多个数据集上对FOCUS与EVPv1和EVPv2进行了广泛的实验比较。作者的结果表明,在所有指标上,FOCUS均优于EVPv1和EVPv2。这突出了FOCUS有效处理各种前景分割任务的能力,证明相较于现有的统一方法,它是一个更灵活且功能强大的模型。

消融研究

在本节中,作者进行了消融实验以分析FOCUS的性质。作者以配备DINOv2-L Backbone 网络的Mask2Former作为鲁棒的 Baseline ,并选择最具代表性的前景分割任务COD和SOD作为消融任务。对于COD,作者选择了主流数据集CAMO;对于SOD,作者选择了PASCAL-S。为确保一致性,所有实验均采用相同的训练方法,批次大小为2。COD的训练迭代次数设置为10,000次,SOD设置为20,000次。每个模块或方法相关的定量结果展示于表4。

如表所示,使用CLIP精炼器的FOCUS变体比未使用它的表现更好,这得益于从CLIP中提取的多模态知识。作者将具有联合预测的变体设置为同时进行前景分割和背景分割,与 Baseline 相比,这可以略微提升FOCUS的性能。此外,借助边缘增强器将目标的边缘信息注入到 Backbone 图像特征中,DINOv2变体的性能在所提供的指标上显著提高。作者还评估了在ADE20K上的预训练效果,这显示出适度的改进。

作者采用DINOv2-G作为作者的SoTA模型的 Backbone 网络,这不可避免地导致参数数量庞大。为确保比较的公平性,作者冻结了DINOv2-G Backbone 网络,将模型中可训练的参数数量限制在0.1G。结果显示,与完全微调版本相比,性能略有下降。然而,与BiRefNet(215M)和SelfReformer(220M)等模型相比,尽管可训练参数较少,冻结 Backbone 网络的FOCUS模型仍然能够达到或超过之前的最先进性能。

作者使用论文中 Backbone 网络的PCA降维特征图来初始化transformer解码器的第一层。如图4所示,这些PCA降维特征图在训练早期就开始展现出强烈的语义特征。随着训练的进行,作者惊喜地发现,即使没有进一步的正向传播,仅通过PCA简化的块级特征图也能接近真实质量。与随机初始化相比,使用这些特征图进行初始化为后续的 Mask 注意力提供了一个有价值的空间先验。

结论

本文提出了一种名为FOCUS的统一多模态方法,旨在解决前景分割的多个子任务。

作者利用目标 Query 的概念来处理前景分割任务,并开发了一个多尺度语义网络,该网络同时执行前景和背景分割,充分利用图像的背景信息以优化预测。

此外,作者还引入了一种新型蒸馏方法,该方法整合了对比学习策略,以增强边界感知的前景分割。从理论上讲,作者的模型可以扩展到任何前景分割任务。在多个数据集上进行的广泛实验证明了作者提出框架的有效性。

参考

[1]. FOCUS: Towards Universal Foreground Segmentation .

点击上方卡片,关注

「AI视界引擎」

公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论