点击下方卡片,关注
「AI视界引擎」
公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
前景分割是计算机视觉中的一个基本任务,涵盖了各种细分任务。以往的研究通常为每个任务设计特定的架构,导致缺乏统一性。此外,它们主要关注识别前景目标,而没有有效地将它们与背景区分开来。
在本文中,作者强调了背景及其与前景之间关系的重要性。作者引入了FOCUS(前景目标通用分割框架),它能够处理多个前景任务。作者开发了一个多尺度语义网络,利用目标的边缘信息来增强图像特征。
为了实现边界感知的分割,作者提出了一种新颖的蒸馏方法,结合对比学习策略,在多模态特征空间中细化预测 Mask 。
作者在5个任务上对总共13个数据集进行了广泛的实验,结果表明,FOCUS在大多数指标上始终优于最先进的特定任务模型。
前景分割是计算机视觉中的一个基础任务,其主要目标是区分图像中显著目标(前景)与其他部分(背景),通常涉及显著目标检测(SOD)和伪装目标检测(COD)(潘等,2022a,2024a)。在本文中,前景分割的概念可以扩展到识别图像中最感兴趣的目标,其主要目标是获取兴趣 Mask (MoI),例如,MoI应表示COD中的伪装目标 Mask 。根据此定义,如阴影检测(SD)、失焦模糊检测(DBD)、伪造检测(FD)等任务也属于前景分割的范畴。
目前,在通用分割领域,例如实例分割、语义分割和全景分割等,已经存在许多复杂的模型(Kirillov等人,2023;Cheng等人,2022;Jain等人,2023;Ding等人,2023b,a)。然而,这些模型通常缺乏针对特定前景分割任务的有针对性训练。例如,在COD任务中,SAM难以区分伪装物体与背景(Hu等人,2024)。此外,没有 Prompt 引导的方法,大多数传统分割算法会同时为一张图像生成多个 Mask (Cheng、Schwing和Kirillov,2021;Cheng等人,2022;Jain等人,2023),但在许多实际场景中,用户并不需要如此多的 Mask ,例如图像背景去除,MoI(目标物体)就是他们所需的一切。而前景分割通常只生成单个或特定类型的 Mask ,这使得它更符合用户需求。
图1:FOCUS采用一个统一的架构,能够处理各种前景分割任务。作者提出的方法能够生成比之前最先进任务特定模型更平滑、更详细的边界感知 Mask 。放大查看更多细节。
然而,如前所述,当前景的概念被泛化为MoI时,前景分割任务的范围非常广泛。目前,尚缺乏一个优秀且通用的框架,能够处理所有前景分割任务。大多数前景分割模型都是针对特定任务的(王等,2022a;赵等,2021;朱等,2021;郑等,2024a;谢等,2022;王等,2022b)。一些模型(庞等,2024a,2022a)在SOD和COD任务中实现了通用性,但由于COD和SOD任务之间的相似性,它们在此处不会被作为通用模型讨论。据作者所知,与作者工作最接近的是(刘等,2023)。然而,在细分任务中进行微调后,它仍然在特定任务模型之后有显著差距。
此外,之前的背景分割模型主要关注识别前景目标,而没有有效地将它们与背景区分开来,忽视了背景以及背景与前景之间的关系。实际上,背景信息在计算机视觉任务中起着至关重要的作用。前景分割本身涉及将前景与背景区分开来,使得两者及其关系都至关重要。然而,现有方法未能单独处理背景分割。因此,这种疏忽影响了前景分割的整体性能。
上述问题可以概括如下:
(1)如何一般性地表示不同前景分割任务的前景和背景?
(2)如何充分利用图像的背景信息来优化预测结果?在本文中,作者引入了FOCUS,这是一种统一的多模态方法,用于解决前景分割的多个细分任务。
为了全面地表示前景和背景,作者借鉴了DETR(Carion等人,2020年)中的目标 Query 概念,引入了地面 Query 。作者采用多尺度策略(Cheng等人,2022年)提取图像特征,以供Transformer解码器使用,通过 Mask 注意力使地面 Query 能够专注于与前景和背景相对应的相关特征。作者利用从主干网络获取的特征图来初始化 Mask 注意力,这可以作为一个定位先验。在这个过程中,地面 Query 通过适应学习与不同任务上下文相关的特征,使其成为通用特征。
为了充分利用图像中的背景信息,作者采用了对比学习策略。作者提出了CLIP精炼器,利用CLIP(Radford等,2021年)强大的多模态学习能力来纠正先前模块生成的 Mask 。作者将 Mask 与图像融合,并在多模态特征空间中对融合图像及其对应文本进行对齐以精炼 Mask 。这不仅精炼了 Mask 的边缘,还突出了前景与背景之间的区别。作者将前景分割和背景分割视为两个独立任务,在推理阶段,前景和背景的概率图将共同决定MoI的边界。
作者在五个前景分割任务中针对13个数据集进行了详细实验,并在大多数提供的指标上达到了或超过了现有最佳水平。图1展示了作者提出的FOCUS在前景分割的不同子任务上的卓越表现。
作者的贡献可以概括如下:作者提出了一种统一的框架,用于前景分割任务,包括SOD、COD、SD、DBD和FD;作者提出了一种新颖的模块,采用对比学习策略,利用背景信息来细化 Mask ,同时扩大前景与背景之间的距离;作者在多个数据集和多个任务上进行了广泛的实验,结果表明,作者的方法达到了最先进的性能。
如前所述,前景分割中存在几个关键任务,包括显著目标检测(SOD)、伪装目标检测(COD)、阴影检测(SD)、失焦模糊检测(DBD)和伪造检测(FD)。SOD旨在从输入图像中分割出最具视觉吸引力的目标。COD专注于融入周围环境的伪装目标,例如拟态动物和身体彩绘。SD旨在从自然场景中分割阴影区域。DBD旨在分离清晰与模糊区域,这是由相机不同焦距引起的,与SOD略有不同。FD的目标是识别图像中的修改或篡改区域,通常涉及添加、替换或删除。以往模型通常为特定的前景分割任务设计架构(王等,2022a;赵等,2021;朱等,2021;郑等,2024a;谢等,2022),目前,缺乏有效的方法来处理这些前景分割任务。
通用分割已成为计算机视觉领域的一个重要趋势。其目标是在单一框架内统一各种分割任务。这一趋势始于通过全景分割(Kirillov等人,2019年)统一语义分割和实例分割的尝试,并自此扩展到更广泛的任务。近期的研究工作转向设计具有泛化能力和多面性的通用分割模型。Mask2Former(Cheng等人,2022年)利用 Mask 注意力机制统一实例、语义和全景分割。OneFormer(Jain等人,2023年)进一步通过一次多任务训练设计改进了Mask2Former。更近的方法如SAM(Kirillov等人,2023年)通过零样本分割的能力推动了通用分割的边界。在前景分割领域,与作者最相关的统一架构是EVP(Liu等人,2023年)。EVP冻结了一个预训练模型,然后使用 Adapter 结构学习特定任务的知
图2:作者所提出的FOCUS概述,这是一个用于通用前景分割的多尺度、多模态语义框架,主要包括主干网络、边缘增强器、特征解码器和CLIP细化器。具体细节请参阅正文。
在本文中,作者采用了以下方法来研究并解决提出的问题:
- 数据收集:通过公开数据集和特定领域的数据源,作者收集了相关数据,以确保研究的全面性和代表性。
- 特征提取:运用机器学习技术,从收集的数据中提取关键特征,为后续分析提供支持。
- 模型构建:基于深度学习框架,作者构建了多个模型,以评估不同算法在解决特定任务中的性能。
- 模型训练与优化:通过调整模型参数,作者在验证集上对模型进行训练和优化,以提高模型的准确性和泛化能力。
- 性能评估:利用测试集对模型进行性能评估,比较不同算法和模型在各项指标上的表现。
- 结果分析与讨论:对实验结果进行分析,探讨不同方法的优势与不足,为后续研究提供参考。
请注意,如果遇到不确定的术语或表达,请随时提供 Query 或确认的选项。
此前,处理所有前景分割子任务的统一架构尚不存在。针对不同前景分割任务提供的图像,作者的目标是利用统一架构在任务语境中预测相应的MoI(Most Important Object)。该问题可以定义为:
代表不同的前景分割任务,
属于
的统一框架
应从图像
中推理出相应的 MoI。作者提出了 FOCUS,这是一个能够处理多个前景分割任务的统一架构。作者借鉴了 (Carion 等人,2020) 中的目标 Query 概念,并在本文中引入了地面 Query
。GQ 是两个不同的张量,分别被指定为前景 Query 和背景 Query ,作者的目标是仅使用这两个学习到的张量,根据任务上下文,分别对图像中的前景和背景进行嵌入和表示。图2 提供了作者的方法 FOCUS 的概述。在从 Backbone 网络和边缘增强器获取多尺度边缘增强特征后,像素解码器将生成像素级输出,这些像素级特征将被输入到带有 GQ 的 Transformer 解码器中,其中
通过 Mask 注意力(Cheng 等人,2022)进行更新,以获得以地面为中心的输出。它可以表示为:
在这里,
属于
,表示来自像素解码器第一个块的线性变换后的
维图像特征,
指的是来自第一个变换解码器块的 Query 特征,而
由变换解码器的输入 Query 特征初始化。
是第一个地面 Query ,
定义为:
是通过解码
并进行二值化得到的,其维度调整与
DINOv2(Oquab 等人,2023)保持一致。DINOv2 是一种最近提出的模型,旨在进行视觉表示学习。其特征图的可视化表明,DINOv2 在无监督的情况下已经关注了图像中的显著物体,相比其他基础模型(Wang 等人,2022c;Meng 等人,2022),展现了更为丰富的语义。
在这里,
指的是来自最后一个 Backbone 块的二进制特征图。它被调整到与
相同的分辨率。采用新的初始化方法可以利用 DINOv2 在大规模数据上学习到的定位先验知识。
作者采用了两个多层感知器,分别称为 Mask 头和分类头,用于解码地面 Query ,并为前景和背景生成 Mask 和分类预测。在推理阶段,将前景和背景的概率分布结合,以预测最终的MoI(物体重要性)。
为了利用物体的边缘信息,作者提出了边缘增强器,这是一个有效的模块,它利用前景物体的边缘信息来校正由主干网络获取的图像特征。
受到近期研究表明卷积有助于Transformer理解局部空间信息(Chen等人,2022;Wang等人,2022c)的启发,作者使用ResNet50(He等人,2016)从图像中提取边缘特征。作者将图像转换为灰度以减少颜色带来的混淆,应用高斯平滑(Davies,2004)以降低噪声,然后使用边缘检测器(Canny,1986)获取梯度图并将其叠加到原始图像上。如图2所示,ResNet可以划分为STEM和其他部分,STEM作为初始特征提取器,包含一系列卷积、批量归一化和ReLU激活层。其余卷积块输出的结果将通过
的
卷积进行扩展并投影到相同的特征金字塔维度
,然后进行连接,以获得代表输入图像分辨率的
和
。随后,作者遵循ViT-Adapter(Chen等人,2022)的方法,使用基于交叉注意的注入器-提取器结构来融合来自主干和ResNet的图像特征。注入器可以表示为:
MSDA指的是多尺度可变形注意力(Zhu等人,2020年),它将归一化的主干特征
作为 Query ,将归一化的边缘特征
作为 Key和Value 。
是一个用于平衡主干特征和融合特征的可学习参数。同样,提取器可以表示为:
这是一种类似于注入器的多尺度可变形注意力机制,它将归一化边缘特征
作为 Query ,并将输出特征
作为 Key和Value 。ConvFFN指的是包含两个全连接层和一个深度可分离卷积层的结构。
将作为下一个注入器的输入。作者将主干网络的输出从不同的块上采样到1/4、1/8、1/16和1/32的分辨率。此外,作者还分割了最后一个提取器的输出,并将它们恢复到原始大小。然后,作者将上采样的主干网络特征与提取器相应的分割输出以及STEM的输出相加,得到边缘增强的多尺度图像特征。这些特征将被输入到像素解码器,另一个基于多尺度可变形注意力的模块,以进行密集的像素级预测。
自CLIP提出以来,许多研究开始利用CLIP进行分割(Xu等人,2022年;Li等人,2022年;Wang等人,2022年d;Liang等人,2023年),这些研究证明了CLIP不仅在图像层面有效,在像素层面也具有高效性。在本文中,作者提出了CLIP精炼器,该精炼器利用CLIP强大的多模态能力来校正前景和背景的 Mask 。
具体来说,作者将地面 Query 解码以获取前景和背景的 Mask ,对它们进行缩放,并将它们叠加到图像上。作者使用 Prompt 语“这是一张无背景的显著物体图像。”和“这是一张移除显著物体的背景图像?”来分别表示前景和背景。请注意,文本可以根据任务进行调整。例如,在阴影检测中, Prompt 语可以替换为“这是一张无背景的阴影图像?”和“这是一张无阴影的背景图像”,以将CLIP精炼器扩展到其他前景分割任务。作者借鉴了CLIP中的图像编码器和文本编码器来分别编码图像和文本。然后,作者计算 Mask 融合图像和文本特征之间的对比损失(
)。
以下是对所提供英文AI学术论文文本的翻译:
在此,
表示由CLIP获取的前景和背景的
维图像特征和文本特征,
是用于控制softmax函数平滑度的温度参数。CLIP精炼器迭代地精炼前一个模块生成的 Mask 边缘,确保只将适当的像素包含在前景或背景中。这一过程使得 Mask 融合的图像与特征空间中的对应文本更加吻合,同时将其与不匹配的文本区分开来。这不仅使得 Mask 边缘更加准确,而且扩大了前景与背景之间的差距。CLIP精炼器仅用于从CLIP中提炼知识,并在推理阶段被舍弃。此外,作者完全冻结图像和文本编码器,以充分利用CLIP的多模态能力,避免由于微调可能导致的性能下降。
表1:FOCUS与近期最先进的目标检测方法的比较。
表2:FOCUS与近期最先进的SOD方法的比较。
为了联合执行前景和背景分割,作者将前景分割数据集转换为二进制形式,其中白色区域代表前景真实值,黑色区域代表背景真实值。参考(Cheng等人,2022年),作者使用二进制交叉熵(
)和dice损失(
)的组合作为 Mask 的损失函数,其中:
近期研究表明(Li等,2023),并行执行目标检测和分割可以相互受益。在本文中,作者以真实 Mask 的矩形边界作为真实边界框来执行目标检测。作者将L1回归损失(
)和广义IoU损失(
)的组合作为
的损失函数,其可以表示为:
和
分别设置为 5.0 和 2.0。作者采用标准的交叉熵损失函数作为
。最终的训练目标定义如下:
在这里,
、
、
和
分别表示对应损失的权重,均设置为1.0、1.0、5.0和1.0。为了找到成本最低的分配,作者采用匈牙利算法(Carion等人,2020年;Cheng、Schwing和Kirillov,2021年)在预测值和真实值之间进行匹配。
对于COD,作者遵循(Fan等人,2021;Zheng等人,2024a)的方法,在CAMO-TR(Le等人)的基础上,训练FOCUS模型。
本文主要关注了之前关于COD、SOD、SD、DBD和FD的方法,并对其进行了深入分析。针对COD10K-TR(Fan等人,2020年)和COD10K-TE(Fan等人,2020年)进行了评估,并在CAMO-TE、COD10K-TE、CHAMELEON(Skurowski等人,2018年)以及NC4K(Lv等人,2021年)上进行了测试。作者使用S度量(
)、E度量(
)、加权F度量(
)和平均绝对误差
来评估FOCUS。
在SOD任务中,作者遵循(Wang等,2023)的方法,使用DUTSTR(Wang等,2017)作为训练数据集,不添加额外数据,分别在DUTS-TE、DUT-OMRON(Yang等,2013)、HKU-IS(Li和Yu,2015)、ECSSD(Shi等,2015)和PACAL-S(Li等,2014)上评估作者的模型。作者将
作为SOD的评估指标。
在针对SD的情况下,作者采用ISTD(王、李、杨2018)作为作者的训练和评估数据集,并使用平衡错误率(BCE)作为衡量标准。对于DBD,作者参考前人研究(赵等人2018),采用CUHK(石、徐、贾2014)和DUT(赵等人2018)的结合作为训练数据集,并使用CUHK剩余的100张图片和DUT的500张图片进行测试,衡量标准使用F-measure(
的F-measure)和平均绝对误差(MAE)。遵循(王等人2022a)的方法,作者使用CASIA-2.0(董、王、谭2013)作为训练数据集,并在CASIA-1.0上进行评估,使用像素级F1分数和曲线下面积(AUC)作为评估指标。
作者在所有实验中使用了批大小为8,并配备了2个具有48G内存的NVIDIA A6000 GPU。FOCUS模型在每个训练数据集上训练,数据集大小为
,平均迭代20,000次,使用AdamW优化器(Loshchilov和Hutter 2017)。初始学习率设置为
,权重衰减为0.05以正则化模型。使用L2范数进行梯度裁剪,梯度允许的最大值为0.01。作者使用在ADE20K(Zhou等,2017)上预训练的DINOv2-G(Oquab等,2023)作为作者SoTA模型的 Backbone 网络。作者的框架使用PyTorch 2.1.1(Paszke等,2019)实现。
与最先进的任务特定方法的比较。作者将作者提出的FOCUS与最近提出的针对COD的模型进行比较,包括SINet(Fan等,2020年)、PFNet(Mei等,2021年)、ZoomNet(Pang等,2022b)、BSA-Net(Zhu等,2022年)、FSPNet(Huang等,2023年)、ZoomNeXt(Pang等,2024b)和BiRefNet(Zheng等,2024b),以及针对SOD的模型,包括MENet(Wang等,2023年)、SelfReformer(Yun和Lin,2023年)、BBRF(Ma等,2021年)和VST(Liu等,2021年),针对SD任务的模型包括BDRAR(Zhu等,2018年)、DSD(Zheng等,2019年)、MTMT(Chen等,2020年)、FDRNet(Zhu等,2021年)和SILT(Yang等,2023年),针对DBD的模型包括DeFusionNet(Tang等,2020年)、CENet(Zhao等,2019年)、DAD(Zhao、Shang和Lu,2021年)、EFENet(Zhao等,2021年)和DD(Cun和Pun,2020年),以及针对FD的模型包括ManTra(Wu、AbdAlmageed和Natarajan,2019年)、SPAN(Hu等,2020年)、PSCCNet(Liu等,2022年)、TransForensics(Hao等,2021年)和ObjectFormer(Wang等,2022a)。在涵盖5个任务的13个数据集上,FOCUS在大多数指标上均优于这些最先进模型。表1-3展示了作者提出的FOCUS与先前最先进模型之间的定量比较。定性比较见图3。
在最具挑战性的前景分割任务COD中,该任务要求模型识别其周围环境中混合的目标,FOCUS在四个主流数据集上的大多数指标上都优于现有的SoTA方法。对于SOD任务,FOCUS在几乎所有指标上超过了特定任务的模型,特别是在
方面平均提高了1.8%。在SD任务中,FOCUS在ISTD数据集上对之前的SoTA有显著超越,比特误差率(BER)降低了10.3%。在DBD任务中,FOCUS在DUT上通过
指标提高了2.1%,超越了之前的SoTA。在FD任务中,FOCUS也在很大程度上超过了之前的SoTA模型,
指标提高了23.8%,
指标提高了3.8%。
表4:FOCUS提出的模块或方法的消融研究结果,包括CLIP Refiner(CR)、联合预测(JP)、边缘增强器(EE)和预训练(PR)。
表示使用冻结的DINOv2主干网络进行训练。
图4:展示了基于主成分分析(PCA)的降维在特征图跨不同迭代中的可视化。
比较最先进的统一方法。如前所述,目前缺乏一种统一的架构来处理所有前景任务。据作者所知,EVPv1和EVPv2(刘等,2023)是作者FOCUS在统一前景任务方面最接近的研究工作。为了展示FOCUS作为统一框架的优越性,作者在多个数据集上对FOCUS与EVPv1和EVPv2进行了广泛的实验比较。作者的结果表明,在所有指标上,FOCUS均优于EVPv1和EVPv2。这突出了FOCUS有效处理各种前景分割任务的能力,证明相较于现有的统一方法,它是一个更灵活且功能强大的模型。
在本节中,作者进行了消融实验以分析FOCUS的性质。作者以配备DINOv2-L Backbone 网络的Mask2Former作为鲁棒的 Baseline ,并选择最具代表性的前景分割任务COD和SOD作为消融任务。对于COD,作者选择了主流数据集CAMO;对于SOD,作者选择了PASCAL-S。为确保一致性,所有实验均采用相同的训练方法,批次大小为2。COD的训练迭代次数设置为10,000次,SOD设置为20,000次。每个模块或方法相关的定量结果展示于表4。
如表所示,使用CLIP精炼器的FOCUS变体比未使用它的表现更好,这得益于从CLIP中提取的多模态知识。作者将具有联合预测的变体设置为同时进行前景分割和背景分割,与 Baseline 相比,这可以略微提升FOCUS的性能。此外,借助边缘增强器将目标的边缘信息注入到 Backbone 图像特征中,DINOv2变体的性能在所提供的指标上显著提高。作者还评估了在ADE20K上的预训练效果,这显示出适度的改进。
作者采用DINOv2-G作为作者的SoTA模型的 Backbone 网络,这不可避免地导致参数数量庞大。为确保比较的公平性,作者冻结了DINOv2-G Backbone 网络,将模型中可训练的参数数量限制在0.1G。结果显示,与完全微调版本相比,性能略有下降。然而,与BiRefNet(215M)和SelfReformer(220M)等模型相比,尽管可训练参数较少,冻结 Backbone 网络的FOCUS模型仍然能够达到或超过之前的最先进性能。
作者使用论文中 Backbone 网络的PCA降维特征图来初始化transformer解码器的第一层。如图4所示,这些PCA降维特征图在训练早期就开始展现出强烈的语义特征。随着训练的进行,作者惊喜地发现,即使没有进一步的正向传播,仅通过PCA简化的块级特征图也能接近真实质量。与随机初始化相比,使用这些特征图进行初始化为后续的 Mask 注意力提供了一个有价值的空间先验。
本文提出了一种名为FOCUS的统一多模态方法,旨在解决前景分割的多个子任务。
作者利用目标 Query 的概念来处理前景分割任务,并开发了一个多尺度语义网络,该网络同时执行前景和背景分割,充分利用图像的背景信息以优化预测。
此外,作者还引入了一种新型蒸馏方法,该方法整合了对比学习策略,以增强边界感知的前景分割。从理论上讲,作者的模型可以扩展到任何前景分割任务。在多个数据集上进行的广泛实验证明了作者提出框架的有效性。
参考
[1]. FOCUS: Towards Universal Foreground Segmentation .
点击上方卡片,关注
「AI视界引擎」
公众号