点击下方卡片,关注 「AI视界引擎」 公众号
尽管SAM在各种图像分割任务中表现出色,但它面临着在许多场景下预测质量挑战,尤其是在实际环境背景中。在这篇论文中,作者提出了一种名为Prompt Adapter Segment Anything Model(PA-SAM)的新型提示驱动 Adapter ,以增强原始SAM的分割Mask质量。
通过专门训练提示 Adapter ,PA-SAM从图像中提取详细信息,并在稀疏和密集提示 Level 上优化Mask解码器特征,从而提高SAM的分割性能,生成高质量的Mask。实验结果显示,PA-SAM在高质量、零样本和开放集分割方面超过了其他基于SAM的方法。
1 Introduction
图像分割是计算机视觉领域的一个重要任务,具有广泛的应用,包括图像编辑、医学影像和自动驾驶。高质量的分割不仅提供更多详细的Mask,特别是对于高分辨率图像,而且不仅使感知更加精确,而且有助于更深入地理解图像分析。此外,高质量的分割信息可以显著增强对细节敏感的任务,例如超分辨率、合成、去雾等。
最近开发的底层分割模型SAM能够根据提示为任意图像生成多个准确且合理的分割Mask,展示了分割任务中的巨大影响和潜在的进步。后续研究已经扩展了SAM的应用领域。然而,实际应用揭示了SAM在高质量分割性能方面的局限性,特别是在像网球拍和椅子这样的物体上,其分割Mask的边界显得粗糙,对于像风筝绳和昆虫触角这样的细节的预测也存在错误。
为解决上述问题,HQ-SAM引入了一种高质量标记来捕获图像中的更多细节(参见图1(a)), 通过添加仅几个参数就大大提高了SAM的分割质量。然而,HQ-SAM所使用的隐式学习方法使得改进SAM的分割能力具有挑战性,因为它主要关注于提取SAM的分割解码器特征进行分割训练,这与其整体框架相隔离。一些基于提示 Query 的方法利用图像特征生成固定的稀疏提示(参见图1(b)), 它们可以有效地获取目标物体的位置,但很难捕捉到详细的目标信息。此外,集成或增强方法重复使用原始输入稀疏提示,在困难区域获得的收益有限。
因此,高度希望开发一个网络,可以直接为SAM提供详细信息并改进Mask解码器特征。直观上,最直接的途径是提供更多的详细标注,例如额外的点或更精确的Mask。受到这种天真直觉的启发,作者想知道模型是否可以自主提取和传达这些详细信息,从而在不需要额外用户输入的情况下,显著提高SAM的分割质量。
在本文中,作者尝试实现这样的目标。具体而言,作者提出了一个名为Prompt Adapter Segment Anything Model(PA-SAM)的网络,该网络旨在研究图像的不确定区域,并将低级细节信息整合到密集和稀疏提示中,以增强SAM对细节的学习能力(参见图1(c))。
为了捕获细节,作者提出了一种基于提示的 Adapter ,用于自适应细节增强和硬点挖掘。与传统的 Adapter 不同,提示 Adapter 不会优化图像特征,而是优化提示特征来提取关于网络关注区域的详细信息(贡献1)。作者将Mask优化的过程转化为学习一个优化的标记和一个不确定的标记,使模型在困难区域对图像细节更加敏感(贡献2)。此外,作者提出了一种基于Gumbel Top-k操作的硬点挖掘方法,为模型提供直接详细的指导(贡献3)。
在训练过程中,PA-SAM冻结SAM组件,只训练提示 Adapter ,从而保留原始SAM的强大目标定位能力,同时生成高质量的分割图。PA-SAM在高质量数据集HQSeg-44K上实现了领先性能,与之前的最佳状态相比,mIoU提高了1.7%,BmIoU提高了2.7%。此外,该方法在零样本分割和开放集分割数据集上也表现出令人鼓舞的结果。
2 Method
Brief Review of SAM
SAM是一种具有强大零样本分割能力的底层模型,能够根据弱标注输出合理的分割Mask。SAM由以下组件组成:图像编码器、Mask编码器、提示编码器和Mask解码器。图像编码器将输入图像转换为编码特征。Mask编码器将Mask编码为密集提示,而提示编码器将点或边界框编码为稀疏提示。
Mask解码器由多个注意力层组成,将图像特征与提示特征交互以输出最终分割图。尽管SAM在分割任务中展示了强大的能力,但其分割质量严重依赖于输入到Mask解码器的提示是否能够携带详细信息。在没有详细指导的情况下,SAM在实现高质量分割方面的表现不佳。
Overall Framework of PA-SAM
为了捕捉高质量的详细信息,作者的想法是将图像细节转换为多粒度的提示特征,并将其传递给Mask解码器。也就是说,作者以提示驱动的方式微调SAM。基于这个想法,作者提出了一种可训练的提示驱动 Adapter ,并将其集成到SAM中,从而得到了作者的提示 Adapter SAM(PA-SAM)。
PA-SAM的整体架构如图2所示。PA-SAM将图像特征与密集提示相结合,并将其与稀疏提示一起,通过提示 Adapter 将它们传递给Mask解码器。每个块的自我注意力后,提示 Adapter 分别将图像特征和稀疏提示转换为每个块的密集和稀疏 Adapter 提示。随后,输出提示特征以残差方式重新整合到PA-SAM中,以优化Mask解码器的特征表示。在作者这种架构中,模型可以同时利用详细和较少详细的信息,从而提高分割质量。
Prompt Adapter (PA)
为了提高网络在模糊区域学习细节的能力,作者在SAM的Mask解码器中提出了一种可训练的提示驱动 Adapter ,如图3所示。这个模块通过自适应细节增强和困难点挖掘将详细信息集成到网络中,以适应性地捕获基于原始提示的相关细节信息,如下所述。
2.3.1 Adaptive Detail Enhancement
为了捕捉高质量的详细信息,提示 Adapter 通过密集提示补偿和稀疏提示优化来适应性地从图像及其梯度中探索详细信息。
密集提示补偿。 在图像编码过程中,SAM由于其 的下采样导致大量详细信息丢失。为了解决这个问题,作者设计了一个简单的补偿模块,将原始图像 和其梯度 (如Canny操作)编码为引导信息。
然后,通过使用一致表示模块(CRM)作为交叉注意力或引导门(请参阅第3.4节中的详细说明),它可以在输出特征和图像特征之间保持一致性。一般来说,PA的密集提示 可以表示为以下公式:
其中, 表示一致表示模块, 表示卷积操作。
稀疏提示优化。 作者进一步优化稀疏提示特征,使得详细信息能够流入稀疏提示,并增强模型对高质量图像分割的指导。给定原始稀疏提示 ,作者通过标记到图像的交叉注意力将其转换为详细稀疏提示 :
这使作者能够在保留原始弱标签指导的同时优化稀疏提示表示。
此外,作者定义了不确定的标记 来识别具有挑战性的区域,并使用 MLP 对其进行标记 以进行分割。这些标记通过将各自的静态标记与其相连接得到。然后作者得到了三种不同的Mask:粗糙Mask 、细化的Mask 和不确定的Mask 。用于监督 PA-SAM 的中间Mask 如下所示:
2.3.2 Hard Point Mining
基于自适应细节增强,作者进一步提出在稀疏提示中引入直接对纹理细节的指导。为此,作者提出硬点挖掘,它利用了在稀疏提示优化中提到的稀疏Mask 、 和 来构建对采样具有挑战性的点的指导。以正点采样为例,作者首先构建了初始采样指导 。
在训练阶段,为了确保采样点的多样性,作者将 Gumbel-Softmax 操作扩展到 Gumbel top-k 操作。在采样 N 个正点的情况下,具体过程如下:
其中 服从 Gumbel(0,1),, 表示当前样本的 Softmax 输出,定义如下:
将所有 相加得到 (),表示顶k的 Softmax 概率。然后作者使用直通技巧来得到最终的 Gumbel top-k 输出如下:
其中 sg 是停止梯度运算符。
作者使用 在 PA 密集提示 上进行点采样,结果得到 个正点。同样地,负点采样也使用 Gumbel top-k 操作,初始采样由将 用 替换得到。最终得到新的点提示 。
在稀疏提示优化和硬点挖掘之后,更新 PA 稀疏提示 如下:
其中 表示 refined 标记, 表示新的点提示。
3 Experimental Results
Experimental Settings
实现细节。 作者使用 Adam 优化器以学习率 0.001 进行 PA-SAM 的训练,批处理大小为 4。图像分辨率设为 。作者使用 ViT-L 作为图像编码器 Backbone,并采用 BCE 损失和 Dice 损失来监督 和 。不确定图的 GT 值通过扩大 GT Mask的边界得到。对于 ,作者使用 BCE 损失。
作者在 HQSeg-44K 上评估PA-SAM,该数据集包括四个高质量分割数据集:DIS,ThinObject-5K,COIFT 和 HR-SOD。此外,作者在 COCO 上进行零样本设置的评估。此外,作者在 GroundingDINO 零样本分割数据集基准上进行了实验(总共包含 25 个公共零样本野外分割数据集)。
High-Quality Segmentation
表1显示了在高质量分割数据集HQSeg-44K上的分割结果。PA-SAM在所有四个数据集上都显著优于HQ-SAM,平均提高了2.1%的mIoU和2.7%的mBIoU。这表明优化Mask解码器中间特征的详细表示比使用最终特征进行训练更有利于生成高质量的分割图。
通过优化Mask解码器的特征或微调整个Mask解码器,微调方法如SOFT-SAM的性能较低(mIoU降低了1.7%,mBIoU降低了2.9%),这主要是因为PA-SAM可以在不确定的区域内进行细节学习和探索,而其他微调方法基本上学习一个通用的表示,无法为高质量分割带来显著的好处。
此外,基于提示 Query 的方法如RSPrompter在高质量分割数据集上的表现适中,甚至比HQ-SAM表现更差。这表明生成提示不仅依赖于原始图像信息,还依赖于与原始输入提示的交互。PA-SAM利用详细的图像信息来优化提示 Adapter 中原始提示的表达,从而在高质量分割方面表现出杰出的性能。
图4展示了PA-SAM与HQ-SAM的视觉比较。当背景中存在与目标物体非常相似的目标时,PA-SAM比HQ-SAM更能区分它们。例如,在图4(a)中,HQ-SAM错误地将架子旁边的长棍子分割为架子的一部分,而PA-SAM准确地将架子的组成部分分割出来。同样,在图4(c)中,背景中的红色油漆对HQ-SAM产生了很大的影响,导致椅子底部分割得很差。
相比之下,PA-SAM不仅避免了红色油漆的干扰,还更有效地分割了椅子的底部纹理。此外,HQ-SAM显示出SAM固有的损坏Mask(图4(b),左鸟)。这主要是由于稀疏提示的少数或不准确,而PA-SAM可以通过自适应细节增强和硬点挖掘有效地避免损坏Mask的出现。
Zero-Shot and Open-Set Segmentation
COCO上的零样本分割。 表2报告了在COCO上的零样本分割结果。作者使用与HQ-SAM相同的检测器(FocalNet-DINO)来生成目标边界框,然后将其用作PA-SAM的稀疏提示。尽管HQ-SAM在高质量分割数据集上比SAM提高了9.6%的mIoU,但在COCO上只带来了1%的AP提升。PA-SAM进一步提高了0.4%的AP。
目前,基于SAM的零样本分割方法与监督分割方法在分割质量上仍存在一定差距,主要原因是检测器的检测质量瓶颈。检测错误很容易传播到分割器,导致分割质量下降。与HQ-SAM相比,PA-SAM由于通过硬点挖掘丰富了稀疏提示,对检测错误具有更好的抵抗力,因此在零样本分割中更有优势。图5展示了COCO上的几个视觉示例。
在Seginw上进行开放集分割。作者使用GoundingDINO生成边界框,并使用ViT-H作为 Backbone 与PA-SAM进行比较。
如图6所示,PA-SAM实现了50.2%的mAP,比HQ-SAM提高了0.6%。尽管PA-SAM在大多数类别上都有所改进,但对于电动剃须刀、蝴蝶松鼠和杆等几个类别,其性能相对令人不满意。这主要是由于这些类别中存在明显的部件差异,而PA-SAM在这些情况下可能无法将它们正确地分类到其他类别中。
Ablation Study
如图3所示,作者在提示 Adapter 中的自适应细节增强和硬点挖掘进行了系列的消融实验,并分析了提示 Adapter 的嵌入方法。所有实验结果都是在高质量DIS数据集上获得的。
自适应细节增强。 作者将不使用硬点挖掘的密集提示补偿和稀疏提示优化的结果进行比较。密集方法可以得到类似于HQ-SAM的结果。当与稀疏方法相结合时,它导致了mBIoU的0.6%提升。关于一致表示模块,作者观察到将引导门替换为交叉注意力可以得到更好的分割结果。然而,使用图像到图像的交叉注意力会极大地增加Mask解码器的负担,导致推理速度显著降低。因此,选择使用引导门作为一致表示模块。
硬点挖掘。 在ablation研究中,作者发现将采样的点数 设置为4时,性能最好。较大的 会导致性能下降,因为提示 Adapter 生成的Mask质量不高,过多的采样点可能会引入额外的噪声。
图7可视化了提示 Adapter 的中间输出。 能够捕获 忽视的许多细节,但由于不完全的特征和低分辨率的输出,与 GT 值之间仍然存在一定的差距。然而,作者观察到点采样器可以有效地捕获硬点,例如叶子的孔(负点)和叶子的边缘(正点),从而通过促进模型的分割提高高质量。
提示 Adapter 连接。 作者比较了三种嵌入提示 Adapter 的方法,发现并行方法获得最佳结果,因为它最小化了与原始Mask解码器的干扰。
此外,作者将提示 Adapter 添加到Mask解码器的两个块中,并只添加到第二个块中,观察到将提示 Adapter 添加到第一个块中会产生负面影响。当作者检查第一个块的注意力图时,作者发现第一个块中的Mask标记携带的语义信息非常少,导致分割效果较差,难以使用提示 Adapter 进行优化。
4 Conclusion
在本文中,作者提出了一个名为PA-SAM的提示驱动 Adapter ,并开发了一个高质量分割网络,该网络仅需要微调提示 Adapter 。提示 Adapter 执行自适应细节增强和硬点挖掘。它通过从图像中挖掘详细信息来优化稀疏和密集提示。
实验结果显示,PA-SAM在提高分割质量的同时,没有妥协原始SAM的零样本分割能力,在高质量、零样本和开放集分割任务上取得了领先的性能。
参考
[1].PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation
点击上方卡片,关注 「AI视界引擎」 公众号