vivo 提出ASAM | 用增强策略和训练方法拓宽SAM的性能边界,同时不损失其性能,分割直接登顶 SOTA !

技术

picture.image

在计算机视觉不断发展的领域中,基础模型已成为关键工具,显示出对众多任务的非凡适应性。其中,由Meta AI提出的Segment Anything Model(SAM)在图像分割方面表现出色。然而,像其同类模型一样,SAM在特定的细分应用中遇到了限制,这促使作者寻找一种增强策略,以不损害其固有能力为前提。

本文介绍了ASAM,这是一种通过对抗性调整来放大SAM性能的新方法。作者利用自然对抗样本的潜力,这受到了自然语言处理中成功实施的启发。通过使用稳定的扩散模型,作者对SA-1B数据集的一个子集(1%)进行增强,生成更能代表自然变化而非传统不可感知扰动的对抗实例。

ASAM保持了对抗样本的光学逼真性,并确保与原始 Mask 标注对齐,从而保持了分割任务的完整性。经过微调的ASAM在多样化的分割任务上显示出显著改进,无需额外数据或架构修改。作者广泛的评估结果证实,ASAM在分割任务上建立了新的基准,从而推动了计算机视觉中基础模型的发展。

项目页面位于https://asam2024.github.io/

1 Introduction

基础模型的概念对自然语言处理(NLP)领域以及最近计算机视觉领域的进步起到了关键作用。这一概念起源于NLP领域,具有影响力的模型如BERT、GPT系列、LLaMA 和 PaLM,这些模型在未见任务的零样本泛化能力方面表现出色。这一成功催生了计算机视觉领域类似范式转换模型的开发。这些视觉基础模型,如DINOv2、CLIP、BLIP、SAM 和 Stable Diffusion,展示了出色的零样本能力和在多种任务中的广泛泛化能力。

picture.image

其中,Segment Anything Model(SAM)作为一个专注于图像分割的先驱视觉基础模型而脱颖而出。SAM在超过10亿个 Mask 的大型视觉语料库上训练,凭借其能够分割各种场景下的多样化目标和结构的能力,革新了该领域。尽管其表现令人印象深刻,但与任何基础模型一样,SAM在某些方面还有待进一步改进。

一个重要的研究方向是识别SAM在某些下游任务上的局限性,并开发技术以提高其性能。许多技术如微调和 Adapter 模块已经被探索,以专门针对特定的下游任务定制SAM。尽管微调能够为特定任务解锁SAM的潜力,但它牺牲了模型固有的泛化能力。其他方法保持SAM的原始参数不变,添加适应层或后处理模块。这些方法虽然有效,但需要额外的参数和标注的训练数据,限制了其可扩展性和效率。

上述挑战带来了本工作的核心动机:如何在不依赖大量额外数据、不改变其基础架构或牺牲其零样本能力的前提下,进一步提升SAM作为基础视觉模型的泛化能力?这样作者可以在保持其在视觉任务中的广泛适用性的同时,解锁SAM的潜力。现有的解决方案虽然在特定情境中有效,但并未解决在多样化场景中增强SAM内在性能的根本挑战。

面对这一挑战,作者从NLP领域寻求灵感,特别是它在基础模型研究方面的开创性进展。在NLP中观察到的对抗训练(AT)的独特成功[88]提供了一个新的视角。与视觉领域不同,视觉领域中的标准对抗训练通常需要在鲁棒性和模型性能之间进行妥协,NLP中的AT不仅加强了模型的鲁棒性,同时也提高了泛化和准确性。这种差异被认为是因为自然语言中的对抗性例子与真实世界的文本场景更为相似,比如常见的拼写错误。作者推测,NLP中对抗训练的成功来自于其生成的对抗性例子的“真实性”和“自然性”。这一洞见引导作者探索将NLP中成功的对抗训练技术,适应到像SAM这样的视觉基础模型的可能性。这种方法旨在创新性地应用跨学科见解,以改进计算机视觉中的特定任务。

将上述概念应用于SAM,ASAM旨在利用类似于NLP中发现的“自然”对抗性例子,以提高视觉基础模型。受到NLP中有效的调优方法的启发,作者 Proposal 使用这些更为“自然”的对抗性例子来微调SAM,从而规避传统对抗训练通常与高昂成本相关联的问题。生成视觉对抗例子的传统方法通常遵循范数约束,导致产生的扰动并不完全自然,并且与真实世界的噪声存在域偏移。这使得这类对抗性例子与真实世界场景中遇到的真正具有挑战性的例子之间产生了差异。

为了生成既自然又逼真的对抗性例子以调优SAM,作者受到最近对抗攻击[7]的启发,并假设自然图像可以通过生成模型投射到低维流形上。这个在自然图像上训练的流形确保了图像的逼真性和内容丰富性。通过将图像映射到这个流形上,然后沿着流形内的对抗性方向移动,作者可以生成既自然又逼真的对抗性例子。

为了在反向映射过程中保持物体形状与原始 Mask 标签的一致性,作者在生成模型中集成了一个额外的 Mask 提示分支。这种整合确保了对抗性例子不仅在真实性上一致,而且与它们的原始 Mask 标签准确对应。最终,通过用这些自然逼真且准确对齐的对抗性例子微调大型视觉模型中选择的参数子集,作者在性能上取得了显著提升。总的来说,作者的工作做出了几个关键贡献:

  • 受益于NLP领域的成功,作者引入了一种新颖的框架,称为对抗性调整,旨在增强如SAM这类视觉基础模型的泛化能力。这种方法代表了一种跨学科洞见的创新应用,以解决计算机视觉任务中的特定挑战。
  • 通过使用生成模型将自然图像投射到低维流形上,作者生成了既自然又逼真的对抗性例子。作者进一步通过将 Mask 提示分支整合到生成模型中,增强了这种方法,确保对抗性例子在物体形状上与原始 Mask 标签保持一致。
  • 利用ASAM,作者用来自SA-1B数据集仅1%的“自然”对抗性例子对SAM进行微调,从而得到了一个增强版本,称为ASAM。为了验证ASAM的有效性,作者进行了广泛的定量和定性分析。如图1所示,ASAM在广泛的分割数据集和各种下游任务上显著提升了SAM的性能。

2 Related Works

Segment Anything Model (SAM)

Meta研究团队发布了“分割任何物体”项目。该项目开发了SAM模型以及一个广泛的数据库SA-1B,包含超过10亿个 Mask ,这些 Mask 应用于1100万张获得许可且尊重隐私的图片上。SAM模型专为基于提示的分割而设计,能够零样本适应新的图像分布和任务。作为一个开创性的视觉基础模型,其零样本分割能力和基于提示的方法已经在多个领域迅速得到应用,不仅限于图像分割,还扩展到了3D理解与视频处理等任务。

尽管SAM的能力令人印象深刻,但其在对实际场景的适应性,如医学图像和其他具有挑战性的分割条件下,一直是研究的主题。在分割微小细长物体,边界模糊的物体,伪装物体,以及透明物体时,会遇到困难。与任何基础模型一样,SAM也有可以进一步改进的空间。

为了应对这些挑战,研究行人引入了各种方法。例如,文献[37]提出了一种简单的微调方法,以适应将SAM用于一般的医学图像分割。在3D和2D分割任务上的严格实验表明,MedSAM超越了默认的SAM。SAM-Adapter利用领域特定信息或视觉提示,通过使用简单而有效的 Adapter 来增强分割网络。

通过将特定任务的知识与大型模型学习的通用知识相结合,SAM-Adapter可以在具有挑战性的任务中显著提高SAM的性能。尽管微调可以释放SAM针对特定任务的潜力,但它牺牲了模型固有的泛化能力。其他方法则保留SAM的原始参数,增加适配层或后处理模块,如SAM-HQ[30]和Semantic-SAM。这些方法虽然有效,但需要额外的参数和标注的训练数据,限制了其可扩展性和效率。另外,除了直接修改SAM的参数外,改进输入提示或SAM的输出也是可行的策略。

ASAM与这些现有方法不同,旨在进一步增强SAM作为基础视觉模型的泛化能力。作者试图在不大量依赖额外数据、不改变其架构、不牺牲其零样本能力的情况下实现这一点。

Adversarial Examples & Adversarial Training

计算机视觉中,对抗性样本是有意修改的输入,旨在导致模型进行错误分类。这些扰动最初被定义为在小的、和范数(统称为)内图像像素的难以察觉的变化,这是理解视觉模型对抗性脆弱性的基础。作为一种有效的防御机制,对抗训练(AT)旨在通过这些对抗性样本训练模型以提高鲁棒性。然而,观察到AT通常会导致对抗性鲁棒性和干净准确度之间的权衡,这对模型的泛化提出了挑战[63, 79]。尽管已经做出了巨大的努力来减轻这种权衡,但至今AT的糟糕泛化问题仍无法完全解决。

相比之下,自然语言处理(NLP)领域显示出不同的趋势:AT被发现可以增强语言模型的泛化和鲁棒性。最近的研究如[88]所示,AT甚至可以提升基于 Transformer 的语言基础模型的性能。[39]的工作试图直接将NLP中AT的成功复制到增强视觉特征上,建议离散表示是一个关键因素。尽管他们生成的对抗性样本比传统的扰动更难以察觉,但这些扰动仍然不是完全自然的,并且与真实世界的噪声存在域偏移。在本文中,作者推测AT在NLP中的成功源自其对抗性样本的“真实性”和“自然性”。

值得注意的是,已经有尝试使用AT来提高视觉任务中的干净准确度。[73]的工作采用分割批量归一化来分离干净样本和对抗性样本的统计信息,提高对抗性特征学习以实现泛化。然而,这种操作不适用于基于 Transformer 的现代基础模型。与作者的工作相关的是[24],尽管名称相似,但该研究关注使用微调来替代对抗训练以低成本获得对抗性鲁棒性。受到[7, 54]的工作和NLP的启发,作者引入了一种新颖的框架ASAM,使用“自然”对抗性样本对SAM进行微调。这种方法为增强视觉基础模型开辟了新途径,利用对抗性样本的“真实性”和“自然性”来增强SAM的泛化能力,而无需大量的附加数据或主要架构变化。

3 Method

Overview

作者旨在从SA-1B 数据集中生成“自然”的对抗性图像,随后使用这些生成的图像及相应的SA-1B Mask 来微调SAM。注意,在微调SAM时,作者不改变SAM的结构,也不加入任何额外的标注数据。因此,作者提出的ASAM框架仅依靠其固有的数据和结构特性,实现了提高SAM泛化能力的目标。作者提出的ASAM框架主要包括两个步骤,以下将详细描述。

对抗性潜在优化。 现有的生成对抗性图像的方法通常遵循范数约束,导致产生的扰动并不完全自然,并且与真实世界的噪声存在域偏移。在本文中,为了生成既自然又逼真的对抗性示例以调整SAM,作者假设自然图像可以通过生成模型(如Stable Diffusion)首先投射到低维流形上。随后,通过优化低维流形,作者能够搜索到合适的对抗性潜在表示,从而有效地重新投射到自然图像域。作者在_Sec. 3.2_中说明了优化对抗性潜在表示的过程。

可控对抗样本生成。 上述优化过程对潜在表示添加了轻微的扰动。因此,简单的重新投射可能导致生成的对抗性图像与相应的SA-1B Mask 对齐不当。为了解决这个问题,在优化完成后,作者进一步设计了控制分支,它利用ControlNet来指导重新投射过程。关于这个过程更多的细节将在_Sec. 3.3_中描述。

Adversarial Latent Optimization

在此,作者展示了在生成模型的低维流形空间内搜索SA-1B图像的对抗性潜在表示的方法论。考虑到计算成本和图像质量之间的平衡,作者选择Stable Diffusion作为作者的生成模型来产生低维潜在表示。随后,作者对生成的潜在表示进行优化,这使得可以创建多样的对抗性图像。

3.2.1 Projecting Image to Diffusion Latent

扩散反转通常用于将图像投影到低维潜在空间。在扩散模型的情况下,作者采用了DDIM反转技术,该技术利用来自提示的条件嵌入,使用CLIP文本编码器,基于普通微分方程过程在有限步骤内可逆的前提:

给定一个图像,作者使用一个计划,其中遵循[57]。这种方法有效地在去噪过程的相反方向上操作(即,而不是),将图像投影到潜在空间的。每张图像的文本描述是通过BLIPv2生成的。

picture.image

文本到图像合成经常强调提示的作用,最终导致了无分类器引导方法的引入。这种方法生成无条件的预测,并将它们与特定输入条件的预测合并。令表示引导比例因子,

表示空文本提示的嵌入,那么无分类器引导方法的公式表述如下:

被采用作为Stable Diffusion的标准设置。在DDIM采样的反向过程中,模型预测噪声,可能在每一步引入微小的不准确。考虑到其较大的引导比例参数,无分类器引导方法容易放大这些小错误,导致不准确性的累积。因此,将反向DDIM采样过程与无分类器引导结合使用不仅破坏了高斯噪声分布,还产生了影响真实感的视觉异常。

为了减少错误的累积,ASAM受到[42]中概述的策略的启发,作者为每个时间步优化一个独特的空文本嵌入。最初,使用执行DDIM逆采样过程,得到一系列连续的潜在表示,从开始。随后,作者对时间步进行优化过程,使用并设置:

为了便于理解,令表示DDIM采样步骤,其中作为输入潜在表示,作为空文本嵌入,为文本嵌入。完成每一步后,根据方程更新:

最后,作者可以通过优化后的空文本嵌入生成扩散模型的潜在表示。作者在低维流形中利用这个潜在表示生成对抗图像。

3.2.2 Adversarial Optimization of Latent

在本节中,作者对潜在表示进行优化,以增强自然对抗图像的生成。在Sec. 3.2.1建立的潜在空间中,空文本嵌入确保了重建图像的质量,而文本嵌入保留了图像的语义内容。因此,同时优化这两个嵌入可能不会导致最佳结果。考虑到噪声在潜在空间中显著包含了图像的细节,作者选择将优化工作集中在它上面。

基于Sec. 3.2.1生成的潜在表示,作者将扩散模型的去噪过程表征为,通过DDIM采样步骤实现。这个过程包含次迭代:

这里,表示第次迭代时的潜在变量,是总迭代次数,代表附加条件变量,表示在每个迭代中应用的空文本嵌入序列。该过程以重建图像结束,由表示。由于变分自编码器(VAE)的可微性质,本文不详细阐述其操作。作者将对抗性目标优化框架如下:

在这个方程中,表示潜在空间中的对抗性扰动,是从SA-1B数据集中获得的 Mask 标签,表示具有固定参数集的SAM。损失函数是均方误差、二进制交叉熵损失和dice损失的组合,表示为。为了保持原始图像与其重建版本之间的一致性,作者认为只要扰动的大小非常小,即,扰动对这种一致性产生的影响最小。

主要挑战是确定能提升分割损失的最佳。借鉴传统对抗策略的方法,作者使用基于梯度的方法来近似,公式为:

其中是与梯度方向对齐的扰动规模。通过应用链式法则展开,作者描述了每个导数分量:

Controllable Adversarial Samples Generation

在获得对抗性潜在表示后,可以采用逆向扩散过程来生成最终的对抗性例子。然而,在Stable Diffusion空间的优化过程会对对抗性潜在变量引入微小的扰动,这将导致生成图像的形状与其对应标签的不匹配。直观地说,这个问题可能通过在扩散模型中使用更精确的提示来解决。然而,仅通过文本描述物体的确切形状是具有挑战性的,因此文本提示控制图像空间形状的能力是有限的。为了克服这一限制,作者在逆向过程中额外训练了一个 Mask 到图像的ControlNet,它提供了增强的空间形状控制能力。

ControlNet调整去噪U-Net架构中的任务特定条件,旨在更精确地引导扩散模型的整体行为。Stable Diffusion模型的核心架构是一个U-Net,包括编码器、中间块和解码器,解码器使用跳跃连接。编码器和解码器各有12个块,包括中间块在内总共有25个块。ControlNet用于生成Stable Diffusion模型的12个编码器块和单个中间块的训练副本。这12个块分布在四个不同的分辨率(64 x 64、32 x 32、16 x 16、8 x 8)上,每个分辨率包含三个块。将这些块生成的输出整合到去噪U-Net的12个跳跃连接和中间块中,增强了其更精细地操纵图像特征的能力。ControlNet的操作表示为,它允许重新配置去噪U-Net:

其中是 Mask 提示。基于去噪U-Net,作者表示对抗性例子的重建:

Fine-tuning SAM with Adversarial Samples

与之前改变SAM结构的方法不同,作者的目标是增强SAM的整体能力,而无需进行任何结构修改。为微调选择合适的参数需要仔细考虑,包括效率以及过拟合的风险等因素。在这方面,作者特别选择对SAM的输出标记和 Mask 标记进行微调,这部分参数仅占SAM总参数的大约。

此外,为了确保在保持泛化的同时,对对抗性样本快速收敛,作者采用了在[24]工作中描述的学习率调度策略“慢启动快衰减”。此外,作者提出的ASAM表明,仅使用SA-1B数据集的样本就已经显著提高了性能。

4 Experiment

Experimental Setting

实现细节。 作者使用了在LAION5B 数据集上预训练的 stable-diffusion-v1-5。每个训练图像的描述是使用 BLIPv2 自动生成的。作者使用 ControlNet v1.0 来控制生成过程。作者使用带有 vit-base 主干的 SAM。本文中使用的训练数据集是来自 SA-1B 数据集的 sa_000000 子集。

对于对抗性样本生成过程,作者将 DDIM 步骤 设置为 50,空文本嵌入的优化步骤数量设为 10,对抗性样本的攻击次数设为 10,攻击大小 设为 0.02。作者使用 Adam 优化器对 SAM 进行了 10 个周期的微调。学习率首先从 0.01 线性增加到 0.05,然后呈指数衰减。作者采用 8 块 NVIDIA 48G A6000 GPU 进行训练。

评估数据集。 按照 SAM,作者在训练期间未见过的数据集和任务上评估 ASAM。评估数据集可能包括新的图像分布,例如水下或以自我为中心的图像,据作者所知,这些图像在 SA-1B 中并未出现。作者在 mIoU 评估下使用了一个包含 14 个数据集的新编系列,这些数据集具有多样的图像分布,如表1 所示。

picture.image

Quantitative and Qualitative Comparison

为了彻底评估作者提出的ASAM的有效性,作者将其与四种不同的方法进行了比较:原始的SAM,使用PGD调优[53]的SAM,使用DAT调优[39]的SAM,以及使用DatasetDM生成的新数据对SAM进行微调。

如表1所示,ASAM明显优于其他调优方法。与原始SAM相比,ASAM在所有14个测试数据集上均实现了性能提升,平均mIoU提高了_1.3_。这种在多种数据集上的一致性提升强调了ASAM的鲁棒性和有效性,表明其在各种情境下显著提升模型能力的潜力。这种优越性的一个关键原因是SAM已经在大规模数据集上进行了训练。因此,仅对某些样本添加噪声扰动或生成新样本以调优SAM,并没有给SAM带来显著不同的数据分布。实际上,重新调优可能会破坏SAM原本训练良好的参数。

picture.image

与PGD和DAT等现有方法不同,作者的对抗样本是由一个经过优化、由SAM梯度引导的低维流形重建的。这种方法使作者能更有效地解决SAM原始训练中的不足。它提供了一个更符合SAM学习范式的精细化输入,使其能够更有效地泛化到新或具有挑战性的场景。从图3的视觉比较中可以看出,作者提出的ASAM在原始SAM表现不佳的样本上提升了性能。

Ablation Studies

在本研究中,作者对上述提到的14个数据集进行了消融研究,以表明ASAM的有效性。

主要组件。 如表2所示,如果作者仅依靠潜在投影(第3.2.1节)而不采用潜在优化(第3.2.2节),性能会下降,因为它缺少SAM梯度的指导。这种方法错过了基于模型的反馈细化潜在表示的重要步骤,这对于与模型学习的模式和复杂性进行投影对齐至关重要。

picture.image

此外,如果作者仅使用潜在投影,然后与ControlNet一起重建,但仍然省略潜在优化,性能同样不够理想。这种组合虽然稍微复杂一些,但仍然没有利用潜在优化提供的特定于模型的见解,从而没有完全利用投影过程中的潜在改进。最后,当潜在优化与ControlNet结合使用时,作者取得了最好的分割结果。

对抗样本可视化。 为了验证本研究中产生的对抗样本对SAM微调的实用性,作者采用了定量方法进行图像质量评估,与之前的研究保持一致。具体来说,作者为此目的采用了非参考的感知图像质量度量标准。所选的度量标准包括NIMA,HyperIQA,MUSIQ和TReS。NIMA-AVA和MUSIQ-AVA已经在AVA数据集上训练,利用了PyIQA框架。

picture.image

如表3所示,作者工作中产生的反转图像保持了与干净图像相当的质量。值得注意的是,在图像质量评估方面,ASAM优于其他方法。作者进一步用图4中的对抗样本说明这一点。重要的是要强调,ASAM引入的扰动旨在保持自然,与其他技术(如DAT或PGD调整方法)产生的更人为的修改形成对比。这种生成自然扰动的方法旨在创建类似于真实世界场景中遇到的真正具有挑战性的例子,从而可能提高模型的泛化能力。

picture.image

框架的可迁移性。 为了进一步评估作者ASAM框架的可迁移性,作者在另一个大型视觉基础模型EfficientSAM(ESAM)上进行了实验,这是Meta在CVPR2024提出的新型大型视觉基础模型。表4的结果证实了该框架能够显著提升ESAM的性能。这些发现验证了作者的框架在不同大型模型中的有效性,为提升大型视觉基础模型的能力铺平了道路。

picture.image

5 Discussion & Future work

尽管作者通过大量的实证实验证明了ASAM的有效性,但除了直接从NLP研究中获得灵感之外,ASAM特定的理论基础仍有待进一步探索。幸运的是,作者发现了一些现有的理论工作,尽管这些工作并不直接适用于作者的任务,但它们可以提供一些理论上的证据。具体来说,作者发现ASAM中的方法与Wong和Kolter提出的理论框架相一致,该框架强调弥合现实世界扰动与对抗防御之间的差距。这篇文章强调了直接从数据中学习扰动集的价值,这与作者使用稳定扩散模型生成自然对抗样本的方法相呼应。

此外,文中使用条件变分自编码器(CVAEs)进行扰动学习,支持作者在潜在空间表示中进行操作的方法论。这些理论洞察加强了使用生成模型创建对抗样本的有效性,这些对抗样本不仅对模型具有挑战性,而且反映了现实世界的复杂性和变异性。尽管这篇文章不能作为作者工作的直接理论证明,但这一理论支持补充了作者的实证发现,突显了在不同现实场景中提升SAM性能时使用真实对抗样本的有效性。

然而,这种联系仅仅是更广泛理论探索的开始。作者未来的工作旨在深入研究对抗性微调的理论方面,特别是在基础模型的背景下。作者计划调查并形式化ASAM有效性的原则,这可能导致在计算机视觉领域中,用对抗样本提升模型性能的更一般化理论。通过建立一个坚实的理论框架,作者可以进一步合法化使用这些技术,并可能揭示改善基础模型在多样化现实应用中能力的新途径。

参考

[1].ASAM: Boosting Segment Anything Model with Adversarial Tuning.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论