提升SAM的跨域性能,多级特征融合在少样本分割中的应用 !

大模型向量数据库机器学习

点击下方卡片,关注 「AI视界引擎」 公众号

欢迎投稿和交流

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

提升SAM的跨域性能,多级特征融合在少样本分割中的应用 !

在大规模预训练的背景下,大视觉模型(LVM)在图像理解方面展示了巨大的潜力。最近,Segment Anything Model(SAM)的出现使得图像分割领域实现了质的飞跃,支持了灵活的交互提示和强大的学习能力。

然而,其性能往往在跨域和少样本应用中陷入不足。将基础模型的先验知识传递到新应用,同时保持学习能力是一项有价值的研究。本文提出了一种基于SAM的任务适应性提示框架,名为跨域少样本分割(CD-FSS)。

首先,使用多级特征融合(MFF)进行集成特征提取。此外,与分割分支相结合的额外分类域任务适应性自动提示(CDTAP)模块进行了分类域无关的特征提取和高质量可学习提示的生成。

这一显著的进步利用了与模型结构和特殊原型计算相结合的生成式提示方法。尽管确保SAM的先验知识不被忽视,但新分支通过原型分解类别和域信息,指导其适应CD-FSS。作者在三个benchmarks上取得了最佳结果,与最近的最优方法相比。

全面的实验表明,在特定任务和加权指导之后,SAM的丰富特征信息可以更好地学习。

I Introduction

传统深度网络在实现高精度性能时主要依赖大量的标注数据 [1]。然而,数据标注是一项耗时且需要大量人力投入的任务,特别是在医疗影像和遥感影像这种像素级标注任务上。因此,少样本语义分割(FSS)应运而生,旨在减少标签需求 [2]。此外,大部分少样本学习(FL)方法主要关注同一领域支持与 Query 集之间的关系学习,这通常需要针对目标域进行微调。提取的特征在高层是类不敏感的,但缺乏域泛化,这意味着FL方法具有新类别生成能力,但在新领域生成任务上的表现不佳。以前的方法在这方面的局限性是:基于输入空间的增强需要专家知识来设计增强函数,而特征空间的增强通常依赖于复杂的对抗训练 [3]。因此,跨域少样本分割(CD-FSS) [4] 被提出来解决医学、遥感等图像的分割任务,并给出了四个典型的跨域数据集(见图1)。

picture.image

然而,过去深度模型可能会在未见过的跨域数据上造成 poor 泛化,这限制了它们在跨域少样本场景中的应用。最近,大规模基础视觉模型(LVM)在自然图像分割方面取得了显著进展,包括医学 [8] 和遥感 [9] 图像分割。Segment Anything Model (SAM) [10] 在超过十亿个像素 Mask 的训练下,实现了自然图像前所未有的泛化能力。此外,一些研究显示 SAM 模型适当调整后可用于医疗图像分割 [8] 和零样本任务。这些进展表明,具有泛化能力的强大分割模型可以将无需设计复杂网络进行微调,因为微调模型的时间消耗。一些早期研究采用了在自然或医学图像上预训练的模型并取得了良好的性能 。然而,由于预训练模型的灵活性不足以及广泛的少样本方法(如解耦域分类器 [12]),深度模型的跨域泛化能力并未有效提高。

虽然这些基于LVM的方法在某些专业领域提高了模型的性能,但SAM无法在其他的垂直领域进行泛化,需要大量垂直领域样本,这带来数据收集、样本标记和模型训练的高昂成本。同时,垂直领域本身也很难全面枚举。许多工作将SAM框架与元学习相结合用于迁移学习任务[13,14]。然而,以前的方法主要专注于微调SAM编码器,通过知识蒸馏[15]设计教师-学生,以及通过计算距离进行特征匹配。为了提高计算效率并更好地分离类的特征域,作者提出了一个结合域内和域间信息解耦的通用视觉提示(TAVP)算法,并与SAM相结合。相反,作者的方法可以有效地泛化到不同的垂直领域,并可实现与垂直领域相当的结果。如图2所示的流水线比较。

picture.image

在对SAM进行进一步分析后,作者发现其在CD-FSS方面的性能较差,可以归因于几个关键问题。编码器中的图像特征尽管包含基本类别数据,但与目标域的类别不匹配,其固有分布可能导致噪声和性能下降。有效的学习需要与目标域相关的特征信息。此外,解码器对基于提示的交叉注意力机制的依赖也阻碍了其分割的有效性。

基于上述分析,CDTAP模块被提出,通过对比学习从前景和背景中提取类别和域特定特征,以提高CD-FSS的鲁棒性,如图3所示。实验结果表明,作者的工作可以计算出更准确、更鲁棒的样本间配对关系。此外,作者提出了一种基于SAM的全自动分割框架,用于CD-FSS。这种新框架旨在增强模型对CD-FSS的适应性和准确性。作者的贡献可以总结如下:

picture.image

  • 与SAM相比,作者保持低级特征表示,通过融合捕获全局和局部信息。
  • 为了实现类的和域信息的解耦,作者集成了一种统一的、全面特征变换方法。具体而言,作者提出了一个针对域和类无知的特征提取模块。同时,作者使用对比学习实现不同域之间样本的更深、更接近的匹配。
  • 为了克服SAM高度依赖人为交互的问题,作者提出了一种自动且可学习的提示分支,用于分割任务,作为权重指导和强大提示生成的引导。
  • 作者用较少的时间和GPU消耗微调SAM,并采用 heteroreginization 采样策略进行任务自适应引导分割。
  • 在四个公开可用的CD-FSS数据集中,作者的方法与最先进的性能相比具有竞争力和最佳结果。

II Related Works

作者首先介绍了跨域分割任务及其相关技术,然后描述了少样本分割任务以供相关背景。接着,作者开发了CDFSS任务及其在该领域的相关研究。

Domain Adaptation in Segmentation

近年来,域适应语义分割取得了显著进展。领域对抗训练用于学习领域不变的特征表示 [16]。Hoffman等人 [17] 将全局和局部对齐方法与对抗训练相结合。还有其他方法,如蒸馏损失 [18],输出空间对齐 [19],分类平衡自训练 [20] 和保守损失 [21],这些方法都是根据预定义的课程学习策略 [22] 提出的。这些方法共同推动了通过利用来自各种领域的信息来提高适应性语义分割的进展,确保模型在各种多样化和较少标注的环境中具有健壮的表现。假设训练数据仅起源于单一领域,并且适应到未见过的领域。在这种情况下,单一来源域适应由于训练域内的多样性有限而变得更加困难。因此,解决这个问题的常见方法是使用数据增强技术来生成新领域,从而提高训练数据的多样性和信息含量。为计算机视觉任务中的单一来源域适应问题设计了几种具有不同生成策略的方法。例如,RandConv [23] 采用了随机卷积进行数据增强。MixStyle 整合了随机选择的不同域的实例风格信息。

与上述数据增强方法不同,作者使用基础模型以确保丰富的先验知识,而不是在源域生成许多图像,节省计算资源并提高计算效率。

Few Shot Segmentation

单次分割(FSS)任务的目的是通过使用有限数量的可用标注图像或语义上不同的无标注图像来分割新的语义目标。当前方法主要关注元学习阶段的选择改进。基于原型的方法[24, 25, 26]利用从支持数据中提取具有代表性的前景或背景原型,并采用各种策略在不同原型之间或原型与 Query 特征之间进行交互。关系基于的方法[27, 28, 29]也取得了单次分割的成功。HSNet [30]通过多尺度密集匹配建立了高相关性,并结合4D卷积捕获上下文信息。RePRI [31]引入了不需要元学习的基于基础类特征提取的跨导性推理。然而,这些方法主要关注从同一领域分割新的类别。由于跨域分布的巨大差异,它们无法扩展到未见过的领域。

相反,作者提出了一种前景和背景双重原型匹配的方法,确保了细粒度和类域无关的特征表示。

Cross-domain Few-shot Segmentation

使用四个基准测试[4]可用 CDFSS 标准评估。图1显示了原始域和 CDFSS 数据集之间的区别。对于 ChestX 数据集,图像格式已经从 RGB 更改为灰度,与原始域存在很大的差距。其他两个数据集需要高质量的语义分割,因为它们具有更多的边缘信息。

RD [32] 引入了一种新的域增强策略,利用记忆机制。这种方法在训练期间连续地保存源域风格的特性信息。然后,在测试时,利用存储的源信息提高分割性能。在测试时,从内存中加载存储的源域信息以增强目标域特征。RD [32] 提供了一种直接方法来减少域差异,并在典型的分治数据集上进行验证。

在自动驾驶应用的语义分割任务中,PixDA [33] 介绍了一种创新的像素分步域对抗损失,基于三个关键标准:(i)对每个像素,将源域和目标域对齐;(ii)防止在正确表示的像素上产生负转移;(iii)定期正则化稀有类训练以减少过拟合。CDTF [34] 通过将支持域和 Query 原型对齐实现跨域少样本分割。这种对齐使用不确定性感知对比损失实现,并由监督交叉熵损失和无监督边界损失作为一种正则化项进行补充。CDTF [34] 使模型能够在不需要额外标签的情况下从基础模型泛化到目标域。

CDFSS [35] 提出了一种利用自然域学习进行 rare-disease 皮肤病病变分割的跨域少样本分割框架。这种方法在与目标域常见疾病数据有限的情况下特别有价值。

除了以前简单的计算原型方法,作者结合高级原型表示与基础模型 SAM,并提出了前景和背景的双原型匹配方法,确保细粒度的特征表示。

III Proposed Method

虽然SAM可以推广到更多场景,甚至零样本情况,但它仍然存在一些局限性。首先,原始SAM依赖于交互提示以在不同情况下进行准确分割,这可能耗时较长。第二个问题是如何从LVM方法中转移更多的丰富知识和解码关键信息,同时保持良好的泛化能力。为了解决上述两个问题,作者提出了一种自动框架,用自动提示而不是用户交互提示进行分割。同时,设计了一个用于类和域无偏特征提取和任务自适应提示生成的额外分支。

TAVP的整体框架如图3所示。源域的支持和 Query 输入被SAV encoder进行基本特征提取。请注意,作者提出了一种多级特征融合以获得全面的表示。同时,一个目标域数据被输入到CDTAP模块进行类和域特定的无偏特征提取。该模块同时将学习性提示作为密集嵌入输入到解码器。然后,将组合的多级和密集提示输入到SAV解码器进行预测。

Problem Definition

在跨域 few-shot 语义分割(CD-FSS)领域,作者将数据集分为源域 和目标域 。源域和目标域的输入分布和标签空间有所不同,即 且 , 表示输入分布, 表示标签空间。作者的方法是基于 [4] 中的元学习框架,分阶段地在元学习框架中训练和评估作者的模型。训练阶段包括支持集和 Query 集。支持集 = ,其中 到 ,包括 对图像及其相应的二进制 Mask , 表示第 张支持图像, 表示匹配的二进制 Mask 。类似地, Query 集 = ,其中 到 。当模型对特定的类 的 Query 集 和支持集 进行训练时,它需要预测 Query 的二进制 Mask 。在测试阶段,作者从目标域提供新的支持集和相应的 Query ,以评估模型的有效性。

Multi-level Features Fusion

高级全局特征提取。 作者提出了一种提高SAM口罩分辨率的高级方法,通过包括高效的标记学习。作者的方法不直接使用SAM生成的粗糙口罩,而是涉及一个高级标记以及一个新定义的预测层以生成更高质量的口罩。在此方法中,作者保持了SAM的原始口罩解码器,但将其与新的可学习的高级标记(大小为1x256)相结合,作为SAM口罩解码器的增强输入。像原始输出标记功能一样,高级标记与其他标记进行自注意力,并在每个注意力层内参与标记到图像和图像到标记的注意力过程以进行特征精炼。高级标记在解码器层中利用一个共享的点 wise MLP。经过两层解码器后,它全面理解全局图像语义,并隐藏来自其他输出标记的 Mask 信息。然后,作者使用一个新颖的三层MLP从丰富的高级标记中推导动态卷积核,执行空间点 wise 操作以生成优质口罩。

作者的方法只训练高级标记及其相关的三层MLP,以纠正SAM产生的口罩中不准确的信息,而不直接微调SAM或使用后处理网络。这种方法与传统高质量分割模型中的方法形成对比。

作者的广泛测试揭示了这种高效标记学习技术的两个主要益处:

1)仅通过参数的一小部分提高口罩质量,从而优化了SAM的训练时间数据效率;

2)可自适应的标记和MLP组件防止过拟合,同时保留SAM在新图像上的零样本分割性能。

全局和局部特征融合。 准确的分割需要具有全局语义上下文和精确局部边界的输入特征。为了进一步提高口罩质量,作者扩充了SAM口罩解码器的特征,同时具有高级目标上下文和细化边缘信息。而不是直接使用SAM的口罩解码器特征,作者通过提取和集成SAM模型各个阶段的特征构造新 Multi 级特征。作者首先从SAM的ViT编码器的局部特征中提取详细的64x64空间维度的低级边信息。这一特征来源于ViT编码器中的第一个全局注意力块(ViT-Large实例中的第6个,共24个块)。

然后,SAM的ViT编码器的高 Level 全局特征(大小为64x64)提供了全局图像上下文。最后,来自SAM的 Mask 解码器的 Mask 特征(大小为256x256)由输出标记共享,并具有强大的 Mask 形状信息。如图3所示,作者通过置换卷积将早期层解码器特征和最后层解码器特征上采样到256x256的空间尺寸,以生成输入高级特征。接下来,作者通过简单的卷积处理对这些三种类型的特征元素求和以融合这些全局和局部特征。这种融合全局和局部特征的方法简单而有效,可以生成保留细节且内存和计算成本较低的分割结果。在实验部分,作者通过详细的消融研究来评估每个特征源的影响。

Task-adaptive Transferring (TAT) Class Domain Task-Adaptive Auto-Prompt (CDTAP)

作者通过进行类域原型信息解耦和利用先验引导的自动提示来生成完整的任务适应自动提示,从而提高模型的一般化能力。可学习的提示嵌入增强了SAM和作者的模型的鲁棒性。

图4:(a)以前的类比少样本方法;(b)作者的双向匹配元学习模块。

picture.image

类域原型信息解耦 。 以前的元学习方法仅具有对新类别的一般化能力,但当面临跨域和少样本任务时,性能较差。 因此,作者提出了一种基于原型的类域信息解耦模块。 为了更好地探究不同类和域特征之间的相关性,作者添加了一个前缀和后缀原型的计算分支。 使用像素级原型计算可以更充分利用特征表示,这在少样本学习中是有益的。 以前的方法仅依赖支持原型的集合和 Anchor 层来计算转换矩阵。 由于内部分类方差,支持原型不能代表类中的所有信息。 因此,作者提出通过 Query 原型来增强支持原型的集合。 作者特别关注双原型增强和跨域特征变换。 作者利用支持函数和 Query 函数之间的循环一致性来获取 Query 前缀和后缀原型。 基于这些能够代表类别及其周围环境的高级原型,可以使用可学习的域无关模块计算高效的转换矩阵。 然后,将此转换矩阵应用于 Query 特征进行跨域特征变换。 表示原型对于作者的跨域变换至关重要。 为此,作者构建了一个像素级细微的自我循环监督,它是 Query 前缀和后缀支持增强的推理。 作者进行前向匹配,以获取与支持前景相似度最高的 Query 特征。 作者然后使用这些确定的前向匹配 Query 特征进行反向重目标任务适应自动提示生成。 如果通过反匹配找到的支持特征位于真正的支持前景 Mask 内,那么识别的 Query 特征就会被平均,并用于计算前景原型。 同样,作者会通过同样的过程获得增强的背景原型。 假定

代表原始特征在 Mask 层中的权重矩阵,

是计算的原型。 具体来说,作者使用方程 1 从

得到

是前景和背景原型的计算公式。 作者的算法与HQ-SAM [36]的多级特征设计之间的差异在于CDTAP模块的设计,它将基于特征计算的多级根据特征计算。

其中,是可学习的权重矩阵,是计算的原型,是从中心和其他特征之间的距离计算得到表示矩阵。前景和背景原型的计算公式如下:

这里, 和 是特征图的行和三维空间位置,式(3)和式(4)是循环检查过程。 是图像的典型表示,而 是其 Mask 的典型表示, 代表向量的乘法。 是来自支持到 Query 匹配的请求的特征原型。同样,作者可以导出 的对应解释。根据以上公式,可以选取 Query 的特征表示。

作者通过完成类域无关的特征变换来进行类域域信息解耦。因此,在这部分,作者可以通过计算其对应的 Mask 在 Anchor 点层中的前导原型来计算输入的转换矩阵 。在 层中, 表示 Mask , 表示类, 表示高度, 表示宽度。支持集中前导原型的计算如下:

其中,, 和 是特征图的行和列。 表示一个函数,它通过沿通道维度扩展输入张量,将输入张量的空间大小扩展到特征图的特征原型 的第二个中间层 1。而 , 是 Mask 的前导原型。支持和 Query 集的背景原型可以按照类似的方式计算。

先验引导可学习提示。SAM 的一个重要优势是支持提示输入。然而,对于人类来说生成交互式提示是耗时的,而 SAM 的解码器始终与图像和提示嵌入耦合。因此,使用高质量的提示可以使预测更准确。本文提出了一种通过先验引导的元空间可学习提示的生成方法。首先,通过前两个双向增强型原型信息的解耦,将特征映射到新的空间,并在 Query 集中找到与支持集中的 Mask 相当相似的特征及其标签表示,它们被用作提示的前导指导。然后,将增强输入,包括大小为 的多级图像嵌入和高品质的类似大小的有益提示,输入到高质量的解码器中。

在实验之后,作者更希望不仅在 CDFSS 任务中依赖更好的前景和关键信息的引导和表示输入样本,背景在更准确的预测中发挥着至关重要的作用。例如,背景设置越随机,或者源域中的数据差异越大,模型表现得越好。

Light-Weight Fine-tune Framework

此外,作者采用了一种随机异质化取样策略来区分不同的跨域任务。在这种策略中,创建了一个阈值值来监督取样质量。SAM的一个局限性是耗时且低效,这在大型模型微调中是一个常见问题。在本工作中,作者提出了一种轻量级微调框架,通过仅在CNN based模型中重新训练几个层,将SAM转移到跨域少样本分割。首先,将目标域样本输入到针对任务域的特定分支进行类无关特征提取。这些高度结构的类无关特征嵌入,并结合基域的其他特征嵌入,输入到解码器。提出了一个加权监督损失函数,微调解码器预测目标域样本的 Mask 。L_{seg}表示分割损失函数,包括交叉熵损失函数[37],和Dice损失函数[38],如所示(见6)。

图5详细介绍了MT和PG。

picture.image

同时,将目标域的样本输入到基于CNN的模型中,以生成密集嵌入作为自提示。从基于CNN Backbone 层的权重矩阵(与特征图对齐)中,获得了密集嵌入。然后,将密集嵌入与组合的多级特征图相乘,并将结果输入到解码器中,实现针对目标域样本的指导解码。对于输入x,它被输入到基于CNN的encoder中。在降采样后,跟随一个简单的解码器进行上采样生成密集嵌入,与特征图对齐。

IV Experiments

在本节中,作者描述了实验设置,包括“数据集”、“数据预处理策略”、“ Baseline 模型”和“实现细节”。

Experimental Settings

作者首先介绍了CD-FSS中的基准测试。接下来,列出了模型 Baseline 、实现细节和性能可视化。

Iv-A1 Data Sets

在跨域少样本分割中,作者贡献了四个标准数据集:[4]。

Deepglobe。Deepglobe数据集[39]是一个包含卫星图像的集合。其中包含了七个分类的像素级标注:城市区域、农业、草地区、森林、水域、荒漠土地和一个"未知"类别。总共,数据集中的803张图像具有一致的空间分辨率2448x2448像素。

作者将每一张图像分成六个部分,以增加测试图像的数量并减少其大小。由于该数据集中的目标类别具有不规则形状,裁剪图像对它们的分割影响最小。作者还进一步过滤出只有单一类别和属于"未知"类别的图像。这结果导致了作者报告结果的5,666张图像,其分辨率为408x408像素。

ISIC。数据集"文档1",如[40, 41]中所述,主要关注癌症筛查中的皮肤病变图像,包含了2,596张每个包含一个病变的图像。GT 标签仅提供给训练集。为了进行一致的分析,图像被重新缩放到标准的512x512像素。

ChestX。如[42, 43]中所述,Chest X数据集是针对结核病检测的需求而设计的,它包含总共566张X光图像,每张图像的原始分辨率为4020x4892像素。这些图像来自一个包含58个有结核病表现和80个正常对照的病例数据集。由于原始图像的大尺寸,常见的做法是将它们缩小到更易于管理的1024x1024像素。

FS1000。FSS-1000[44]是一个自然图像分割少样本数据的集,其中包含1,000个物体类别,每个类别有10个样本。作者在实验中使用语义分割的官方分裂,并基于官方测试集的结果进行报告,该测试集包含240个类别和2,400个测试图像。

Iv-A2 Data Augmentation and Sampling Strategy

在本文中,作者采用了一种异质化取样策略来减轻有限数据集的训练耦合效应。在该策略中,作者设定一个阈值来监督样本质量。具体来说,在训练过程中,作者使用5倍验证集策略对拆分后的数据集进行一次取样。阈值通过训练过程动态地选择用于模型训练的样本进行计算。

此外,作者还利用了原SAM Baseline 的几种数据增强方法,包括调整图像的属性(如亮度、对比度、饱和度等),随机垂直和水平翻转,以及随机仿射变换。

Iv-A3 Models

整体框架基于高质量Segment Anything [36]。同时,提出了一种任务自适应的自动提示分支,并结合SAM,来完成CDFSS。

Iv-A4 Training Setting

对于训练数据集,每次只使用目标域的一个图像,包括 ChestX [2, 15], ISIC [9], FSS-1000 [22], deepglobe [10] 进行 augmentation。训练参数上,基准线被冻结,如图3 所示,仅训练 CDTAP 模块。

Iv-A5 Implementation Details

作者为附加分支设计了三个backbone,除SAM框架之外。SAM解码器针对高层全局语义上下文和低层局部信息计算进行设计。全部的ViT用于全局语义上下文的计算,而从早期层提取局部低层特征。此外,基于CNN的解码器被修改为计算原型,用于分类域无关的特征提取,并采用小剂量上采样方法作为密集嵌入生成的自提示。

在训练阶段,周期数在60到150之间变化。由于存在大量预训练的SAM模型权重,为了避免过拟合,端到端训练的周期数较小。如果使用NVIDIA A6000 GPU,运行时间在2到6小时之间,取决于周期数和验证数据集,作者可以实现理想结果。

V Visualizations

本节介绍了多种类型的可视化技术,包括数据可视化、交互式可视化、网络可视化等。这些技术在信息表达、理解和探索方面具有重要作用。

数据可视化是将数据以图形、图像等形式展示出来的技术。通过数据可视化,作者可以更好地理解数据的内在规律,发现数据中的关联和趋势。其中,常见的数据可视化技术有:

  1. 条形图(Bar Chart):用于表示分类数据的直方图,能直观地展示数据分布和类别之间的差异。
  2. 折线图(Line Chart):用于表示随时间变化的数据,可以清晰地展示数据的趋势和波动规律。
  3. 饼图(Pie Chart):用于表示分类数据的比例关系,可以直观地展示各类别之间的占比情况。
  4. 树图(Tree Map):是一种层次化的数据可视化方式,可以直观地展示数据之间的层次关系和重要性。

交互式可视化是一种能够与用户进行实时互动的技术。通过交互式可视化,用户可以更深入地探索数据,并获得更加直观、准确的结论。常见的交互式可视化技术有:

  1. 地图可视化:使用地图来展示地理空间数据,可以反映地理位置、距离、面积等信息。
  2. 网络可视化:以图形形式展示网络结构和关系,例如社交网络、交通网络等。
  3. 动态可视化:能够展示随时间变化的趋势和事件,例如时间序列数据、股票价格等。

网络可视化是一种分析社会网络和复杂系统的方法。通过网络可视化,作者可以发现网络中的节点、连接和拓扑结构,进而了解群体的结构和功能。常见的网络可视化技术有:

  1. 社交网络分析(Social Network Analysis):研究社会网络中的节点、连接和群组,以及网络结构对群体行为和传播的影响。
  2. 动力学网络分析(Dynamic Network Analysis):研究网络中动态过程的行为和动力机制,例如信息传播、演化过程等。
  3. 复杂网络分析(Complex Network Analysis):研究由异质节点和边缘组成的网络结构,例如生态网络、生物网络等。

总之,可视化技术在数据表达、理解和探索方面具有重要意义。通过数据可视化、交互式可视化和网络可视化等技术,作者可以更加直观、准确地理解和表达数据,进而发现数据背后的规律和关联。

Comparison with SOTA Methods

进行了大量的实验来比较作者的方法与最先进的方法。结果表明,作者在Deepglobe数据集上获得了比最新SOTA性能更好的结果。此外,在其它三个跨域数据集上,作者的结果比表1中展示的前期方法更好并更具竞争力且准确。此外,显然,具有更强大的模型和灵活的学习能力,预测结果更接近样品的原始语义,尤其是像素级信息,而不是依赖固定的事实,如图6所示。

picture.image

picture.image

Ablation Study

根据所提出的算法,作者对不同组合策略的模型性能进行了测试。总的来说,作者将消融实验分为以下几个部分,基于不同的 Backbone 网络、数据增强策略、融合分支和基于SOTA的消融研究。所有的消融实验都基于预训练权重:'vit_h'以获得更好的性能。此外,FS1000数据集具有很少的跨域难度且不是代表性,因此在消融实验中作者没有使用它来测试作者算法的有效性,而只用于表格I中的比较实验。

Backbone 网络和数据增强消融 在新增任务特定类域无关特征提取和自提示生成分支中,作者对模型在三个更具跨域难度的不对称数据集上的性能进行了消融实验。

表格I:在CD-FSS基准上,1-way 1-shot和5-shot设置下的FSS和CD-FSS方法的比较。详细内容见表格II。本研究证明ResNet对类别具有较强的识别能力,并且在作者的新可学习提示中效果显著。

分支消融 在基于不同 Backbone 网络的分支消融测试中,作者选择ResNet作为CDTAP的 Backbone 网络。首先,MFF是多级特征融合模块。CDTAP是任务自适应信息解混模块。与APSeg [50]和HQ-SAM [36]的工作相结合,作者在分支消融研究中使用了作者的方法,见表3。

picture.image

与在相同设置下的SOTA进行比较 为了提供一个公平的 Baseline ,作者使用ViT-base,SAM初始化,并使用1024x1024的裁剪大小训练PATNet。表4中的结果再次证明了与基于CNN的PATNet相比,在相同设置下,作者的TAVP具有优越性。作者可以看到,基于ViT的PATNet在 Chest X-ray、ISIC 和 Deepglobe 数据集上的性能 compared to CNN-based PATNet [4]有所提高。这些结果再次证明,这三个数据集更具挑战性,作者的方法更加健壮。

picture.image

Efficiency Comparision

考虑到基本模型需要大量的参数计算,作者只训练一些可微调的参数。SAM需要从头开始训练一个拥有大量参数的模型,而作者的框架只需要微调一些层和参数,而不是从头开始。此外,作者还在作者的框架中添加了线性计算,以减少参数数量,从而使作者的模型比SAM更轻量级的参数。

详细效率比较结果请在表5中查看。表5显示了详细的参数比较。请注意,下方的三行是SAM的参数,基于ViT。其他行是作者整个框架的参数,基于不同的后端,都比SAM小。这些结果再次证明,作者的方法提高了SAM的效率,且更轻量化。

picture.image

VI Conclusion

值得注意的是,本研究是首个将大型基础模型方法应用于CDFSS任务的工作。以往的研究主要集中在传统的基于CNN的深度学习方法上,这减缓了对通用人工智能的探索。

作者的方法基于SAM,这是一个用于分割的大型基础模型,同时重新思考其在CDFSS中的价值。广泛的实验表明,尽管SAM可以在大多数分割任务上取得满意的结果,但在某些特定场景下,尤其是Deepglobe数据集上,其表现仍然不佳。因此,作者的工作为CDFSS任务中的大型模型迁移提供了一个新颖且高效的框架。

CDTAP模块实现了可学习的提示,以在三个基准测试上取得优异的性能。

换句话说,SAM可以作为一个基本的知识工具,将其知识转移到其他特定情境中以完成领域特定任务是值得的。

此外,作者的方法是初步探索将SAM迁移到CDFSS任务,未来还需要探索更多关键且高效的算法。需要研究更多具有强大学习能力的方法,以完成跨领域和少样本任务,从而推动未来通用人工智能的发展。

参考

[1].TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论