中科院 & 华为 & 中科大提出 SAM-CP1，刷新分割 SOTA 榜！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

分段任何模型（SAM）已经显示出将图像像素分组为块的一般能力，但将其应用于具有语义意识的分割仍面临重大挑战。

本文提出了SAM-CP1，这是一种简单的方法，它在SAM的基础上建立了两种可组合的提示，并将它们组合起来实现多功能的分割。

具体来说，给定一组类别（以文本形式）和一个SAM块集合，类型I提示判断一个SAM块是否与文本标签对齐，而类型II提示判断具有相同文本标签的两个SAM块是否也属于同一实例。

为了降低处理大量语义类别和块时的复杂性，作者建立了一个统一的框架，该框架计算了（语义和实例） Query 与SAM块之间的亲和力，并将与 Query 亲和力高的块合并。

实验表明，SAM-CP在开放和封闭领域均实现了语义、实例和全景分割。

特别是，它在开放词汇分割方面达到了最先进的表现。作者的研究为为SAM这样的视觉基础模型装备多粒度语义感知能力提供了一种新颖和通用的方法。

1 引言

过去十年见证了视觉感知基础模型的快速发展。这些模型适用于一系列视觉识别任务，并作为多模态（例如，视觉-语言）理解的构建块。近期，一个名为“分段任何”（Segment Anything，简称SAM）[24]的强大基础模型引起了广泛关注。在大量图像语料库上预训练的SAM，显示出将图像像素分组为块的惊人能力，并在不同的视觉领域（例如，医学图像，伪装图像，热成像[6]等）以及不同的下游场景（例如，图像编辑[58; 51]，3D识别[43; 48; 4]，目标跟踪[13; 54]等）中展现出广泛的泛化能力。

尽管SAM取得了成功，但在将SAM应用于包括语义、实例或全景分割在内的感知分割任务时，仍存在重大挑战。作者注意到这一方向上的两条研究路线。第一条路线（例如，Grounded-SAM [41]）严重依赖于一个独立的模型（例如，DINO 或 Grounding-DINO [34]）来生成 Proposal ，而SAM仅用于细化。这削弱了SAM作为基础模型的功能。第二条路线（例如，SSAM [5]，Semantic-SAM [26]，SAM-CLIP [47]）试图为SAM生成的每个 Patch 分配一个语义标签。然而，在许多场景中，SAM可能会将一个实例过度分割成子 Patch ，使得难以确定哪些 Patch 属于同一实例。

本文提出了一种名为SAM-CP的新方法，其中“CP”代表可组合提示。与现有方法不同，作者在SAM生成的 Patch 之外建立了两种类型的提示。该思想在图1中有所展示。当给定一个语义类别（以文本形式）时，模型需要确定：(i) 提示I：一个SAM Patch 是否与文本标签对齐，以及(ii) 提示II：两个 Patch 是否属于相应类别的同一实例。一旦模型学会处理这两个提示，就可以在SAM Patch 上应用一个简单的遍历算法进行语义分割（基于第一个提示）和实例分割（加上第二个提示），并进一步将它们组合起来进行全景分割。

picture.image

一个简单的SAM-CP实现会在枚举类别- Patch 对（提示I）和 Patch - Patch 对（提示II）时遭受超线性计算复杂度。为了加速这一过程，作者建立了一个统一的亲和力框架，如图2所示。它包含一个基于 Query 的机制，其中建立了两种类型的 Query （语义和实例），并将从SAM Patch 提取的特征作为键。 Query 和键都被送入视觉 Transformer ；在正向传播过程中，每个 Query 与与其具有高亲和力的键合并。在亲和力传播结束时，每个 Query 中包含的键形成了所需的实体（一个语义区域或一个实例）。这种实现使得作者能够在GPU上高效地进行训练过程。

picture.image

作者分别在COCO [32] 和 ADE20K [61] 数据集上训练了SAM-CP模型，并在这些数据集以及Cityscapes [14] 数据集上进行了评估，涵盖了开放词汇和封闭领域的分割任务。由于SAM-CP被训练用于理解文本标签，它可以通过CLIP [40] 文本编码器轻松适应未见过的类别。广泛的实验证明了SAM-CP具有使用单一模型覆盖语义、实例和全景分割的能力。特别是，在开放词汇分割方面，它取得了最先进的准确度。定性研究显示，SAM-CP提高了SAM特征在语义区分性方面的表现。作者的研究为视觉基础模型（例如SAM）赋予了坚实且灵活的语义识别能力提供了一种新的方法论。作者期望所提出的方法能够在未来随着视觉基础模型的升级和强化，获得更强大和更多样化的能。

2 Related Work

近年来，计算机视觉（CV）和多层感知器（MLP）领域都见证了基础模型的快速发展。特别是，视觉基础模型已从仅仅针对图像分类的预训练，发展到融合多模态信息和/或为处理不同任务而进行预训练。这些模型提高了包括检测、分割等在内的各种下游视觉识别任务的准确性。近期，SAM [24]作为一种多功能分割的基础模型出现。它在包含数十亿实例的大型语料库上进行预训练，能够将图像分割成一组基本图块。SAM的一个重要优势在于其能够识别不同领域的图像，但缺点在于每个图块缺少语义标签。社区一直在尝试将SAM适应到各种场景中，包括在其他图像数据上的适应（如医疗图像，伪装图像[9; 45]，遥感图像[8; 60; 46]等），提升其分割3D物体的能力[43; 48; 4]，以及作为图像编辑的预处理步骤[58; 51]。在这些努力中，最具挑战性的话题之一是给SAM图块分配语义标签。现有研究包括调用其他基础模型（如CLIP [40]）进行图像标记[5; 26; 47]，在其它检测和/或分割模型之后将SAM作为细化阶段[41]，以及生成其他变体。然而，在许多场景中，SAM可能会将基本语义单元过度分割成子图块，这增加了作者针对特定目的进行分割的工作负担。

本文关注于在SAM的分割结果之上建立基本提示，以实现多功能分割。这与一系列基于 Query 的视觉识别算法有关，如DETR [3]及其后续变体[62; 25; 33; 59; 34]。同时，作者计算亲和力以确定语义单元之间的关系（例如 Query 和目标），这与一些先前尝试计算像素与目标之间亲和力以执行分割的工作[1; 55; 35]相关。这一想法也受到了ViRReq [44]的启发，这是一项近期工作，提出了将复杂的视觉识别任务分解为基本单元，以简化标注和优化。此外，受到之前的开词汇全景分割方法[56; 52; 10]的启发，作者利用基于CLIP的分类器使模型具备开放领域的识别能力。

3 Our Approach

Overview: Composite Prompts for Segmentation

作者的方法的整体设计如图1所示。核心思想是除了SAM [24]之外，建立两种类型的提示。SAM是一种最近的视觉基础模型，它从输入图像中提取块作为潜在的实例。通过组合不同提示的输出，SAM块被标记和/或组合成语义区域和/或实例，从而可以执行各种分割任务。作者将这种方法称为SAM-CP，其中'CP'代表可组合提示。

从数学上讲，令输入图像为。SAM提取了一系列块，，其中是块的数量，是第个块，它以与输入图像相同形状的二值 Mask 形式表示。尽管SAM在各种视觉领域都具有鲁棒性，但它并没有为每个块提供语义标签，有时一个实例（例如一个人）可能会被过度分割成多个块。作者设计了以下两种类型的提示。

语义标注。给定一个文本标签和一个块，判断是否可以归类为。
实例合并。给定一个文本标签和两个被归类为的块和，判断和是否属于的同一实例。

通过组合上述两种提示，可以完成广泛的分割任务。首先，注意常规的语义分割仅涉及提示I（为每个块分配标签），而实例分割则是通过添加提示II（将过度分割的块合并为一个实例）来实现的。此外，当需要在更细粒度上进行分割时，可以迭代调用这两个提示，例如，提示I用于将一个区域分类为子类，提示II用于将一个实例分割成部分等。

Efficient Training with a Unified Affinity Framework

SAM-CP的一个简单实现包括对每个图像块执行提示I，然后对每对图像块执行提示II，之后可以将属于同一实例的块合并。然而，这种朴素的流水线效率不理想，因为需要执行的提示II的数量是，其中对于常规图像来说可能是数百个。此外，合并过程需要串行操作，在推理阶段不可避免地会遇到冲突（例如，和、和被认为是同一实例，但和却不是）。

为了加速这一过程，作者设计了一个等价但更高效的机制，名为统一亲和力框架。作者初始化一组潜在单元（即语义区域和实例）的 Query ，并将所有SAM图像块设置为键。作者在 Query 和键之间执行亲和力传播，逐渐将高亲和力分数的单元合并成更大的单元。通过这种改进的机制，过度分割的图像块可以即时合并，无需进一步的后期处理（即在亲和力传播结束时，存活的单元自然形成输出）。作者在图2中说明了这个过程，并以下详细介绍了各个模块。

3.2.1 Patch Encoder

作者首先从图像块中提取视觉特征。对于每个图像块，作者使用一个常规的 Backbone 网络（例如，ResNet50 [20] 或 Swin-L [36]），并配备RoIAlign [19] 操作符来获得一个基础特征向量。作者还设计了一个MaskRoI操作符，通过 Mask 背景区域来提取更精确的视觉特征。所有这些特征都通过多层感知机（MLP）传播，并输入到多头自注意力层中，在本论文中，设置为6。对应于的特征向量表示为。

3.2.2 Unified Affinity Decoder

以下是核心模块，它执行亲和传播并将 Patch 合并为超级 Patch 。下面作者将详细阐述三个关键要素：一是语义和实例 Query 的一组设置；二是亲和传播算法；三是标签分配机制（第3.2.3节）。

Query 的形式与DETR [3]相似。不同之处在于，作者分别为语义和实例分割建立两种类型的 Query 。（1）对于每个文本标签，其中是类别索引，作者使用视觉-语言模型的语支（例如 CLIP [40]）将其转换为 Query 向量，其中上标'S'代表“语义”。（2）作者还创建了个实例 Query （即假设每个 Patch 可能对应一个实例，简称 patch-as-query, PasQ），并用 Patch 的视觉特征和位置嵌入来初始化它们，即，其中上标'I'代表“实例”。以下作者将这两种类型的 Query 表示为，，其中是 Query 的数量。

亲和力。亲和力在数学上被定义为一个大小为的矩阵。的每个条目表示 Patch 属于 Query 的概率。最初，作者将的所有条目设置为 1。然后，在每个亲和传播层（具体细节见下文）， Query 向量（表示为 Q）和 Patch 特征（表示为 K 和 V）被输入到一个多头交叉注意力模块中，以更新后续分类的 Query 向量。这里有三个关键模块。（1）亲和力矩阵在交叉注意力中的二元操作后作为动态 Mask ，作者称之为动态交叉注意力（DCA），用于从高亲和力 Patch 中提取特征。（2）作者插入一个名为亲和力细化（AR）的模块，使用 Q 和 K 之间的余弦相似度来更新亲和力矩阵。（3）为了增强 Query 特征，作者应用 Query 增强（QE）机制，将 Query 的特征与其高亲和力区域的目标区域特征（RoI）融合。DCA、AR 和 QE 的详细信息在附录 A.1 中描述。如消融研究（第4.4节）所示，所有这些设计都有助于提高分割精度。

3.2.3 标签分配与监督

每个 Query ，无论其类型是语义还是实例，都预期占据一组（一个或多个） Patch ，并被分配一个类别标签。因此，需要两种监督来源，分别来自语义标签和实例 ID。每个 Query 都受到这两种信号的监督。

语义级监督。首先，作者在语义 Query 的基础上构建了一个视觉语言分类器。遵循GLIP [29]，第个 Query 在第个类别的分数由和确定，这两个量是通过将和线性归一化到区间得到的。基于的分类损失按照方程(1)计算。

在中，是一个可学习的缩放因子，是一个偏置参数。在中，是Focal Loss，是sigmoid激活函数，是第个 Query 的 GT 类别标签（作者将在补充材料中解释如何计算），是指标函数，如果陈述为真则取，否则取。

实例级监督。在亲和传播结束时，每个实例 Query 对应一个二值分割 Mask 。假设真实情况包含个实例。作者首先通过计算预测实例与真实实例之间每一对的边界框级IoP（交并比）和 Mask 级IoP值，建立一个匹配矩阵（大小为）；如果这两个IoP值都大于一个预定义的超参数，那么它们被认为是匹配的，_即_，，在本文中。如果一个目标没有分配到任何 Patch ，那么至少具有0.5 IoU值的 Patch 将被选为低质量匹配的候选者。基于匹配矩阵，作者计算 GT 亲和矩阵（大小为，与相同）。对于每个，作者首先确定是否有任何 GT 实例（索引为）与第个 Query 匹配（具体细节见下一部分）。如果是，（_即_，将的第行复制到的第行）；否则，。然后，按照[11, 27]的方法，作者计算 Mask Focal Loss和Dice损失：

其中和分别表示Focal Loss和Dice损失，是图像中阳性 Query 嵌入的数量，是中非零项的数量（_即_，分配给第个 Query 的 Patch 数量），是一个权重，表示是否考虑第个 Query 。

为每个 Query 确定和。这一过程在不同类型的 Query 之间是不同的。

对于语义 Query （类型I），（），作者首先检查图像中是否出现了第类。如果没有出现，那么作者有和。否则，第类（作为一个独特的语义区域）必须出现在 GT '实例'集中；设其索引为，因此。对于正嵌入，作者将设置为，否则为。

对于实例 Query （类型II），作者遵循DETR系列[3, 62, 59]的方法，应用匈牙利算法来找到 Query 与 GT 实例之间的最佳匹配。不同之处在于，作者使用更多指标来计算匹配成本，包括分类损失（cls）、 Mask Focal Loss（mfl）、Dice损失（dice）、边界框成本（bbox）以及gIoU成本（giou）。作者将在实验中展示，所有这些组成部分都有助于获得更好的分割结果。匹配完成后，作者获得第个 Query 的索引（可以为空，在这种情况下， Query 被忽略），并分配。对于正嵌入，作者将设置为，否则为。

总体损失函数。总体损失定义为，其中损失系数为，，。作者应用DINO[59]中的去噪策略来提高训练性能。具体细节在附录A.3中提供。

Inference

在闭集和开词汇切分中，推理过程略有不同。在闭领域中，方程（1）中的逻辑值用于分类。归一化和量化的亲和力矩阵用于块合并。对于语义切分，作者参考对应于个类别的行，并合并所有超过预定义阈值的块。对于实例切分，作者查找中非空实例行，每一行对应一个实例。全景切分是通过结合语义和实例切分结果实现的。在开领域中，作者用基于CLIP的逻辑矩阵来补充逻辑矩阵（大小为）。其余部分与闭领域相同。为了计算，作者遵循FC-CLIP [56] 使用 Mask 池化在预测的 Mask 上提取CLIP特征。然后，通过计算CLIP特征与之间的相似性，获得特征。最终的类别得分计算为，其中是一个系数，用于平衡闭领域和开词汇类别得分。

4 Experiments

在本节中，作者将展示一系列实验，以验证作者提出的方法的有效性。所有实验均在配置为Intel Xeon Gold 6130 CPU（2.1 GHz，16核）和NVIDIA Tesla V100 GPU（32 GB内存）的服务器上进行。作者使用了由Python编写的数据分析和机器学习库，如Pandas、NumPy和Scikit-learn。以下是作者实验的详细设置和结果。

Settings

数据集与评估指标。作者在COCO-Panoptic [32] 和 ADE20K [61] 数据集上训练 SAM-CP，并在封闭领域或开放词汇分割（使用跨数据集验证，以 Cityscapes 作为测试数据）上进行模型评估。COCO-Panoptic（2017年版）包含 118K 训练图像和 5K 验证图像，分为个“事物”类别和个“物质”类别。作者使用标准 AP 指标报告个“事物”类别的实例分割结果。对于语义分割，作者报告所有（）类别的 mIoU。对于全景分割，计算所有类别以及“事物”和“物质”子集的 PQ 指标。ADE20K 包含 20,210 张图像。作者使用个最常见的目标类别，包括个“事物”类别和个“物质”类别。Cityscapes 是一个街景数据集，包含 8 个“事物”类别和 11 个“物质”类别。作者将相同的指标从 COCO 继承到 ADE20K 和 Cityscapes 数据集。

实施细节。 Proposal Mask 是由 SAM 使用沿输入图像每轴的个网格点生成的。为了更好地验证作者的想法，作者使用带有 VIT-H 的 SAM 生成更好的 Patch 。对于开放词汇分割，作者使用冻结的 CLIP 图像编码器（为了公平比较，作者使用与之前最佳方法 FCCLIP [56] 相同的架构（ConvNext-L））作为 Backbone ，并配备 FPN [30]。对于封闭领域分割，作者在 ResNet50 (R50) [20] 和 Swin-L [36] 上建立 SAM-CP。作者使用 MMDetection [7]（v3.0）库的实现。对于开放词汇/封闭领域实验，作者使用块 Tesla-V100 GPU（每块 GPU 4/2 张图像）。数据增强策略遵循 DETR 系列。使用基本学习率为的 AdamW 优化器 [37]。更多细节请见附录 B。### 定量结果

开放词汇分割。结果总结在表1 中。在 COCOADE20K 和 ADE20KCOCO 中，SAM-CP 在全景分割的 PQ、SQ、RQ 以及实例分割的 AP 方面均超过了先前的最佳方法 FCC LIP [56]。特别是，SAM-CP 不仅在高质量分割方面具有竞争力，还在 PQ 和 RQ 之间实现了更好的权衡；在 COCOCityscapes 中，SAM-CP 实现了的 PQ，的 AP 和的 mIoU，用于多用途分割，这带来了最佳的实例分割性能。作者将这一出色结果归功于结合了 SAM 和 CLIP 的高效机制，这两个开放世界的基础模型适用于开放词汇分割。

picture.image

封闭领域分割。结果总结在表2 中。在 COCO-Panoptic 中，使用 ResNet-50 Backbone ，SAM-CP 实现的 PQ，的 AP 和的 mIoU；使用更强的 Swin-L Backbone ，SAM-CP 报告了更高的分割精度，分别为的 PQ，的 AP 和的 mIoU。在 ADE20K 中，使用 ResNet-50，SAM-CP 实现的 PQ，的 AP 和的 mIoU；使用 Swin-L，实现的 PQ，的 AP 和的 mIoU。一个有趣的比较来自于 MaskFormer [12]，其中 SAM-CP 报告了更高的 PQ 和 AP，但 mIoU 较低，这表明其在实例级识别方面的优势性能。这些数字证明了作者方法论的有效性，即建立在视觉基础模型之上的可组合提示。作者将在第 4.5 节探讨 SAM-CP 的局限性，并解释为什么这种新颖机制在封闭领域分割中效果不佳。

picture.image

总结。作为一种多用途分割的新方法论，SAM-CP 在三个热门基准上展示了一个统一的 Pipeline 和有前景的性能。特别是，SAM-CP 在开放领域展示了最先进的性能。作者期待未来有更强大的基础模型可用，并进一步推动 SAM-CP 的准确性。

Qualitative Studies

作者展示了SAM-CP在学习SAM之外的判别性视觉特征方面的能力。首先，作者在图3中展示了SAM-CP如何完成整个分割过程。从t-SNE可视化图中可以看出，从SAM Patch 提取的特征形成了对应于不同语义类别的簇。此外，当需要实例分割时，特定的簇可以进一步划分为对应于不同实例的子簇。这与图1中展示的高级思想相一致，并且SAM-CP高效地实现了这一目标。

picture.image

作者在图4中进一步比较了SAM和SAM-CP学习的视觉特征。不出所料，由SAM提取的特征在语义上并不具有判别性，不同样本之间的特征混杂。

picture.image

消融研究

作者通过消融研究来探究设计原则和各个模块的有效性。在开放词汇表中，作者报告了在冻结的CLIP编码器（ConvNext-L）和计划（即12个周期）下COCOADE20K的结果。在封闭领域内，作者在COCO数据集上使用ResNet-50 Backbone 网络，并采用计划进行实验。

损失函数和标签分配策略。表6显示了不同的损失函数和标签分配策略对性能的影响。可以看出， Mask Focal Loss至关重要，没有它模型将无法运行。Dice损失也有贡献，尤其是在实例检测和分割方面。关于标签分配，实验清楚地显示了在权重项中引入更多指标以改善二分图匹配结果的益处。

模块级消融。有五个组件有助于产生更好的分割结果，分别是：（1）在解码器中用于局部特征提取的动态交叉注意力（DCA）机制；（2）通过在每个阶段前的sigmoid函数前添加预测的亲和力细化（AF）策略；（3）MaskRoI操作符，它 Mask 背景区域以进行更精确的视觉特征提取；（4） Query 增强（QE），它将RoI特征添加到 Query 嵌入中；（5）用于负 Query 的自我亲和力，以保持“分割任何事物”的能力。表4总结了这五个组件的消融研究。它们各自都起到了作用，并且结合起来，在所有报告的指标上将 Baseline 至少提升了。

picture.image

DCA的设计。在上述模块中，DCA需要进一步研究。作者报告了三种DCA选项的性能，它们在是否在 Patch Level 或图像 Level 计算跨注意力以及是否使用 Patch 编码器方面各不相同。如表5所示，带 Patch 编码器的 Patch Level 跨注意力效果最佳，这意味着作者可以从SAM的输出中提取足够的视觉特征，该输出通常包含数百个 Patch 。

开放词汇分割的分类器。表6展示了分类器对开放词汇分割的影响。使用单个封闭集（可学习）和CLIP（冻结）分类器时，SAM-CP分别报告了17.5%的PQ和16.9%的PQ。在分类器融合后，封闭集和开放词汇的分数得到了平衡，从而达到了更高的27.2%的PQ。

匹配阈值和机制。作者研究了第3.2.3节中描述的匹配阈值和机制，这对亲和传播至关重要。作者在表7中消融了阈值τ以及是否同时使用框 Level 和 Mask Level 的IoP。作者发现τ=0.8是一个合适的阈值。另一方面，移除框 Level 或 Mask Level 的IoP会导致视觉识别的准确度明显下降，这表明提高 Patch 合并的召回率的重要性。此外，作者增加了低质量匹配，当一个目标未能与一个正 Patch 匹配时，它会给予一个高IoU Patch ，这将带来性能提升。因此，更准确的机制可能会提高整体的分割精度，作者将此作为未来的工作。

picture.image

添加额外的 Proposal 。作者将在预训练的Mask DINO（MD）模型中提取的 Proposal 添加到候选 Patch 的池中。具体细节见附录B.1。表8显示了分割结果的改进，这启发作者，SAM并没有生成理想的 Patch ，尤其是在封闭集分割方面，作者期待未来有更强大的视觉基础模型。

picture.image

开放词汇分割的平均系数。在表9中，作者对第3.3节定义的平均系数在COCOADE20K设置上进行消融研究。结果表明，在封闭集分类得分和CLIP分类得分之间的几何平均中，是最佳选择。

Advantages and Limitations

表10：针对COCO（val2017）实例分割，比较不同IoU下的mIoU和缺失率。此处，mIoU是指最高IoU Proposal 与 GT 之间的IoU，而mIoU意味着作者仅计算与最佳 Proposal 匹配且IoU高于的实例的mIoU。MR表示没有与IoU高于的 Proposal 匹配的实例比例。

图5：展示作者在封闭领域COCO上的结果。每组从左至右：输入，SAM Patch ，由SAM-CP（作者的）进行的全景分割。_此图最好以彩色观看。_

picture.image

SAM-CP从SAM在不同视觉领域中的泛化能力中明显受益。SAM-CP通过将低级像素分组（由SAM提供）与高级语义识别（由可组合提示提供）分离开来，实现了这一点。同时，SAM的不足限制了SAM-CP在封闭集合视觉基准测试中的分割精度。作者在表10中展示了这一点，其中比较了由SAM生成的 Patch 与由当前最优分割模型Mask DINO [27]生成的 Patch 。作者发现，相比Mask DINO（缺失率仅为），SAM的缺失率更高（_例如_，对于的实例，无法找到一个IoU大于的 Proposal ；即使作者参照真实面具合并一些 Proposal ，该比率也不会显著降低）。换句话说，SAM未能找到一些目标或将两个或更多目标错误地合并为一个 Patch ，而SAM-CP无法弥补这种损失。这导致了与Mask DINO相比在分割精度（_例如_，AP或mIoU）上的不足。作者在附录A.4中展示了一些典型例子。此外，SAM-CP的推理速度受限于SAM的速度；一旦有更高效的视觉基础模型可用，作者的框架可以无缝移植并实现更快推理。

5 Conclusions

在本文中，作者提出了SAM-CP这一新颖方法，它为SAM赋予了语义和实例分割的能力。

SAM的核心是两个可组合的提示，分别决定了（1）SAM Patch 是否与文本标签对齐；（2）两个SAM Patch 是否属于同一实例。该想法通过一个统一的亲和力框架来实现，以高效地进行训练和推理。

作者在COCO、ADE20K和Cityscapes数据集上展示了全景分割的定性和定量结果，涵盖了开放词汇和封闭领域分割。

作者的研究为如何利用视觉基础模型（如SAM）提供了一种新的方法论。

参考

[1].SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation.

点击上方卡片，关注「AI视界引擎」公众号

中科院 & 华为 & 中科大提出 SAM-CP1，刷新分割 SOTA 榜 ！

1 引言

2 Related Work

3 Our Approach

Overview: Composite Prompts for Segmentation

Efficient Training with a Unified Affinity Framework

3.2.1 Patch Encoder

3.2.2 Unified Affinity Decoder

Inference

4 Experiments

Settings

Qualitative Studies

Advantages and Limitations

5 Conclusions

参考