SAM 3分割一切，支持文本和图像提示 - 文章 - 开发者社区

picture.image

向AI转型的程序员都关注公众号机器学习AI算法工程

三行摘要

SAM 3 提出了一种统一模型，通过名词短语或图像示例等概念提示，实现图像和视频中物体的检测、分割及跟踪，即概念可提示分割

（PCS）任务。

该模型采用了分离识别与定位的“存在头

”架构，其视觉骨干在图像检测器和基于记忆的视频跟踪器之间共享，并通过一个结合人工与AI的循环数据引擎构建了包含数百万概念标签的高质量数据集。

SAM 3 在图像和视频 PCS 任务上取得了显著的性能提升，较现有系统实现了2倍的增益，并改进了SAM系列在交互式视觉分割方面的能力，同时开源了模型及新的SA-Co基准

。

picture.image

我们提出了Segment Anything Model (SAM) 3，这是一个统一模型，它能基于概念提示 (concept prompts) 在图像和视频中检测、分割和跟踪物体。概念提示可定义为简短的名词短语 (noun phrases)（例如，“yellow school bus”）、图像示例 (image exemplars)，或两者的组合。可提示概念分割 (Promptable Concept Segmentation, PCS) 接受此类提示并返回所有匹配对象实例的分割掩码和唯一身份。为推进 PCS，我们构建了一个可扩展的数据引擎，生成了一个包含 400 万个独特概念标签的高质量数据集，其中包含图像和视频中的困难负例 (hard negatives)。我们的模型由一个视觉主干 (vision backbone) 组成，该主干由图像级检测器 (image-level detector) 和基于记忆的视频跟踪器 (memory-based video tracker) 共享。识别和定位通过一个存在头 (presence head) 解耦，这显著提高了检测准确性。SAM 3 在图像和视频 PCS 方面比现有系统实现了 2 倍的增益 (2x gain)，并改进了先前 SAM 在交互式视觉分割任务 (interactive visual segmentation tasks) 中的能力。我们开源了 SAM 3 及其新的 Segment Anything with Concepts (SA-Co) 基准 (benchmark)。

核心贡献：

提出PCS任务和SA-Co基准：

论文形式化了PCS任务，即输入文本和/或图像示例，预测所有匹配概念的物体实例的分割掩码和唯一身份，并在视频帧中保持物体身份。为此，作者构建了Segment Anything with Concepts (SA-Co) 基准，包含了400万个独特的概念标签和5200万个掩码，规模远超现有数据集。 2. 解耦识别与定位的架构：

SAM 3在SAM 2的基础上进行了扩展，支持PCS任务，同时保留了PVS（Promptable Visual Segmentation）能力。其核心架构包括一个共享视觉骨干（Perception Encoder, PE）、一个图像级检测器（Detector）和一个基于内存的视频追踪器（Tracker）。 3. 高效高质量的人工-AI协同数据引擎：

论文开发了一个可扩展的数据引擎，能够生成高质量、多样化的图像和视频训练数据。该引擎创新性地体现在三个方面：媒体来源多样化、利用本体和多模态大语言模型（MLLMs）生成名词短语和难负例来丰富标签多样性与难度、通过微调MLLMs作为“AI验证器”将标注吞吐量提高了一倍，使其达到接近人类的性能。

核心方法：

1. PCS任务定义： 任务目标是给定图像或短视频和由短文本短语、图像示例或两者组合指定的视觉概念，检测、分割并追踪该概念的所有实例。文本提示（名词短语）对所有帧全局有效，而图像示例可在单个帧上作为正或负边界框提供，以迭代细化目标掩码。论文特别指出，由于其开放词汇性质，PCS任务本质上是模糊的，模型在数据收集、指标设计和建模阶段都考虑了这些模糊性。

picture.image

2. 模型架构（SAM 3）： SAM 3采用DETR

（Detection Transformer）范式，包含一个双编码器-解码器 Transformer。

共享视觉骨干 (PE)：

图像和文本编码器是基于Perception Encoder (PE) 训练的Transformer，PE通过对比视觉语言训练在大规模图像-文本对上进行预训练。视觉编码器采用分窗注意力（windowed attention）和局部层中的全局注意力，并结合RoPE（Rotary Positional Embedding）和分窗绝对位置嵌入。

检测器 (Detector)：

输入编码：

图像和文本提示由PE编码。图像示例（如果有）由一个单独的示例编码器（exemplar encoder）编码，它将位置、标签嵌入和ROI池化后的视觉特征进行处理。这些共同构成“提示tokens”。

融合编码器 (Fusion Encoder)：

接收来自图像编码器的未条件化嵌入，并通过对提示tokens进行交叉注意力来对其进行条件化。

解码器 (Decoder)：

DETR-like的解码器包含学习到的物体查询（object queries），它们对提示tokens和条件化后的图像嵌入进行交叉注意力。每个物体查询预测一个分类logit（指示是否匹配提示）和边界框偏移量，并使用Box-region-positional bias辅助注意力。

存在头 (Presence Head)：

这是论文引入的关键组件，用于解耦识别（what）和定位（where）。它引入一个学习到的全局“存在token”（presence token），专门预测目标概念是否存在于图像/帧中，即 p(NP is present in input)" role="presentation" style="display: inline-block;font-style: normal;font-weight: normal;line-height: normal;font-size: 16px;font-size-adjust: none;text-indent: 0px;text-align: left;text-transform: none;letter-spacing: normal;word-spacing: normal;overflow-wrap: normal;float: none;direction: ltr;max-width: none;max-height: none;min-width: 0px;min-height: 0px;border: 0px;padding: 0px;margin: 0px;">

。每个物体查询 qi" role="presentation" style="display: inline-block;font-style: normal;font-weight: normal;line-height: normal;font-size: 16px;font-size-adjust: none;text-indent: 0px;text-align: left;text-transform: none;letter-spacing: normal;word-spacing: normal;overflow-wrap: normal;float: none;direction: ltr;max-width: none;max-height: none;min-width: 0px;min-height: 0px;border: 0px;padding: 0px;margin: 0px;">

只需解决定位问题 p(qi