向AI转型的程序员都关注公众号 机器学习AI算法工程
三行摘要
- SAM 3 提出了一种统一模型,通过名词短语或图像示例等概念提示,实现图像和视频中物体的检测、分割及跟踪,即概念可提示分割
(PCS)任务。
- 该模型采用了分离识别与定位的“存在头
”架构,其视觉骨干在图像检测器和基于记忆的视频跟踪器之间共享,并通过一个结合人工与AI的循环数据引擎构建了包含数百万概念标签的高质量数据集。
- SAM 3 在图像和视频 PCS 任务上取得了显著的性能提升,较现有系统实现了2倍的增益,并改进了SAM系列在交互式视觉分割方面的能力,同时开源了模型及新的SA-Co基准
。
我们提出了Segment Anything Model (SAM) 3,这是一个统一模型,它能基于概念提示 (concept prompts) 在图像和视频中检测、分割和跟踪物体。概念提示可定义为简短的名词短语 (noun phrases)(例如,“yellow school bus”)、图像示例 (image exemplars),或两者的组合。可提示概念分割 (Promptable Concept Segmentation, PCS) 接受此类提示并返回所有匹配对象实例的分割掩码和唯一身份。为推进 PCS,我们构建了一个可扩展的数据引擎,生成了一个包含 400 万个独特概念标签的高质量数据集,其中包含图像和视频中的困难负例 (hard negatives)。我们的模型由一个视觉主干 (vision backbone) 组成,该主干由图像级检测器 (image-level detector) 和基于记忆的视频跟踪器 (memory-based video tracker) 共享。识别和定位通过一个存在头 (presence head) 解耦,这显著提高了检测准确性。SAM 3 在图像和视频 PCS 方面比现有系统实现了 2 倍的增益 (2x gain),并改进了先前 SAM 在交互式视觉分割任务 (interactive visual segmentation tasks) 中的能力。我们开源了 SAM 3 及其新的 Segment Anything with Concepts (SA-Co) 基准 (benchmark)。
核心贡献:
- 提出PCS任务和SA-Co基准:
论文形式化了PCS任务,即输入文本和/或图像示例,预测所有匹配概念的物体实例的分割掩码和唯一身份,并在视频帧中保持物体身份。为此,作者构建了Segment Anything with Concepts (SA-Co) 基准,包含了400万个独特的概念标签和5200万个掩码,规模远超现有数据集。 2. 解耦识别与定位的架构:
SAM 3在SAM 2的基础上进行了扩展,支持PCS任务,同时保留了PVS(Promptable Visual Segmentation)能力。其核心架构包括一个共享视觉骨干(Perception Encoder, PE)、一个图像级检测器(Detector)和一个基于内存的视频追踪器(Tracker)。 3. 高效高质量的人工-AI协同数据引擎:
论文开发了一个可扩展的数据引擎,能够生成高质量、多样化的图像和视频训练数据。该引擎创新性地体现在三个方面:媒体来源多样化、利用本体和多模态大语言模型(MLLMs)生成名词短语和难负例来丰富标签多样性与难度、通过微调MLLMs作为“AI验证器”将标注吞吐量提高了一倍,使其达到接近人类的性能。
核心方法:
1. PCS任务定义: 任务目标是给定图像或短视频和由短文本短语、图像示例或两者组合指定的视觉概念,检测、分割并追踪该概念的所有实例。文本提示(名词短语)对所有帧全局有效,而图像示例可在单个帧上作为正或负边界框提供,以迭代细化目标掩码。论文特别指出,由于其开放词汇性质,PCS任务本质上是模糊的,模型在数据收集、指标设计和建模阶段都考虑了这些模糊性。
2. 模型架构(SAM 3): SAM 3采用DETR
(Detection Transformer)范式,包含一个双编码器-解码器 Transformer。
- 共享视觉骨干 (PE):
图像和文本编码器是基于Perception Encoder (PE) 训练的Transformer,PE通过对比视觉语言训练在大规模图像-文本对上进行预训练。视觉编码器采用分窗注意力(windowed attention)和局部层中的全局注意力,并结合RoPE(Rotary Positional Embedding)和分窗绝对位置嵌入。
- 检测器 (Detector):
- 输入编码:
图像和文本提示由PE编码。图像示例(如果有)由一个单独的示例编码器(exemplar encoder)编码,它将位置、标签嵌入和ROI池化后的视觉特征进行处理。这些共同构成“提示tokens”。
- 融合编码器 (Fusion Encoder):
接收来自图像编码器的未条件化嵌入,并通过对提示tokens进行交叉注意力来对其进行条件化。
- 解码器 (Decoder):
DETR-like的解码器包含学习到的物体查询(object queries),它们对提示tokens和条件化后的图像嵌入进行交叉注意力。每个物体查询预测一个分类logit(指示是否匹配提示)和边界框偏移量,并使用Box-region-positional bias辅助注意力。
- 存在头 (Presence Head):
这是论文引入的关键组件,用于解耦识别(what)和定位(where)。它引入一个学习到的全局“存在token”(presence token),专门预测目标概念是否存在于图像/帧中,即 p(NP is present in input)" role="presentation" style="display: inline-block;font-style: normal;font-weight: normal;line-height: normal;font-size: 16px;font-size-adjust: none;text-indent: 0px;text-align: left;text-transform: none;letter-spacing: normal;word-spacing: normal;overflow-wrap: normal;float: none;direction: ltr;max-width: none;max-height: none;min-width: 0px;min-height: 0px;border: 0px;padding: 0px;margin: 0px;">
。每个物体查询 qi" role="presentation" style="display: inline-block;font-style: normal;font-weight: normal;line-height: normal;font-size: 16px;font-size-adjust: none;text-indent: 0px;text-align: left;text-transform: none;letter-spacing: normal;word-spacing: normal;overflow-wrap: normal;float: none;direction: ltr;max-width: none;max-height: none;min-width: 0px;min-height: 0px;border: 0px;padding: 0px;margin: 0px;">
只需解决定位问题 p(qi
