SAM 3分割一切,支持文本和图像提示

机器学习算法图像处理

picture.image

向AI转型的程序员都关注公众号 机器学习AI算法工程

三行摘要

  1. SAM 3 提出了一种统一模型,通过名词短语或图像示例等概念提示,实现图像和视频中物体的检测、分割及跟踪,即概念可提示分割

(PCS)任务。

  1. 该模型采用了分离识别与定位的“存在头

”架构,其视觉骨干在图像检测器和基于记忆的视频跟踪器之间共享,并通过一个结合人工与AI的循环数据引擎构建了包含数百万概念标签的高质量数据集。

  1. SAM 3 在图像和视频 PCS 任务上取得了显著的性能提升,较现有系统实现了2倍的增益,并改进了SAM系列在交互式视觉分割方面的能力,同时开源了模型及新的SA-Co基准

picture.image

picture.image

我们提出了Segment Anything Model (SAM) 3,这是一个统一模型,它能基于概念提示 (concept prompts) 在图像和视频中检测、分割和跟踪物体。概念提示可定义为简短的名词短语 (noun phrases)(例如,“yellow school bus”)、图像示例 (image exemplars),或两者的组合。可提示概念分割 (Promptable Concept Segmentation, PCS) 接受此类提示并返回所有匹配对象实例的分割掩码和唯一身份。为推进 PCS,我们构建了一个可扩展的数据引擎,生成了一个包含 400 万个独特概念标签的高质量数据集,其中包含图像和视频中的困难负例 (hard negatives)。我们的模型由一个视觉主干 (vision backbone) 组成,该主干由图像级检测器 (image-level detector) 和基于记忆的视频跟踪器 (memory-based video tracker) 共享。识别和定位通过一个存在头 (presence head) 解耦,这显著提高了检测准确性。SAM 3 在图像和视频 PCS 方面比现有系统实现了 2 倍的增益 (2x gain),并改进了先前 SAM 在交互式视觉分割任务 (interactive visual segmentation tasks) 中的能力。我们开源了 SAM 3 及其新的 Segment Anything with Concepts (SA-Co) 基准 (benchmark)。

核心贡献:

  1. 提出PCS任务和SA-Co基准:

论文形式化了PCS任务,即输入文本和/或图像示例,预测所有匹配概念的物体实例的分割掩码和唯一身份,并在视频帧中保持物体身份。为此,作者构建了Segment Anything with Concepts (SA-Co) 基准,包含了400万个独特的概念标签和5200万个掩码,规模远超现有数据集。 2. 解耦识别与定位的架构:

SAM 3在SAM 2的基础上进行了扩展,支持PCS任务,同时保留了PVS(Promptable Visual Segmentation)能力。其核心架构包括一个共享视觉骨干(Perception Encoder, PE)、一个图像级检测器(Detector)和一个基于内存的视频追踪器(Tracker)。 3. 高效高质量的人工-AI协同数据引擎:

论文开发了一个可扩展的数据引擎,能够生成高质量、多样化的图像和视频训练数据。该引擎创新性地体现在三个方面:媒体来源多样化、利用本体和多模态大语言模型(MLLMs)生成名词短语和难负例来丰富标签多样性与难度、通过微调MLLMs作为“AI验证器”将标注吞吐量提高了一倍,使其达到接近人类的性能。

核心方法:

1. PCS任务定义: 任务目标是给定图像或短视频和由短文本短语、图像示例或两者组合指定的视觉概念,检测、分割并追踪该概念的所有实例。文本提示(名词短语)对所有帧全局有效,而图像示例可在单个帧上作为正或负边界框提供,以迭代细化目标掩码。论文特别指出,由于其开放词汇性质,PCS任务本质上是模糊的,模型在数据收集、指标设计和建模阶段都考虑了这些模糊性。

picture.image

picture.image

2. 模型架构(SAM 3): SAM 3采用DETR

(Detection Transformer)范式,包含一个双编码器-解码器 Transformer。

  • 共享视觉骨干 (PE):

图像和文本编码器是基于Perception Encoder (PE) 训练的Transformer,PE通过对比视觉语言训练在大规模图像-文本对上进行预训练。视觉编码器采用分窗注意力(windowed attention)和局部层中的全局注意力,并结合RoPE(Rotary Positional Embedding)和分窗绝对位置嵌入。

  • 检测器 (Detector):
  • 输入编码:

图像和文本提示由PE编码。图像示例(如果有)由一个单独的示例编码器(exemplar encoder)编码,它将位置、标签嵌入和ROI池化后的视觉特征进行处理。这些共同构成“提示tokens”。

  • 融合编码器 (Fusion Encoder):

接收来自图像编码器的未条件化嵌入,并通过对提示tokens进行交叉注意力来对其进行条件化。

  • 解码器 (Decoder):

DETR-like的解码器包含学习到的物体查询(object queries),它们对提示tokens和条件化后的图像嵌入进行交叉注意力。每个物体查询预测一个分类logit(指示是否匹配提示)和边界框偏移量,并使用Box-region-positional bias辅助注意力。

  • 存在头 (Presence Head):

这是论文引入的关键组件,用于解耦识别(what)和定位(where)。它引入一个学习到的全局“存在token”(presence token),专门预测目标概念是否存在于图像/帧中,即 p(NP is present in input)" role="presentation" style="display: inline-block;font-style: normal;font-weight: normal;line-height: normal;font-size: 16px;font-size-adjust: none;text-indent: 0px;text-align: left;text-transform: none;letter-spacing: normal;word-spacing: normal;overflow-wrap: normal;float: none;direction: ltr;max-width: none;max-height: none;min-width: 0px;min-height: 0px;border: 0px;padding: 0px;margin: 0px;">

。每个物体查询 qi" role="presentation" style="display: inline-block;font-style: normal;font-weight: normal;line-height: normal;font-size: 16px;font-size-adjust: none;text-indent: 0px;text-align: left;text-transform: none;letter-spacing: normal;word-spacing: normal;overflow-wrap: normal;float: none;direction: ltr;max-width: none;max-height: none;min-width: 0px;min-height: 0px;border: 0px;padding: 0px;margin: 0px;">

只需解决定位问题 p(qi

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论