作者提出 Segment Anything Model (SAM) 3,这是一个统一的模型,能够基于概念 Prompt (concept prompts)在图像和视频中实现目标检测、分割与跟踪。作者定义的概念 Prompt 包括短语形式的名词短语(例如“黄色校车”)、图像样本(image exemplars),或两者的组合。可 Prompt 的概念分割(Promptable Concept Segmentation, PCS)接收此类 Prompt ,并返回所有匹配目标实例的分割 Mask 及其唯一身份标识。为推进 PCS 任务,作者构建了一个可扩展的数据引擎,生成了一个高质量的数据集,包含 400 万个独特概念标签,涵盖图像和视频中的各类样本,包括困难负样本(hard negatives)。SAM-3由一个图像级检测器和一个基于记忆的视频跟踪器组成,二者共享同一个 Backbone。通过引入存在性头(presence head),将识别与定位任务解耦,显著提升了检测精度。SAM 3 在图像和视频 PCS 任务中的准确率均达到现有系统水平的两倍,并进一步提升了先前 SAM 模型在视觉分割任务上的性能。作者已开源 SAM 3 以及全新的 Segment Anything with Concepts (SA-Co) 基准测试,以支持可 Prompt 概念分割的研究。
Demo: https://segment-anything.com
代码:https://github.com/facebookresearch/sam3
Website: https://ai.meta.com/sam3
1 引言
在视觉场景中识别并分割任意目标的能力是多模态人工智能的基础,推动了机器人、内容创作、增强现实、数据标注以及更广泛科学领域的应用。SAM系列(Kirillov 等,2023;Ravi 等,2024)为图像和视频引入了可 Prompt 分割任务,聚焦于通过点、框或 Mask 进行可 Prompt 视觉分割(Promptable Visual Segmentation, PVS),每个 Prompt 仅分割一个目标。尽管这些方法取得了突破性进展,但它们并未解决在输入中任意位置寻找并分割某一概念所有实例的通用任务(例如,视频中所有“猫”的实例)。
Image
为填补这一空白,作者提出 SAM 3,该模型在图像与视频的可 Prompt 分割(promptable segmentation)方面实现了质的飞跃,相较于 SAM 2 显著提升了 PVS(Promptable Visual Segmentation)性能,并为可 Prompt 概念分割(Promptable Concept Segmentation, PCS)设立了新标准。作者形式化了 PCS 任务(§2):以文本和/或图像样本作为输入,预测与该概念匹配的每一个物体的实例 Mask 与语义 Mask ,同时在视频帧间保持物体身份的一致性(见图1)。为聚焦于识别原子级视觉概念,作者限制文本输入为简单的名词短语(NPs),例如“红色苹果”或“条纹猫”。尽管 SAM 3 并非专为处理长距离指代表达或需要推理的 Query 而设计,但作者表明,它可被简单地与多模态大语言模型(Multimodal Large Language Model, MLLM)结合,以应对更复杂的语言 Prompt 。与之前的 SAM 版本一致,SAM 3 具备完全交互性,用户可通过添加细化 Prompt (refinement prompts)来消除歧义,引导模型输出符合其意图的结果。
SAM-3(§3)由一个检测器和一个跟踪器组成,二者共享一个视觉编码器(Bolya et al., 2025)。检测器是一个基于 DETR(Carion et al., 2020)的模型,其输入条件包括文本、几何信息和图像样本。为应对开集概念检测的挑战,作者引入了一个独立的“存在性头”(presence head),以解耦识别与定位任务,该设计在使用具有挑战性的否定短语进行训练时尤为有效。跟踪器继承了 SAM 2 的 transformer 编码器-解码器架构,支持视频分割和交互式精修。检测与跟踪的解耦设计避免了任务冲突:检测器需要具备身份无关性(identity agnostic),而跟踪器的主要目标则是对视频中的不同身份进行分离。
为了实现显著的性能提升,作者构建了一个“人与模型共同参与”的数据引擎(§4),用于标注大规模且多样化的训练数据集。作者在先前数据引擎的基础上进行了三项关键创新:(i) 媒体筛选:作者筛选了比以往依赖同质化网络来源的方法更为多样的媒体领域;(ii) 标签筛选:作者通过利用本体(ontology)和多模态大语言模型(multimodal LLMs)作为“AI标注员”,生成名词短语和困难负样本,显著提升了标签的多样性与难度;(iii) 标签验证:作者通过微调多模态大语言模型(MLLMs)使其成为高效的“AI验证员”,在达到接近人类水平的准确率的同时,将标注吞吐量提升了一倍。
从带有噪声的 media-phrase-mask 伪标签开始,作者的数据引擎利用人类和 AI 验证器共同检查 Mask 的质量与完整性,过滤出标注正确的样本,并识别出具有挑战性的错误案例。随后,人工标注员专注于通过手动修正 Mask 来修复这些错误。这一流程使作者能够构建高质量的训练数据,包含 400 万条唯一短语和 5200 万张 Mask ,以及一个包含 3800 万条短语和 140 亿张 Mask 的合成数据集。此外,作者还构建了用于 PCS(§5)的 Segment Anything with Concepts(SA-Co)基准,该基准包含 20.7 万条唯一概念,在 12 万张图像和 1700 条视频中均提供了详尽的 Mask ,其概念数量超过现有基准的 50 倍以上。
作者的实验(§6)表明,SAM 3 在可 Prompt 分割任务中达到了新的最先进水平,例如在 LVIS 数据集上实现了 48.8 的零样本 Mask AP,远超当前最佳的 38.5;在作者新提出的 SACo 基准测试中,性能提升至少达到
(详见图2 中的示例),并且在视觉 Prompt 任务上也优于 SAM 2。消融实验(§A)验证了主干网络(backbone)、新颖性检测Head(novel presence head)以及引入硬负样本均能显著提升性能,并为作者的高质量数据集和合成数据集在 PCS 任务上建立了可扩展性规律。作者已开源 SACo 基准测试,并发布了 SAM 3 的模型预训练权重和推理代码。在 H200 GPU 上,SAM 3 对单张图像进行推理(包含 100+ 检测目标)仅需 30 毫秒。在视频场景中,推理延迟随目标数量增加而增长,但可维持近实时性能,支持约 5 个并发目标。作者在 §7 中回顾了相关工作;接下来,作者将深入探讨该任务。
2 可 Prompt 的概念分割(PCS)
作者将可 Prompt 的概念分割(Promptable Concept Segmentation)任务定义如下:给定一张图像或一段短视频(≤30秒),检测、分割并跟踪由一个简短文本短语、图像范例,或两者结合指定的视觉概念的所有实例。作者限定概念为由简单名词短语(Noun Phrases, NPs)定义的类别,这些短语由一个名词及其可选修饰语构成。当提供名词短语 Prompt 时,该 Prompt 对图像或视频的所有帧全局有效;而图像范例可作为单帧上的正样本或负样本边界框提供,用于迭代优化目标 Mask (见图3)。
所有 Prompt 必须在类别定义上保持一致,否则模型的行为将未定义;例如,“鱼”不能通过后续仅包含鱼尾的示例 Prompt 进行细化;相反,应更新文本 Prompt 。当模型最初遗漏某些实例,或该概念较为罕见时,示例 Prompt 尤为有用。
作者的词汇表包含任何可在视觉场景中定位的简单名词短语,这使得该任务本质上具有歧义性。短语可能因一词多义(如“mouse”既可指设备又可指动物)、主观描述(如“cozy”、“large”)、模糊或依赖上下文的表达(甚至可能无法定位,如“brand identity”)、边界模糊(如“mirror”是否包含边框)以及遮挡和模糊等因素导致目标范围不明确等问题而存在多种解释。尽管类似问题也出现在大型封闭词汇语料库中(例如 LVIS (Gupta et al., 2019)),但通过精心筛选词汇并为所有感兴趣类别设定清晰定义,这些问题在一定程度上得到了缓解。作者通过以下方式解决歧义问题:从三位专家处收集测试标注,调整评估协议以允许多种有效解释(§E.3),设计数据处理流程/标注指南以尽量减少标注中的歧义,并在模型中引入一个歧义处理模块(§C.2)。
3 模型
Image
SAM 3 是 SAM 2 的推广版本,支持新的 PCS 任务(§2)以及 PVS 任务。它通过概念 Prompt (简单的名词短语、图像样本)或视觉 Prompt (点、框、 Mask )来定义需要在时空上(分别)分割的物体。可以在单帧上迭代添加图像样本和视觉 Prompt 以优化目标 Mask ——利用图像样本可移除误检物体,或添加漏检物体;同时,单个 Mask (let)可通过 PVS 以类似 SAM 2 的方式实现精细化调整。作者的架构总体基于 SAM 和 (M)DETR系列。图4 展示了 SAM 3 的架构,其由一个双编码器-解码器 Transformer 构成,该结构用于图像级能力的检测,与用于视频的追踪器和记忆模块结合使用。检测器与追踪器从对齐的感知编码器(Perception Encoder, PE)主干网络接收视觉-语言输入。以下为整体概述,详见 §C。
检测器架构。检测器的架构遵循通用的 DETR 范式。图像和文本 Prompt 首先由位置编码(Positional Encoding, PE)进行编码,若存在图像样例,则由样例编码器(exemplar encoder)对图像样例进行编码。作者将图像样例 Token 和文本 Token 统称为“ Prompt Token (prompt tokens)”。融合编码器(fusion encoder)接收来自图像编码器的无条件嵌入,并通过与 Prompt Token 进行交叉注意力(cross-attention)来对其进行条件化。随后,融合编码器的输出进入一个类似 DETR 的解码器,其中可学习的目标 Query (object queries)通过交叉注意力机制与融合编码器输出的条件化图像嵌入进行交互。
每个解码器层为每个目标 Query (在本工作中,即目标是否对应于 Prompt 的二元标签)预测一个分类logit,并根据前一级预测的边界框输出一个偏移量,遵循Zhu等人(2020)的方法。作者采用框区域位置偏置(box-region-positional bias)来帮助注意力聚焦于每个目标,但与近期的DETR模型不同,作者仍采用原始的attention机制。在训练过程中,作者采用来自DAC-DETR的双重监督,以及Align loss。 Mask 头(mask head)源自MaskFormer。此外,作者还引入了一个语义分割头,用于预测图像中每个像素的二元标签,以指示该像素是否对应于 Prompt 。详见§C。
Presence Token。让每个候选 Query (proposal query)同时完成目标识别(what)和定位(where)任务往往具有挑战性。在识别任务中,来自整个图像的上下文线索至关重要。然而,强制候选 Query 理解全局上下文可能会适得其反,因为这与定位任务本质上局部性的目标相冲突。为此,作者通过引入一个可学习的全局存在 Token (presence token)来解耦识别与定位步骤。该 Token 仅负责预测目标概念(以名词短语 NP 形式表达)是否存在于输入图像/帧中,即
。每个候选 Query
仅需解决定位问题
。每个候选 Query 的最终得分为其自身得分与存在得分的乘积。
图像样本(Image Exemplars)与交互性。SAM 3 支持以成对形式提供的图像样本——一个边界框(bounding box)及其对应的二值标签(正类或负类),这些样本可独立使用,也可与文本 Prompt 结合使用。模型随后将检测出所有与 Prompt 匹配的实例。例如,若在一只狗上提供一个正类边界框,模型将检测图像中所有狗的实例。这与 SAM 1 和 SAM 2 中的 PVS 任务不同,在 PVS 任务中,一个视觉 Prompt 仅生成单个目标实例。每个图像样本由样本编码器(exemplar encoder)分别编码,编码过程包含位置嵌入(position embedding)、标签嵌入(label embedding)以及 ROI 池化后的视觉特征,随后将三者拼接并输入一个小型 Transformer 进行处理。最终生成的 Prompt 向量与文本 Prompt 拼接,构成完整的 Prompt token。图像样本可基于当前检测结果中的错误进行交互式提供,以进一步优化输出结果。
追踪器与视频架构。给定一段视频和一个 Prompt
,作者使用检测器和追踪器(见图4)来检测并追踪视频中与该 Prompt 相对应的物体。在每一帧上,检测器识别出新出现的物体
,而追踪器则将前一时刻
的 masklets
(时空 Mask )传播到当前帧
的新位置
。作者使用一个匹配函数,将传播得到的 masklets
与当前帧中出现的新物体 Mask
进行关联。
通过 SAM 2 风格的传播追踪目标。在第一帧中,为每个检测到的目标初始化一个 masklet。随后,在每一帧中,追踪模块基于前一帧的目标位置
,通过类似于 SAM 2 中视频目标分割任务的单帧传播步骤,预测已追踪目标的新 masklet 位置
。追踪模块与检测器共享相同的图像/帧编码器(PE Backbone)。在完成检测器的训练后,作者冻结 PE,并按照 SAM 2 的方式训练追踪模块,包括 Prompt 编码器(prompt encoder)、mask 解码器、记忆编码器(memory encoder)以及一个记忆库(memory bank),该记忆库通过过去帧和条件帧(目标首次被检测到或用户 Prompt 的帧)的特征来编码目标的外观。记忆编码器是一个 Transformer,其在当前帧的视觉特征上执行自注意力(Self-Attention),并从视觉特征到记忆库中的空间记忆特征执行交叉注意力(cross-attention)。作者在 §C.3 中详细描述了作者的视频追踪方法。
推理阶段,作者仅保留物体在记忆库中被置信地存在的帧。 Mask 解码器是编码器隐状态与输出 Token 之间的双向Transformer。为处理歧义,作者在每一帧上为每个跟踪目标预测三个输出 Mask 及其置信度,并选择置信度最高的输出作为当前帧的预测 Mask 。
基于检测结果的匹配与更新。在获得跟踪 Mask
后,作者通过一个基于简单 IoU 的匹配函数(§C.3)将其与当前帧的检测结果
进行匹配,并将匹配上的检测结果添加到当前帧的
中。对于所有未匹配上的新检测到的目标,作者进一步生成新的 masklet。在密集场景中,合并过程可能面临歧义问题。作者通过下文所述的两种时间维度消歧策略来解决这一问题。
首先,作者利用时间信息,通过 Mask 片段检测得分(§C.3)来衡量一个 Mask 片段在时间窗口内与检测结果匹配的一致性(基于其在过去帧中与检测结果匹配的次数)。如果某个 Mask 片段的检测得分低于阈值,作者将其抑制。其次,作者利用检测器输出来解决跟踪器因遮挡或干扰物导致的特定失败模式。作者定期使用高置信度的检测 Mask
重新 Prompt 跟踪器,替换跟踪器自身的预测
。这确保了记忆库中包含近期且可靠的参考信息(而非跟踪器自身的预测)。
基于视觉 Prompt 的实例优化。在获得初始的 Mask 集合(或 Mask 片段,masklets)后,SAM 3 支持通过正向和负向点击对单个 Mask (或 Mask 片段)进行优化。具体而言,给定用户点击,作者使用 Prompt 编码器(prompt encoder)对这些点击进行编码,并将编码后的 Prompt 输入到 Mask 解码器(mask decoder)中,以预测调整后的 Mask 。在视频序列中,该 Mask 随后会在整个视频中进行传播,从而得到一个优化后的 Mask 片段。
训练阶段。作者分四个阶段逐步增加数据和能力来训练 SAM 3:1)感知编码器(Perception Encoder, PE)预训练;2)检测器预训练;3)检测器微调;4)使用冻结主干网络的跟踪器训练。详见§C.4.1。
4 数据引擎
Image
在 SAM 3 上实现 PCS 的跨越式提升,需要在现有数据集之外,对大量且多样化的概念和视觉领域进行训练(见图12)。作者构建了一个高效的数据引擎 (data engine),通过 SAM 3、人工标注者与 AI 标注者之间的反馈循环,迭代生成带标注的数据,主动挖掘当前 SAM 3 版本无法生成高质量训练数据的媒体-短语配对,从而进一步优化模型。通过将部分任务交由 AI 标注者(其性能达到或超过人类水平)完成,作者使数据标注吞吐量相比纯人工标注流程提升了两倍以上。该数据引擎分为四个阶段,每个阶段逐步增加 AI 模型的使用,引导人工标注资源集中于最具挑战性的失败案例,同时扩展视觉领域的覆盖范围。第 1 至第 3 阶段仅针对图像,第 4 阶段扩展至视频。以下是关键步骤的描述;详细信息与指标见 §D。
Image
数据引擎组件(图5)。媒体输入(图像或视频)从一个大型数据池中通过一个精心构建的本体论(ontology)进行挖掘。一个AI模型提出描述视觉概念的名词短语(Noun Phrases, NPs),随后另一个模型(例如SAM 3)为每个提出的NP生成候选实例 Mask (instance masks)。所提出的 Mask 通过两步验证流程进行验证:首先,在 Mask 验证(Mask Verification, MV)阶段,标注者根据 Mask 的质量及其与NP的相关性来接受或拒绝 Mask ;其次,在完备性验证(Exhaustivity Verification, EV)阶段,标注者检查输入中该NP的所有实例是否均已正确 Mask 。任何未通过完备性检查的媒体-NP对将进入人工修正阶段,由人工通过基于浏览器的工具(使用SAM 1)添加、删除或编辑 Mask ,或对难以分离的小物体使用“组” Mask (group masks)。标注者可拒绝无法定位(ungroundable)或模糊的短语。
第一阶段 :人工验证。作者首先使用一个简单的描述生成器(captioner)和解析器(parser)随机采样图像和NP(自然语言 Prompt )建议。初始的 Mask 建议模型采用SAM 2,其输入由现成的开集检测器(open-vocabulary detector)输出提供 Prompt ;初始验证者为人工。在此阶段,作者收集了430万组图像-NP对,构成初始的SA-Co/HQ数据集。作者基于该数据训练SAM 3,并将其作为下一阶段的 Mask 建议模型。
第二阶段 :人类⁺AI 验证。在下一阶段中,作者利用第一阶段收集的 MV 和 EV 任务的人类接受/拒绝标签,对 Llama 3.2进行微调,构建能够自动执行 MV 和 EV 任务的 AI 验证器。这些模型接收图像-短语- Mask 三元组输入,并输出 Mask 质量或完整性的多项选择评分。这一新的自动验证流程使人类标注者能够将精力集中于最具挑战性的案例。作者持续在新收集的数据上重新训练 SAM 3,并共更新了 6 次。随着 SAM 3 和 AI 验证器的性能提升,越来越多的标注由自动化生成,进一步加速了数据收集进程。引入用于 MV 和 EV 的 AI 验证器,使数据引擎的吞吐量相比纯人工标注者大致翻倍。关于 AI 验证器如何提升数据引擎吞吐量的详细分析,请参见 §A.4。此外,作者将 NP Proposal 步骤升级为基于 Llama 的流水线,该流水线还能生成针对 SAM 3 的困难负样本 NP(hard negative NPs)。第二阶段为 SA-Co/HQ 增加了 1.22 亿个图像-NP 对。
Image
第三阶段 :扩展与领域拓展。在第三阶段,作者利用AI模型挖掘越来越具有挑战性的案例,并将SA-Co/HQ的领域覆盖范围扩展至15个数据集(图15)。一个“领域”(domain)指文本与视觉数据的独特分布。在新领域中,MV AI验证器(verifier)能够实现零样本(zero-shot)良好表现,而EV AI验证器则需要少量领域特定的人工监督进行改进。作者还通过从图像的alt-text中提取名词短语(NPs)(在可用时)以及基于Wikidata(17个顶级类别,72个子类别)构建的2240万节点SA-Co本体(ontology)(§D.2)挖掘概念,进一步扩展了对长尾(long-tail)和细粒度(fine-grained)概念的覆盖。作者共迭代训练SAM 3共7次,AI验证器3次,并向SA-Co/HQ中新增了1950万张图像-NP对。
第四阶段 :视频标注。本阶段将数据引擎扩展至视频数据。作者使用成熟的图像分割模型 SAM 3 来收集能够捕捉视频特有挑战的目标质量标注。数据挖掘流程包含场景/运动过滤、内容平衡、排序以及目标搜索。视频帧通过采样(随机或基于目标密度)后,送入第三阶段的图像标注流程。利用扩展至视频的 SAM 3 生成 Masklets(时空 Mask ),并经过去重和剔除冗余 Mask 的后处理。由于视频标注更具挑战性,作者通过优先选择包含大量密集目标和跟踪失败的片段,将人工标注资源集中于高风险场景。所收集的视频数据集 SA-Co/VIDEO 包含 52.5K 个视频和 467K 个 Masklets。详见 §D.6。
5 带概念的分割一切(SA-Co)数据集
训练数据。作者为PCS任务收集了三个图像数据集:
-
- SA-Co/HQ,从第1-4阶段的数据引擎中获取的高质量图像数据;
-
- SA-Co/SYN,由成熟的数据引擎(第3阶段)生成的合成图像数据集,无需人工参与标注;
-
- SA-Co/EXT,包含15个外部数据集,均带有实例 Mask 标注,并通过作者的本体 Pipeline (ontology pipeline)引入了大量难负样本。
值得注意的是,在SA-Co/HQ数据集中,作者标注了520万张图像和400万个唯一NPs(名词短语),使其成为目前规模最大的高质量开集分割数据集。此外,作者还标注了一个视频数据集SA-Co/VIDEO,包含52,500个视频和24,800个唯一NPs,共形成134,000个视频-NP对。这些视频平均包含84.1帧,帧率为6 fps。详见§E.1,其中包含完整的统计数据、与现有数据集的对比以及概念分布情况。
Image
SA-Co 基准。SA-Co 评估基准包含 207K 个唯一短语、121K 张图像与视频,以及超过 300 万个带有困难负样本标签的媒体-短语对,用于测试开集识别能力。该基准包含 4 个划分:SA-Co/Gold 包含七个领域,每个图像-名词短语(image-NP)对由三位不同标注者进行标注(用于衡量人类性能);SA-Co/Silver 包含十个领域,每个图像-名词短语对仅有一个人工标注;SA-Co/Bronze 和 SA-Co/Bio 分别为九个现有数据集,这些数据集要么已存在 Mask 标注,要么使用边界框作为 Prompt (prompt)通过 SAM 2 生成 Mask 。SA-Co/VEval 基准包含三个领域,每个视频-名词短语对由一位标注者标注。数据集统计信息见表28,示例标注见图6。
指标。作者旨在衡量模型在下游应用中的实用性。检测指标如平均精度(Average Precision, AP)未考虑校准(calibration)问题,这意味着模型在实际应用中可能难以使用。为解决这一问题,作者仅对置信度高于 0.5 的预测结果进行评估,这实际上引入了一个阈值,模拟了下游应用中的使用场景,并强制模型具备良好的校准性能。
PCS 任务可自然地划分为两个子任务:定位(localization)和分类(classification)。作者使用正样本微 F1(positive micro F1,
)来评估定位性能,针对至少包含一个真实标注 Mask (ground-truth mask)的正样本媒体-短语对进行计算。分类性能则通过图像级 Matthews 相关系数(Image-level Matthews Correlation Coefficient, IL_MCC)进行衡量,其取值范围为
,用于评估图像 Level 的二分类任务(“目标是否存在?”),且不依赖于 Mask 质量。作者的主要指标为分类门控 F1(classification-gated F1,
),其计算方式如下:
完整定义见 §E.3。
处理歧义。作者在 SA-Co/Gold 上为每个 NP 收集 3 个标注。通过将每个预测结果与所有真实标注进行比较,并选择最优得分来衡量最优情况下的准确率(oracle accuracy)。详见 §E.3。
6 实验
作者在图像和视频分割、对检测与计数基准的少样本适应,以及使用 SAM
MLLM 进行复杂语言 Query 的分割任务上评估了 SAM 3。作者还展示了部分消融实验,更多内容见 §A。SAM-3、更多结果和详细信息见 §F。
图像-文本 Prompt 的PCS(Image PCS with Text)。作者在外部基准和作者自建的基准上评估实例分割、边界框检测和语义分割任务。SAM 3 每次仅接收一个名词短语(NP)作为 Prompt ,预测实例 Mask 、边界框或语义 Mask 。作为 Baseline ,作者在边界框检测任务上评估 OWLv2、GroundingDino(gDino)和 LLMDet,并将它们的检测框作为 Prompt 输入 SAM 1 以评估分割性能。作者还与 APE、DINO-X 和 Gemini 2.5 Flash(一种通用型大语言模型,LLM)进行比较。
Image
表1显示,零样本设置下,SAM 3 在封闭词汇的 COCO、COCO-O 以及 LVIS 边界框检测任务上达到了新的最先进水平,且在 LVIS Mask 任务上表现显著更优。在开集的 SA-Co/Gold 基准上,SAM 3 的 cgF
分数超过最强 Baseline OWLv2
的两倍,并达到估计人类性能的 74%。在其他 SA-Co 分割任务上,性能提升更为显著。在 ADE-847、PascalConcept-59 和 Cityscapes 上的开集语义分割结果表明,SAM 3 超过了 APE(一个强大的专用 Baseline )。详见§F.1。
Image
少样本适应 。作者在 ODinW13 和 RF100-VL 上评估了 SAM 3 的零样本和少样本迁移能力,使用其原始标签作为 Prompt (prompt)。作者未进行任何 Prompt 调优(prompt tuning)。在不使用 Mask 损失(mask loss)的情况下对 SAM 3 进行微调,并在表2 中报告平均边界框 mAP(bbox mAP)。SAM 3 在 10-shot 设置下达到了当前最优性能,优于 Gemini 的上下文 Prompt (in-context prompting)以及目标检测专家模型(gDino);更多细节见 §F.3。RF-100-VL 包含一些 SAM 3 当前能力范围之外的特定领域 Prompt ,但 SAM 3 仍能通过微调更高效地适应这些领域,优于 Baseline 方法。
使用1个样本的PCS。作者首先使用从真实标注中随机采样的单个输入框来评估图像样本。这种方法仅适用于“正样本”数据,即每个被 Prompt 的目标均出现在图像中。作者在表3中报告了三种设置下的对应
:文本 Prompt (T)、图像样本(I)以及文本和图像联合(T+I);SAM 3在COCO(+18.3)、LVIS(+10.3)和ODinW(+20.5)上均显著优于先前的最先进方法T-Rex2。更多细节及SA-Co/Gold上的结果见§F.2。
Image
带有 K 个样本的 PCS。接下来,作者在交互式设置下评估 SAM 3,模拟与人类标注者协作的场景。从一个文本 Prompt 开始,作者逐次添加一个样本 Prompt :漏检的真值(ground truth)作为候选正样本 Prompt ,误检的检测结果作为候选负样本 Prompt 。结果(图7)与一个理想的 PVS Baseline 进行对比,该 Baseline 通过模拟用户手动修正错误并使用理想的框到 Mask (box-to-mask)校正来实现。SAM 3 的 PCS 能够更快地提升
,因为它能从样本中进行泛化(例如,检测或抑制相似目标),而 PVS 仅能修正单个实例。在 3 次点击后,交互式 PCS 相比仅使用文本 Prompt 提升了
点,相比 PVS 优化提升了
点。在 4 次点击后性能趋于饱和,因为样本无法修复质量较差的 Mask 。此时模拟切换至 PVS 的混合策略仍能带来性能提升,表明两者具有互补性。
Image
物体计数。作者在 CountBench 和 PixMo-Count 物体计数基准上进行评估,与多种多模态大语言模型(MLLMs)进行对比,采用准确率(
)和平均绝对误差(MAE)作为评价指标,数据来自先前的技术报告及作者自身的评估。具体结果见表4,更多评估细节见§F.4。与 MLLMs 相比,SAM 3 不仅在物体计数准确率上表现优异,还能够提供大多数 MLLMs 无法实现的物体分割能力。
Image
视频文本 Prompt 分割。作者在自建的 SA-Co/VEval 基准以及现有的公开基准上评估了基于文本 Prompt 的视频分割性能。对于 SA-Co/VEval 基准,作者报告其各个子集(SA-V、YT-Temporal-1B、SmartGlasses)上的
和 pHOTA 指标(定义见 §F.5)。对于公开基准,作者采用其官方评估指标。 Baseline 方法包括 GLEE(一种开集图像与视频分割模型)、“LLMDet
SAM 3 Tracker”(用 LLMDet 替换作者的检测器)以及“SAM 3 Detector
T-by-D”(用基于检测-跟踪范式的关联模块替换作者的跟踪器)。如表5 所示,SAM 3 在各项指标上显著优于这些 Baseline 方法,尤其在包含大量名词短语的基准上表现突出。在 SA-Co/VEval 上,其 pHOTA 指标超过人类水平的 80%。更多细节见 §F.5。
PVS。作者在一系列视觉 Prompt 任务上评估了 SAM 3,包括视频目标分割(Video Object Segmentation, VOS)和交互式图像分割。
Image
表6 将 SAM 3 与近期的最先进方法在 VOS 任务上的表现进行了对比。SAM 3 在大多数基准测试中相较于 SAM 2 实现了显著提升,尤其是在具有挑战性的 MOSEv2 数据集上,SAM 3 的表现优于先前工作 6.5 个点。对于交互式图像分割任务,作者在 Ravi 等人(2024)提出的 37 个数据集基准上评估了 SAM 3。
Image
如表7 所示,SAM 3 在平均 mIoU 上优于 SAM 2。
Image
详见 §F.6 和图21 中的交互式视频分割结果。
Image
SAM 3 Agent。作者实验了一种使用 SAM 3 作为工具来分割更复杂文本 Query 的多模态大语言模型(MLLM)(见图25)。该 MLLM 会提出名词短语 Query 以触发 SAM 3,并分析返回的 Mask ,迭代直至 Mask 结果令人满意。
Image
表8 显示,该“SAM 3 Agent”在 ReasonSeg 和 OmniLabel 上进行零样本评估时,超越了此前未在任何指代表达分割或推理分割数据上进行训练的工作。SAM 3 Agent 在 RefCOCO+ 和 RefCOCOg 上的零样本结果也优于之前的工作。SAM 3 可与多种 MLLM 结合使用,且对所有这些 MLLM 使用相同的系统 Prompt (system prompts),体现出 SAM 3 的鲁棒性。更多细节见 §G。
消融实验。在表9中,作者报告了§A中更全面消融实验的子集。需要注意的是,这些被消融的模型来自与上述评估模型不同的、较短的训练周期。Presence head 将
提升了
(9a),同时在图像级识别任务中,IL_MCC 指标提升了
。表9b显示,引入硬负样本显著提升了模型性能,尤其体现在图像级 IL_MCC 上,从 0.44 提升至 0.68。表9c表明,合成(SYN)训练数据相比外部(EXT)数据提升了
,而作者高质量(HQ)的标注在此基础上进一步带来了
的增益。作者在§A.2中详细展示了两类数据的数据缩放规律,表明其在域内和域外测试集上的有效性。在表9d中,作者展示了AI验证器如何提升伪标签质量。将SAM 3中的presence score 替换为由完备性验证(EV)AI验证器提供的得分,使
提升了
;再使用 Mask 验证(MV)AI验证器剔除劣质 Mask ,性能进一步提升1.1分。总体而言,AI验证器弥补了SAM 3与人工标注性能之间约一半的差距。
Image
领域自适应消融实验。通过使用SAM 3 + AI验证器生成的领域特定合成数据,作者表明,即使没有任何人工标注,也能显著提升在新领域上的性能。作者在训练SAM 3和AI验证器时,将SA-Co中的一个领域“Food&drink”排除在外。随后,作者针对这一新“Food&drink”领域采用三种不同类型的训练数据:如SA-Co/HQ中所示的高质量AI+人工标注(记为SA-Co/HQ-Food),如SA-Co/SYN中所示的纯合成标注(使用AI但无人工参与,记为SA-Co/SYN-Food),以及在AI验证步骤之前生成的伪标签(即跳过AI验证器和人工标注,记为PL-Food)。图8展示了随着每种类型训练数据规模的扩大,在SA-Co/Gold基准测试集“Food&drink”上的性能变化。作者将领域特定数据与高质量通用领域数据按1:1比例混合。与 Baseline SAM 3(零样本)相比,PL-Food带来了一定程度的性能提升,但由于其标注质量较低,性能仍远低于其他变体。HQ-Food和SYN-Food表现出相似的扩展行为,其中SYN-Food初始略低,但最终能够追平,且无需任何人工标注成本。这表明了一种可扩展的提升新数据分布性能的方法。更多细节见§A.3。
7 相关工作
可 Prompt 且交互式的视觉分割。SAM(Kirillov 等,2023)引入了“可 Prompt ”的图像分割,并支持交互式优化。尽管原始任务定义中包含了文本 Prompt ,但其功能尚未完全实现。SAM 2(Ravi 等,2024)将可 Prompt 的视觉分割任务扩展至视频领域,允许在任意帧上添加优化点。SAM 3 继承了基于几何的分割能力,同时扩展支持文本 Prompt 和图像样例(image exemplar) Prompt ,以实现对图像和视频中某一概念的所有实例进行分割。
开集检测与分割(Open-Vocabulary Detection and Segmentation)在图像中对开集目标类别中的每一个实例进行详尽标注,提供粗略的边界框(检测)或精细的像素 Mask (分割)。近期的开集(Open-Vocabulary, OV)检测方法(Gu et al., 2021; Minderer et al., 2022)和分割方法(Ding et al., 2022; Liang et al., 2023)利用大规模视觉-语言编码器(如 CLIP,Radford et al., 2021),能够处理由任意文本描述的目标类别,即使这些类别在训练阶段从未出现过。尽管 DETR(Carion et al., 2020)仅限于训练期间见过的封闭类别集合,MDETR(Kamath et al., 2021)则进一步发展了该方法,使其能够基于原始文本 Query 进行条件化。将图像样本作为 Prompt (prompt)以指定目标目标类别(例如 DINOv(Li et al., 2023a)、T-Rex2(Jiang et al., 2024))为文本提供了一种实用替代方案,但在传达目标抽象概念方面,其效果仍不及文本 Prompt 。作者提出了一项新的开集分割基准,其包含的唯一概念数量比以往工作多出超过 100 倍。
视觉定位(Visual Grounding)旨在通过一个边界框或 Mask 来定位图像中与语言表达相对应的区域。(Plummer et al., 2020) 将短语检测定义为同时判断短语是否与图像相关并进行定位的任务。GLIP (Li et al., 2022b) 和 GroundingDino (Liu et al., 2023) 将目标检测建模为短语定位问题,在训练过程中统一了这两项任务。MQ-GLIP (Xu et al., 2023) 在文本 Query 中引入了图像实例作为 Query 条件。在此多任务、多模态模型发展趋势的基础上,GLEE (Wu et al., 2024a) 支持文本短语、指代表达以及视觉 Prompt ,实现图像和视频中类别级与实例级的定位。与 SAM 3 不同,GLEE 不支持实例示例(exemplars)或交互式优化。LISA (Lai et al., 2024) 支持需要推理的分割任务,而 OMG-LLaVa (Zhang et al., 2024a) 和 GLaMM (Rasheed et al., 2024) 则生成与对应分割 Mask 交错的自然语言响应,其中 GLaMM 可接受文本输入以及可选的图像 Prompt 作为输入。一些通用型多模态大语言模型(MLLMs)能够输出边界框和 Mask (Gemini 2.5 (Comanici et al., 2025))或点(Molmo (Deitke et al., 2025))。SAM 3 可与 MLLM 结合使用,作为“视觉工具”(§6)。
多目标跟踪与分割(Multi-Object Tracking and Segmentation, MOTS)方法旨在视频中识别物体实例并对其进行跟踪,为每个实例分配唯一的ID。在基于检测的跟踪方法中,检测过程在每一帧上独立进行,生成边界框和置信度分数,随后通过基于运动和外观的匹配策略关联边界框,例如SORT(Bewley et al., 2016; Wojke et al., 2017)、Tracktor(Bergmann et al., 2019)、ByteTrack(Zhang et al., 2022c)、SAM2MOT(Jiang et al., 2025)或OC-SORT(Cao et al., 2023)。另一种方法是端到端可训练的架构,能够联合完成检测与关联任务,例如TrackFormer(Meinhardt et al., 2022)、TransTrack(Sun et al., 2020)或MOTR(Zeng et al., 2022)。TrackFormer采用类似DETR的编码器-解码器结构,通过静态的物体 Query 初始化新轨迹,并利用保持身份一致性的轨迹 Query 进行自回归式跟踪。联合模型面临的一个挑战是检测与跟踪之间的冲突(Feichtenhofer et al., 2017; Yu et al., 2023a),即一个任务需关注语义信息,而另一个任务则需区分不同身份,即使它们在时空上存在重叠。SAM 3 是一种强大的图像检测器,与跟踪器深度集成,用于在视频中分割各类概念。
8 结论
作者提出了概念感知的分割一切(Segment Anything with Concepts),实现了在交互式分割中使用开集的文本和图像示例作为 Prompt 。作者的主要贡献包括:(i) 提出了PCS(Conceptual Prompting Segmentation)任务与SA-Co基准,(ii) 设计了一种解耦识别、定位与跟踪的架构,将SAM 2扩展为能够解决概念分割任务,同时保留原有的视觉分割能力,(iii) 构建了一个高质量且高效的训练数据引擎,充分利用了人类标注者与AI标注者的互补优势。SAM 3在SA-Co基准上实现了当前最优性能,在图像和视频中的PCS任务上性能较先前系统提升了一倍。然而,SAM-3仍存在若干局限性。例如,其对域外术语的泛化能力较弱,可通过自动域扩展缓解,但需要额外训练。作者在§B中讨论了这些及其他局限性。作者认为,SAM 3与SA-Co基准将成为计算机视觉领域的重要里程碑,为未来的研究与应用铺平道路。
附录
A 消融实验
A.1 模型消融实验
存在性 Token (Presence Token)。作者首先分析存在性 Token 及其训练方法的影响。存在性 Token 被包含在解码器中(详见§C.2),与目标 Query (object queries)一同使用,并用于预测某个概念的存在性得分。在联合训练过程中,该存在性得分仅在PCS任务上接收梯度,并始终通过二元交叉熵损失(binary cross-entropy loss)对图像中概念的存在(或不存在)进行监督。使用存在性 Token 将存在性与定位解耦,显著提升了性能,尤其是在IL_MCC任务上,如表9a所示。
Image
当与存在性得分(presence score)结合使用时,作者发现当某个概念为图像级负例时,框/ Mask 目标得分(box/mask object scores)不应接收梯度,详见表10中的设置(a)。需要注意的是,这与典型的DETR变体方法相反,在后者中,所有个体目标得分都会受到负向监督,以反映该概念在图像中不存在,详见表10中的设置(b)。作者发现,当与存在性得分结合使用时,设置(b)的表现劣于设置(a)。当某个概念存在于图像中时,个体目标 Query 始终会基于匈牙利匹配(Hungarian matching)获得分类监督。设置(a)与作者提出的识别-定位解耦设计一致:存在性得分负责识别(即判断概念是否存在于图像中),而目标得分则负责定位(即在所有候选框中将与正样本 GT 的最佳匹配排在最高位置)。
在推理阶段,作者使用全局存在性得分(global presence score)与物体得分(object score)的乘积作为总物体得分(total object score)。在设置(c)中,作者探索了直接对总物体得分进行监督(而非通常的物体得分),将其 Token 为正或负(根据匹配结果确定);该设置可略微提升整体的 cgF
,但灵活性较差,因为存在性得分与物体得分是联合校准的,例如,此类模型难以对图像中已知存在的概念进行条件控制。最后,表10中的设置(d)研究了在监督总得分的同时,将存在性得分从计算图中解耦,但该方法并未优于设置(c)。
将存在性(presence)纳入训练可被视为一种后训练(post-training)形式,发生在作者训练流程的第3阶段(参见§C.4.1)。默认情况下,消融实验不会经历此阶段,除非另有说明。
Image
视觉与文本编码器。尽管 SAM 2 使用经过 MAE预训练的 Hiera视觉编码器,以实现其在更偏向几何结构的 PVS 任务中出色的定位能力与高效性,但 SAM 3 还需要具备强大的语义与语言理解能力,并覆盖广泛的语义概念。为此,作者对 SAM 3 的视觉与文本编码器采用了 PE架构,使得在训练的第一阶段即可接触到大量且多样化的概念,同时生成对齐的图像与文本编码器。在表11 中,作者对比了性能表现。
Hiera 和 DINOv2;由于这些视觉编码器缺乏对齐的文本编码器,作者采用 DistilRoBERTa-base。作者发现 PE 是视觉主干网络的最佳整体选择,使用其自身对齐的文本编码器相较于使用非对齐文本 Baseline 的 PE 能带来进一步的性能提升。采用 PE 能够使 SAM 3 在鲁棒性方面表现强劲(此处通过 COCO-O 上的 AP 衡量,表明在各类域偏移(如“草图”、“卡通”、“绘画”等)下均具备良好的目标检测能力)。
实现细节。图像分辨率为 PE、DINOv2 和 Hiera 分别设置为 1008 px × 1008 px、1008 px × 1008 px 和 1152 px × 1152 px,以确保由于其 patch 大小的差异,检测器中具有相同数量的 tokens。所有视觉编码器仅在部分层中使用全局 attention,其余层采用窗口化(
tokens)attention。由于 Hiera 是一种分层多尺度编码器,作者在编码器的第 3 阶段设置窗口大小为
,该阶段包含大部分 FLOPs。由于 PE 能够通过 RoPE利用相对位置信息,作者遵循 Bolya et al. (2024) 的方法,在 Hiera 和 DINOv2 的全局层中引入相对位置嵌入。所有模型均使用 SA-Co/HQ 进行训练,训练过程中共观测 500 万个样本。针对每种编码器的选择,训练配方(Recipe)均单独优化。来自相应视觉编码器的 tokens 在输入融合编码器和检测器前,通过
下采样至 1296 个 tokens。
A.2 图像训练数据消融实验
设置。在本节的消融实验中,作者采用了一个简化且轻量级的模型与训练策略。具体而言,作者使用:
-
- SAM 3 的 stride-28 变体(而非 stride-14),在检测器中token数量减少为原来的 4 倍;
-
- 仅使用整个 SA-Co/SYN 数据集的 45%,并采用该子集;
-
- 采用较短的训练周期,且不执行“存在性后训练”(见 §A);
-
- 评估在内部版本的 SA-Co/Gold 上进行,该版本的人工标注性能略低于公开版本(
:内部版本 70.8 vs 公开版本 72.8)。
该设置使得消融实验能够更高效地运行(但相较于 SAM 3,绝对准确率有所降低)。作者在大规模训练时也观察到了相似的趋势。
SAM 3 训练数据 。表9c 分析了不同 SA-Co 训练数据子集的影响。即使仅使用 SA-Co/EXT 进行训练,其在 SA-Co/Gold 上的表现也与最佳外部模型相当(参见表1 中 OWLv2 和 DINO-X 的性能表现),表明该模型具备强大的基础能力。在训练组合中加入合成数据 SA-Co/SYN 后,性能显著提升。在引入高质量数据 SA-Co/HQ 后,性能进一步提高,这得益于其与 SA-Co/Gold 在质量和分布上的相似性。尽管 SA-Co/HQ 与 SA-Co/Gold 同属领域内且规模庞大,但在 SA-Co/HQ 的基础上再加入 SA-Co/SYN 仍能进一步提升在 SA-Co/Gold 上的性能。
Image
SA-Co/HQ 扩展规律。表12研究了SA-Co/HQ训练数据的扩展行为。在该消融实验中,数据混合比例从整个SA-Co/HQ(由§4中三个阶段收集)中以固定百分比随机采样。作者还报告了在SA-Co/Gold两个特定子集上的扩展行为:由MetaCLIP提供的子集,该子集使用通用描述派生的名词短语(NPs)进行标注;以及使用SA-Co本体节点派生的细粒度NPs标注的Wiki-Food&Drink子集。如预期所示,SA-Co/HQ在两个子集上均提升了性能,因为它们来自相同的数据分布(域内)。作者还在最后一行报告了教师(人类)的性能。由于设置简化,SAM 3与人类之间的差距大于最佳SAM 3模型的表现差距。
Image
Image
SA-Co/SYN 缩放定律。表13显示,SAM 3 在 SA-Co/Gold 基准上对 SA-Co/SYN 数据具有良好的缩放性能,因为它能够从 Llama4 生成的图像描述(image captions)以及与图像关联的 alt-text 中捕获大规模概念,无论是在域内 MetaCLIP 子集还是域外 WikiFood&Drink 子集上均表现出色。最后一行显示,教师模型(一个较旧版本的 SAM 3 与 AI 验证器)的性能远优于学生模型,这也解释了 SA-Co/SYN 数据为何具有价值。将表13中的 SA-Co/SYN 与表12中的 SA-Co/HQ 进行比较可知,MetaCLIP 域内性能差距较小(42.5 vs. 49.0),这是由于 SA-Co/SYN 的标注质量相对较低,缺乏人工校正步骤所致。而在域外 Wiki-Food&Drink 集上,差距更大(37.4 vs. 59.9),因为 SA-Co/SYN 仅覆盖了来自 captioning 模型的 MetaCLIP 图像及名词短语;详见表26。作者还在图9中展示了,通过引入额外的域内合成数据,可以在无需任何人工参与的情况下,弥合 SA-Co/Gold-Wiki-Food&Drink 子集上的性能差距。
硬负样本(Hard Negatives)。作者在表9b中消融了每张图像在SA-Co/HQ中硬负名词短语的数量。结果表明,增加负样本数量能够提升SAM 3在所有指标上的性能,尤其是在IL_MCC指标上表现最为显著。硬负样本是指图像中并不存在,但(前一代)SAM 3却预测出 Mask 的名词短语,即它们对(前一代)SAM 3具有对抗性。在这些困难的干扰项上进行训练,有助于提升由IL_MCC指标所衡量的图像级分类性能。
Image
Image
SAM 3 与 AI 验证器。如表9d 所示,AI 验证器在 PCS 任务上显著提升了 SAM 3 模型的性能,各领域结果见表14。作者首先用 Exhaustivity Verification (EV) AI 验证器提供的存在性分数(输入为图像和名词短语,无物体时的非完备性概率,定义见表22)替代 SAM 3 中的存在性分数。这一改进使 cgF
提升了
个百分点,来自 IL MCC 和 pmF
的双重提升。EV 存在性分数之所以能提升 pmF
,是因为它对目标分数具有更优的校准作用。随后,作者对每个 Mask 应用 Mask Verification (MV) AI 验证器,并移除被拒绝的 Mask ,这进一步带来了 cgF
的
点提升。该系统几乎缩小了 SAM 3 与人类表现之间差距的一半,表明通过扩大 SA-Co/SYN 数据规模及增大 SAM 3 模型容量,仍有显著的性能提升潜力。
A.3 自动域适应
通过使用SAM 3 + AI验证器生成的领域特定合成数据,作者表明,即使没有任何人工标注,也能显著提升在新领域上的性能。作者选择以MetaCLIP图像为基准的“食品与饮料”概念作为新领域。作者在该“食品与饮料”领域生成了三种不同版本的合成训练数据,同时确保训练AI标注器(包括SAM 3和AI验证器)时未使用任何来自新领域的数据:
• PL-Food:作者选取“Food&drink”类别下的Wiki节点,并从MetaCLIP中挖掘图像(更多关于数据挖掘的细节,请参见§D.4中的概念选择、离线概念索引和在线挖掘步骤)。为了对细粒度的“Food&drink”概念进行伪标注,作者利用Wiki本体识别SAM 3表现良好的相关粗粒度概念,并以此为 Prompt (prompt)引导SAM 3生成 Mask 。该数据与先前检测自训练(detection self-training)工作中常用的伪标签数据类似(例如 Minderer et al. (2022))。
• SA-Co/SYN-Food:PL-Food数据通过AI验证器进行清洗:使用MV AI验证器去除质量差的 Mask ,使用EV AI验证器验证(图像,名词短语)对的完备性与否定性,如图5中的AI验证步骤所示。
• SA-Co/HQ-Food:PL-Food数据通过人工验证者进行清洗,涵盖MV和EV任务。对于EV步骤后仍存在不完整标注的数据点,人工标注者进一步手动修正,如图5中的“Correct”步骤所示。
作者通过在SA-Co/Gold基准的Wiki-Food&Drink子集上评估这三种变体的性能,研究它们的数据缩放规律。
作者采用两阶段训练策略,以隔离新领域数据对模型性能的影响,同时分摊训练成本。首先,作者使用“SA-Co/HQ 减去 SA-Co/HQ-Food”数据集对基础模型进行预训练,以建立基础能力并确保统一的起始点。随后,在两种设置下,使用三种数据变体对同一基础模型进行微调:一种是混合预训练数据,另一种则不混合。
图9a展示了在新领域合成数据与预训练数据以1:1比例混合时的缩放定律。与 Baseline 相比,PL-Food表现出一定的性能提升,但由于其数据质量较低,其他变体之间存在较大差距。SA-Co/HQ-Food与SA-Co/SYN-Food具有相似的数据缩放行为,其中SA-Co/SYN-Food初始表现略低,但最终实现追赶,且无需任何人工标注成本。得益于微调过程中混合的高质量预训练数据,基于SA-Co/SYN-Food训练的模型最终超越了其教师系统(teacher system)的性能。
图9b展示了在仅使用合成数据对新领域进行微调时的缩放定律。所有三种数据变体的表现均劣于图9a中的结果。在此设置下,SA-Co/HQ-Food与SA-Co/SYN-Food之间的差距更大,反映出SA-Co/SYN-Food的质量较低(主要是由于缺乏人工校正导致的不完整性)。对比图9a与图9b可知,在对SAM 3进行新领域微调时,包含高质量通用领域数据是有益的,尤其是在使用合成数据的情况下。
A.4 图像数据引擎标注速度
• 人类(NP 输入)。一名人类标注员会收到一个来自 SA-Co/HQ-Food 的单一图像-名词短语对,需手动标注所有实例 Mask 。整个流程中不使用 Mask Proposal 或AI验证器。
• 人类标注( Mask 输入)。与“NP输入”设置相同的标注任务,但在此设置中,人类标注者从PL-Food开始,即使用SAM 3生成的 Mask Proposal 的图像名词短语对。
• 引擎(全部由人类完成):与SAM 3数据引擎中的Phase 1类似,人类从PL-Food开始,依次执行3个任务: Mask 验证(Mask Verification)、完备性验证(Exhaustivity Verification)和修正(Correction)。这三个任务均由人类完成。
• Engine(完整版):类似于 SAM 3 数据引擎中的 Phase 3, Mask 验证(Mask Verification)和完整性验证(Exhaustivity Verification)由 AI 验证器完成,修正(Correction)由人工执行。即在人工标注任务中,人工标注员从 SA-Co/SYN-Food 开始。
在表23中,作者展示了AI验证器在MV和EV任务上的表现与人类验证器相当,甚至更优,因此这四种设置下的标注质量相似。
A.5 视频数据引擎标注速度
在与A.4节中描述相同的设置下,作者通过对比SA-Co/VEval - SA-V数据集中正样本视频-NP对的人工标注(NP Input)与引擎标注(All Human)的效率,评估了视频数据引擎中的标注速度。与图像数据引擎不同,作者观察到,从PL(Pseudo-Label)开始会增加标注时间,但同时也通过为标注者提供更多的视觉线索和候选masklet,提升了标注的全面性(exhaustivity)。
A.6 视频训练数据消融实验
Image
作者分析了SAM 3模型从通过视频数据引擎(video data engine)获取的SA-Co/VIDEO中的视频和标注中获得的收益,这些数据用于第4阶段(视频级)训练(详见§C.4.1)。具体而言,作者使用来自SA-Co/VIDEO的、数量可变的masklets作为VOS(视频目标分割)训练数据来训练模型,并在SA-Co/VEval上以
指标评估所得预训练权重在VOS任务上的性能。结果如表17所示:通过视频数据引擎以名词短语形式收集的masklets(作为第4阶段训练的额外数据)显著提升了在SA-Co/VEval以及公开基准数据集DAVIS17(Pont-Tuset et al., 2017a)和SA-V(Ravi et al., 2024)上的
性能。
B 限制
SAM 3 在图像和视频的 PCS 任务中表现出色,但在许多场景下仍存在局限性。
SAM 3 在零样本(zero-shot)情况下难以泛化到细粒度的域外概念(例如飞机类型、医学术语),尤其是在小众视觉领域(例如热成像)中表现不佳。对于PCS任务,概念泛化本质上比PVS任务中对新视觉域的类别无关泛化更具挑战性,而后者正是SAM和SAM 2能够成功实现零样本跨多样化场景应用的关键所在。作者的实验表明,当在少量人工标注数据上进行微调时,SAM 3 能够快速适应新概念和新视觉域(表2)。此外,作者还展示了仅通过使用作者的数据引擎生成的领域特定合成数据,即可在无需任何人工参与的情况下提升新领域中的性能(图9)。
根据作者对PCS任务的定义,SAM 3 仅支持简单的名词短语 Prompt ,无法处理超过一到两个属性的多属性 Query ,也无法处理包含指代表达式的较长短语。作者表明,当与多模态大语言模型(MLLM)结合时,SAM 3 能够处理更复杂的短语(§6 和 §G)。
在视频领域,SAM 3 通过 SAM 2 风格的 masklet 对每个物体进行追踪,这意味着 SAM 3 推理的开销与被追踪物体的数量呈线性关系。为了在实际应用(例如网页演示)中实现视频的实时推理(30 FPS),作者采用多 GPU 并行推理:在 2 块 H200 上最多支持 10 个物体,4 块 H200 上最多支持 28 个物体,8 块 H200 上最多支持 64 个物体。此外,在当前架构下,不同物体之间缺乏共享的物体级上下文信息,难以在多物体追踪场景中解决歧义问题。未来的改进可通过在多个物体之间建立共享的全局内存来实现,这也将提升推理效率。
为了支持PCS(概念级交互)的同时实现PVS(实例级交互),带来了若干挑战。为了在不影响该概念下所有其他实例的情况下支持实例级修改,作者在模型内部强制执行从概念模式到实例模式的硬性“模式切换”(mode-switch)。未来的工作可以探索更自然地交错使用概念 Prompt 和实例 Prompt 的方法。
C 模型细节
C.1 模型架构
Image
作者的架构主要基于SAM系列和DETR,采用(双)编码器-解码器Transformer架构,详见图10。SAM 3是SAM 2的泛化版本,支持新的可 Prompt 概念分割(Promptable Concept Segmentation, PCS)任务以及可 Prompt 视觉分割(Promptable Visual Segmentation, PVS)任务。该设计支持多模态 Prompt (例如文本、边界框、点)和交互性,适用于图像和视频。
SAM 3 拥有约 8.5 亿(
)参数,其分布如下:视觉编码器(vision encoder)和文本编码器(text encoder)分别约为 4.5 亿(
)和 3 亿(
)(Bolya et al., 2025),检测器(detector)和追踪器(tracker)组件约为 1 亿(
)。接下来,作者首先讨论图像检测器的架构,然后介绍在其基础上构建的视频追踪组件。
C.2 图像实现细节
图像检测器采用编码器-解码器结构的Transformer架构。本节将详细介绍其具体结构。
图像与文本编码器。图像和文本编码器均为 Transformer,采用对比视觉语言训练(contrastive vision language training)方式,基于 54 亿个图像-文本对进行训练,训练方法参考 Perception Encoder(PE),具体训练细节见
§
C.4.1。与 SAM 2 一致,视觉编码器采用窗口化注意力(windowed attention),仅在少数层(32 层中的 4 层)中使用全局注意力,其中 1008 像素的图像被划分为 3 × 3 个互不重叠的窗口,每个窗口大小为 336 像素。视觉编码器在每一层均使用 RoPE,并采用如 Bolya et al.(2024)所述的窗口化绝对位置嵌入。文本编码器为因果模型(causal),最大上下文长度为 32。
与 Ravi 等人(2024)一致,作者采用 Stream 处理方法,实时摄入新帧数据。对于整个交互过程(可能跨越视频中的多个前向/反向传播步骤),作者每帧仅运行一次 PE Backbone。该 Backbone 为由下文所述融合编码器(fusion encoder)和视频记忆注意力(memory attention)组成的双编码器提供无条件的 token(特征/嵌入表示),用于表示每一帧。
几何与样本编码器(Geometry and Exemplar Encoder)。该编码器主要用于对图像样本(若存在)进行编码,以支持PCS任务。此外,它还用于对图像中的视觉 Prompt (visual prompts)进行编码,作为PVS任务的辅助功能。这一功能主要用于在训练的第2、3阶段(见§C.4.1)引入预训练数据,从而实现更模块化的训练流程。
每个独立的图像样本(image exemplar)通过位置嵌入(positional embedding)、标签嵌入(label embedding,正样本或负样本)以及ROI池化后的视觉特征进行编码,这些特征被拼接在一起(构成“样本 Token ”,exemplar tokens),并由一个小型Transformer处理。用于辅助训练的视觉 Prompt (如点、框)也以类似方式编码,构成“几何 Token ”(geometry tokens)。在某些情况下,可能既不存在“几何 Token ”,也不存在“样本 Token ”(例如,仅使用文本 Prompt 时)。几何 Token 与样本 Token 通过自注意力机制相互关注,同时也会跨注意力到对应帧(未加条件的帧)的图像编码器帧嵌入(frame-embeddings)上。
融合编码器(Fusion Encoder)。文本与几何/样本(exemplar) Token 共同构成 Prompt Token (prompt tokens)。融合编码器接收无条件的帧嵌入(frame-embeddings),并通过堆叠6层带有自注意力(self-attention)和跨注意力(cross-attention,作用于 Prompt Token )的Transformer块,再接一个MLP来对 Prompt Token 进行条件化。作者采用原始的自注意力操作。融合编码器的输出为条件化的帧嵌入(conditioned frame-embeddings)。
解码器。解码器架构以 Carion 等人 (2020) 以及 Kamath 等人 (2021) 的工作为起点,由 6 层 Transformer 块堆叠而成。
个学习得到的目标 Query (与 Prompt 不同)相互进行自注意力(self-attention),并交叉注意力(cross-attention)于 Prompt token(由文本和几何/样本 token 构成)以及条件帧嵌入(conditioned frame-embeddings),随后接一个 MLP。在交叉注意力层中,当注意力作用于条件帧嵌入时,作者引入了框到像素的相对位置偏置(box-to-pixel relative position bias)(Lin et al., 2023)。
遵循更强版本DETR的常规做法,作者采用迭代框精炼、两次前瞻和混合匹配以及分治(Divide-And-Conquer, DAC)DETR。默认情况下,作者使用
个目标 Query (object queries)。边界框和得分通过专用的MLP进行预测,并以目标 Query 作为输入。
Presence Head. 由于信息不足,单独对每个物体进行分类往往具有挑战性,通常需要来自图像其余部分的上下文信息。然而,强制每个物体 Query (query)获取这种全局感知会带来负面影响,并可能与本质上非常局部的定位目标产生冲突。为解决这一问题,作者提出将分类任务分解为两个互补的组成部分:一是全局 Level 的分类,用于判断物体是否存在于整个图像中;二是局部 Level 的定位,其作用类似于前景-背景分割,同时防止重复检测。形式上,作者引入如下结构:不再直接预测
,而是将其分解为
为了计算
(即图像中是否存在名词短语 NP),作者引入了一个存在性 Token (presence token),该 Token 被添加到解码器中,随后输入到一个 MLP 分类头中进行处理。关键的是,该存在性得分对所有物体 Query (object queries)是共享的。每个 Query 的分类损失仍按常规方式计算,但为了考虑这种分解结构,作者仅在图像中存在 NP 时才计算该损失(关于监督策略的消融实验见 §A.1)。同样的分解方式也应用于语义分割头,其中复用相同的 presence score,并且仅在正样本上训练二值 Mask 头(binary mask head)。
除了对误报具有更强的鲁棒性外,以这种方式分解预测也更具灵活性。例如,在典型的计数任务中,作者已经知道图像中存在非前景(NP)目标,而仅需确定其中实例的数量。此时,作者可以简单地将
(NP存在于帧中)设为 1。存在性 Token (presence token)会与所有操作中的目标 Query (object queries)进行拼接,但不参与动态注意力校准(DAC)。
作者还学习了 4 个几何 Query (geometric queries)。它们的功能与 SAM 1 和 SAM 2 中的 4 个几何 Query 类似(在 SAM 中被称为“输出 Token ”(output tokens)),用于在训练的阶段 2 和阶段 3 对单个图像或视频帧执行 PVS(Pixel-Value Segmentation)任务,详见 §C.4.1。 Prompt (prompts)由“几何 Token ”(geometry tokens)以视觉 Prompt 的形式提供。在对单帧执行 PVS 任务时,置信度分数(presence score)设为 1,因为目标在该帧中已知存在。
分割头(Segmentation Head)。分割头基于MaskFormer进行改进。语义分割与实例分割共享相同的分割头。利用融合编码器输出的条件特征生成语义分割 Mask ,而实例分割还额外使用解码器输出的物体 Query (object queries)。由于视觉编码器为单尺度的ViT,因此通过SimpleFPN向分割头提供多尺度(multi-scale)特征。
处理歧义。实验表明,如果作者以§2中描述的方式不处理歧义地训练一个SAM 3模型,会观察到该模型倾向于预测该短语的多个有效但相互冲突的解释。这是可以预期的:如果在作者的训练数据集中,某个短语具有两种不同的解释,且大约一半的数据标注采用第一种解释,另一半采用第二种解释,那么最小化训练损失的解就是以50%的置信度输出两种解释。然而,这种行为对终端用户是不理想的,因为它会产生相互冲突、有时甚至重叠的 Mask 。
为解决这一问题,作者在模型中引入了一个模糊性头(ambiguity head)。与 SAM 1 和 SAM 2 类似,该头采用专家混合(mixture of experts)结构,作者并行训练
个专家,仅对损失最低的专家(胜者通吃,winner-takes-all)进行监督。作者发现当
时性能最佳,且由于模式坍缩(mode collapse)问题,训练
个专家更加困难。
对于
个专家的混合模型,每个专家生成输出
,对应的损失为
,混合损失为加权平均形式:
在作者的胜者为王(winner-takes-all)变体中,仅有损失最低的专家会接收梯度:
Image
仅通过接收最小损失的专家进行反向传播,可以使每个专家专注于一种特定的解释方式。这种行为如图11所示。
尽管该策略允许专家进行专业化,但并未显式地选择在推理时应使用哪个专家。为解决此问题,作者训练了一个分类头,用于预测在推理时最有可能正确的专家。该分类头通过监督学习方式,采用交叉熵损失进行训练,目标是预测在训练过程中损失最小的专家。模糊性头(Ambiguity head)仅调整分类 logits,保持 Mask 、边界框和存在性分数不变。该头在冻结的 SAM 3 模型之上进行训练。
最后,为了检测重叠实例,作者计算 Mask 之间的IoU最小值(Intersection-over-Minimum, IoM)。与IoU(Intersection-over-Union, IoU)相比,IoM在识别嵌套实例方面更为有效。通过使用模糊头(ambiguity head),作者实现了重叠实例数量
的减少。
C.3 视频实现细节
跟踪器架构遵循 Ravi 等人(2024)的方法,为方便起见,作者简要描述该架构,随后讨论作者提出的新消歧策略。
Tracker。图像编码器与检测器共享 PE,并向记忆注意力模块提供无条件的 token,该模块通过一个独立的 neck 进行处理。记忆注意力模块接收这些无条件的 PE token,并堆叠自注意力(self-attention)和交叉注意力(cross-attention)层,从而将当前帧的 token 依据空间记忆以及记忆库中的对应物体指针进行条件化。记忆通过融合帧的 mask 预测结果与来自图像编码器的无条件 PE token 来编码,并存储在记忆库中。
与 Ravi 等人(2024)一致,解码器包含一个遮挡头(occlusion head),用于指示目标物体在当前帧中可见的可能性。在推理阶段,遮挡分数还可用于自适应地选择将哪些帧放入记忆库(memory bank)中。
SAM 引入了在面对图像中目标分割存在歧义时输出多个有效 Mask 的能力。例如,当用户点击自行车的轮胎时,模型可以将该点击解释为仅指轮胎,或指整个自行车,并输出多个预测结果。在视频中,这种歧义可能跨越多个视频帧。例如,在某一帧中仅可见轮胎时,对轮胎的点击可能仅指向轮胎本身;而随着后续帧中自行车的其他部分逐渐显现,该点击可能原本是针对整个自行车的。为处理这种歧义,SAM 2 在视频的每一步预测多个 Mask 。若后续 Prompt 仍无法消除歧义,模型将选择当前帧预测 IoU 最高的 Mask 进行后续视频传播,尽管其他策略也是可行的。
消歧策略。如§3所述,视频中的跟踪任务可能面临 Mask 传播中的歧义、检测器产生的错误预测,以及在密集场景中物体高度重叠时基于IoU的匹配方法的局限性。在本节中,作者将详细介绍用于解决这些挑战的时间消歧策略。首先,作者引入本节中使用的符号表示。
令
和
分别表示帧
上检测器的输出集合与追踪器预测的 Mask 集合。作者为帧
上的 masklet
定义一个帧级匹配函数
为
其中,
表示目标
在帧
上的预测输出 Mask (mask)。此外,作者在时间区间
上定义一个 Masklet 检测得分(Masklet Detection Score, MDS)为:
该得分用于衡量一个 masklet 在时间窗口内与检测结果的一致性匹配程度。目标
首次出现的帧记为
。轨迹确认延迟(Track Confirmation Delay) :为减少虚假和重复的 masklet,作者对模型输出进行轻微延迟。具体而言,帧
的输出仅在观察到帧
之后才被展示。这一延迟为验证候选 masklet 提供了时间上下文,从而在输出 Mask 前进行有效性确认。默认情况下,作者设置
,在 30 帧每秒的视频中,仅带来约半秒的延迟,同时实现了良好的准确率。在延迟期间,作者应用以下两个标准来剔除未确认或重复的 masklet,具体如下。
未确认的 Masklet 移除。若候选 masklet 在确认窗口
内满足以下两个条件,则被视为未确认:其 MDS(Minimum Detection Score)低于阈值,即
,且该 masklet 首次出现时间
。若在确认延迟时间内同时满足上述两个条件,则将该 masklet 从跟踪器的状态中移除。作者设定
,即要求 masklet 在确认延迟期内至少有一半的帧中与检测结果匹配,方可被确认。该策略有助于剔除部分误检(false positive detections),避免对其进行跟踪。
重复 Masklet 的移除。如果跟踪器在某些帧中暂时未能为某个物体预测 Mask ,但检测器在这些帧中仍持续检测到该物体,则可能导致为同一物体创建一个新的 masklet。结果,两个 masklet 可能会同时跟踪同一个物体:一个是原始(较早)的 masklet,另一个是在跟踪器丢失物体期间启动的新 masklet。为解决此问题,在确认延迟期(confirmation delay period)内,若两个 masklet 始终与同一个检测结果重叠,则移除较晚启动的那个。具体而言,若在帧
上存在一个检测结果
,使得
iou_threshold 且
iou_threshold,则认为 masklet
与
为重复项。若两个 masklet
和
在至少
帧中被判定为重复,则仅当较晚出现的那个 masklet 的首次出现时间
位于确认窗口
内时,才将其移除。经验上,作者发现使用 iou_threshold
能获得最佳效果。
Masklet 抑制。对于在确认延迟期间未被移除的已确认 masklet,作者应用额外的抑制步骤:如果某个 masklet 在其整个生命周期内任意帧
的 MDS 低于零(即
),则将其输出抑制,即将其 mask 置零。然而,作者仍保留在跟踪器状态中的该 masklet,以保留该物体在未来帧中被重新确认的可能性。该策略主要用于处理模糊检测情况,例如物体在靠近场景边界时进入视野。例如,当一个人刚进入画面时仅露出双手,检测器可能无法判断该物体是否与文本 Prompt 匹配(例如,难以区分男性与女性)。在这种情况下,若物体完全进入场景后检测器后续未能再次检测到该目标,则 masklet 抑制准则将确保这些 masklet 被抑制,除非它们能与新的检测结果持续匹配。
周期性重 Prompt (Periodic Re-Prompting)。在存在遮挡或视觉上相似的干扰物等复杂场景中,跟踪器可能会丢失目标物体。为应对此类跟踪失败,作者定期使用最新的检测结果对跟踪器进行重 Prompt 。具体而言,在每第
帧
,作者将每个检测结果
与跟踪器当前的预测结果
进行比较。若某检测
与跟踪器的预测结果具有较高的重叠度(即
),且该检测的置信度得分与 masklet 预测得分均超过 0.8 的置信度阈值,则使用该检测结果的 Mask 对目标物体进行重新初始化。作者观察到,重 Prompt 在目标物体未被遮挡且完全可见的帧上效果最佳,这促使作者选择较高的置信度阈值。在实验中,作者默认设置
。这种周期性重 Prompt 机制有助于跟踪器从临时失败中恢复,并在整个视频序列中保持精确的目标跟踪能力。
检测引导的重新 Prompt (Detection-Guided Re-Prompting)。当追踪器的预测可能发生漂移,导致其预测的 Mask 出现泄漏时,作者采用检测器的输出进行纠正。对于每一帧
,作者将每个检测结果
与追踪器当前的预测
进行比较。如果与对应追踪器预测
匹配度最高的检测
的边界框IoU(IoU)较低(即
),则使用最新的检测器输出对该目标重新条件化(recondition)追踪器。该方法确保追踪器始终与可靠的检测结果保持同步。
Image
这些策略的影响在表39中进行了消融分析,结果显示在作者的评估集上均带来了定量性能提升。
C.4 模型训练
C.4.1 训练阶段
SAM 3 在 4 个阶段中进行训练,每个阶段引入新的能力或优化现有能力。
阶段1:感知编码器(Perception Encoder, PE)预训练(Bolya et al., 2025),使用54亿张图像-文本对对图像编码器和文本编码器进行预训练。除了覆盖广泛的概念外,该阶段对于模型的鲁棒性至关重要(详见§A.1)。由于视觉编码器需支持多种任务(同时又不能过大),作者选择“L+”规模;视觉编码器和文本编码器均为Transformer,参数量分别为4.5亿和3亿。作者主要沿用Bolya et al. (2025) 的方法,但本阶段不使用知识蒸馏,也不进行视频微调。
Image
阶段2。此阶段用于检测器的预训练,同时训练(图像级)检测器以及视觉和文本编码器,使用大规模图像分割数据(包括视频帧作为图像)。该阶段同时使用伪标注数据和人工标注数据,详见表18。此阶段的主要目标是实现(图像,名词短语, Mask )三元组的广泛概念覆盖。在此阶段结束后,模型能够较好地实现跨多个领域的开集目标检测、实例分割和语义分割。
该阶段的另一个目标是为后续阶段的任务做好基础模型准备。为准备PCS任务,(图像, 名词短语) 对会以随机方式(
)转换为视觉 Query (即丢弃名词短语)或附加输入边界框(
)。
除了针对PCS任务的训练外,在此阶段,模型还针对视觉 Prompt 的PVS任务进行预训练。这是通过在SAM 1 & 2的设计基础上,添加4个针对该任务的解码器 Query (decoder queries)实现的。训练数据包括图像(例如SA-1B)和视频帧(例如SA-V),详见表18;为提高效率,交互步骤数量限制为4。作者大部分沿用Ravi等人(2024)的设置,但使用Align loss(Cai等,2024)替代了IoU预测损失,并将分类头用于该任务的目标 Query (object queries)。
作者使用 AdamW 优化器(Loshchilov & Hutter, 2019)训练约 95k 次迭代,批量大小为 896,其中包含 5k 的预热(warm-up)和退火(cooldown)步数。对视觉编码器应用层间学习率衰减(layer-wise learning rate decay)策略,衰减率为 0.9(Clark et al., 2020)。采用倒数平方根调度(reciprocal square-root schedule)(Zhai et al., 2022)和 0.1 的权重衰减。初始学习率设为 5e-4,视觉编码器和文本编码器使用 1e-4,其余组件使用
-3。对于边界框损失,采用
和 gIoU 损失,权重分别为 5 和 2。分类损失权重为 100,Focal Loss(focal loss)和 Dice 损失的权重分别为 200 和 10。编码器和解码器均使用 0.1 的 dropout 率。
阶段3:此阶段使用高质量的人工标注图像分割数据对模型进行进一步训练,扩展交互能力,并引入后训练(post-training)以提升检测性能。
具体而言,在交互性方面:(a) 在 PVS 任务中,交互步骤数量增加至 7 步;(b) 将交互性引入 PCS 任务中,根据模型误差提供正例或负例,具体如下所述。作者通过迭代采样框 Prompt (box prompts)来模拟真实用户的策略。正例框从漏检(false negative)错误中采样,并 Prompt 其对应的真值框(ground-truth box)。负例框则从高置信度的误检(false positive)预测中采样,且这些预测与真值框的重叠度较低。在每次迭代中,新的框输入会叠加在之前的所有输入之上。若同时存在有效的正例框和负例框,则随机选择其中一个;若不存在有效候选,则不提供额外 Prompt 。该过程重复进行 5 次。
本阶段中PCS和PVS的交互性显著增强,导致训练速度明显下降,但PVS在有限交互性下进行的大量预训练,以及PCS在无交互性条件下(仅使用图像样例和文本 Prompt )的预训练,已为模型打下了良好基础,从而确保了第三阶段的简短性即可满足需求。
此阶段仅保留最高质量且经过全面验证的数据(例如,SA-Co/SYN 被丢弃),并引入一个存在性 Token (presence token)及对应的存在性损失(presence loss),以更好地建模目标段的存在性及其位置,显著提升模型的精度。存在性损失采用加权二元交叉熵损失,权重为 20。所有学习率均降低为原来的 0.025 倍。作者以 512 的批量大小训练约 5k 次迭代,其余设置与阶段 2 保持一致。
阶段4:对于视频任务,跟踪器解码器在冻结的主干网络之上进行训练。由于在先前阶段已基于视频帧 Level 的VOS(视频目标分割)数据完成预训练,因此本阶段可以冻结主干网络。该阶段保留了前一阶段的强空间定位能力,同时专注于时空跟踪,而不会损害其他能力。作者采用512的批量大小,使用余弦退火学习率调度策略训练约190k次迭代,峰值学习率为
,并进行1k次迭代的线性预热。模型输出通过加权损失和进行监督: Mask 预测采用Focal Loss(focal loss)与Dice损失的线性组合,IoU预测使用平均绝对误差(MAE)损失,目标遮挡预测使用交叉熵损失,对应权重为20:1:1:1。对于多 Mask 预测,仅对分割损失最低的 Mask 施加监督。若某帧的真实标签中不包含 Mask ,则不对该帧的任何 Mask 输出进行监督;然而,作者始终对遮挡预测头进行监督,以判断 Mask 是否应当存在。如Ravi等人(2024)所述,作者进一步使用16帧和32帧的长时序视频对跟踪器进行60k次迭代的微调,同时将学习率按0.1倍进行缩放。
C.4.2 额外训练设置
数据增强。对于PCS任务,作者采用以下变换:
• 几何变换:作者采用部分裁剪和缩放以改变图像的宽高比,有助于提升小目标的检测效果。模型的输入分辨率始终为固定正方形(通常为
)。在评估阶段,图像会被缩放到该尺寸,不保留原始宽高比。在训练阶段,作者应用数据增强操作,并在结果尺寸小于
时进行填充。作者发现,将填充随机分布在图像的各个方向上非常重要,以避免对图像的某一特定区域产生偏差。如果数据集中不包含左右方向的语义信息,作者还会应用随机水平翻转。
• 语义:在使用封闭词汇表(closed vocabulary)数据集进行训练时,作者利用到Wikidata的映射关系进一步增强训练效果。作者可以通过以下三种主要方式利用本体(ontology):(i) 采样同义词,从而扩展模型的词汇量;(ii) 采样负样本(通常情况下,若数据集已完全标注,可从图中采样任意对应类别但未在图像中出现的节点作为负样本);(iii) 确保概念层次结构的闭包性(例如,若同一图像中同时存在“独木舟”(canoe)和“船”(boat)的标注,则必须确保所有“独木舟”目标也均被标注为“船”,因为独木舟是一种船)。
• 安全性:为防止模型对不安全概念进行随机预测,作者在训练时随机采样部分此类概念并将其作为负样本。这些概念主要包含各种侮辱性用语。作者还试图防止模型对主观性及非视觉形容词进行预测,尤其是当这些形容词用于描述人时。这包括褒义词(如“聪明的人”)以及贬义词(如“迟钝的人”)。
• 拼接(Mosaics):在某些数据集上,作者通过拼接(mosaics)进一步增加图像的复杂性(Bochkovskiy et al., 2020)。作者拼接的最大网格尺寸为
,并采样所有不超过该尺寸的配置,包括不规则的配置,只要组成部分仍为正方形即可。例如,在一个
的规则网格中,作者可以生成一个覆盖
区域的大图像,并将剩余的 5 个位置填充为
的图像块。在开集(open vocabulary)设置下,统一不同图像可能具有挑战性,因为无法保证所有概念都被完全标注。例如,若第一张图像标注了汽车,而第二张图像未标注(既非正例也非负例),则作者无法确定第二张图像是否包含汽车,从而可能引入标注噪声。为避免此类问题,作者仅对那些发生此类缺失标注可能性较低的数据集进行拼接(例如封闭词汇数据集,或通过特定挖掘模式构建的数据集)。在合并标注时,若可用 Wikidata 映射,则依赖其进行合并;否则,依赖纯文本 Query 以适当方式完成合并。
D 数据引擎细节
Image
SAM 3数据引擎各组件的概览如图5所示。在本节中,作者将进一步详细介绍各组件在图像(阶段1-3)和视频(阶段4)版本引擎中的具体实现方式。各阶段收集的数据集及性能提升情况详见表19。
D.1 媒体池
媒体(图像和视频)数据池包含多种视觉领域各异的数据源,涵盖从网络爬取的数据到为特定领域(如艺术、美食或驾驶)专门收集的数据集。表26列出了用于挖掘SA-Co训练数据各子集媒体数据所使用的数据集。网络爬取的图像及其替代文本(alt captions)来源于MetaCLIP,这是CommonCrawl的一个经过筛选的版本。作者进一步通过借助一个经过筛选的本体(ontology)从大规模媒体池中挖掘数据,扩大了覆盖范围。与以往工作(如OWLv2)主要依赖未经筛选的网络爬取数据不同,作者的目标挖掘策略实现了对12个媒体领域的覆盖。
D.2 SA-Co 本体
为了跟踪并提升数据中概念的覆盖率和整体分布,作者基于Wikidata构建了一个自定义的SA-Co视觉概念本体(ontology),该本体涵盖了广泛的实体,并通过其图结构数据提供了层次化信息。作者手动选择高阶Wikidata节点(如Human、Mammals),并递归包含其所有后代节点。最终得到的2240万个节点被划分为17个顶级类别(如animal、furnishing & home)和72个子类别(如birds、home appliance)。各类别及对应的Wikidata节点数量详见表20。作者进一步开发了一种映射流程,通过利用检索模型(Sentence-BERT)获取候选节点,并由AI标注器(Llama 3.2)作为评判者,选择最匹配的节点,从而将任意名词短语(NP)映射到SA-Co本体中的一个节点。该映射用于追踪数据集中节点的分布情况(见图12),同时也用于生成负向短语(详见下文)。
D.3 第一阶段:人工验证
数据挖掘。在此阶段,作者从 MetaCLIP 中随机采样图像。
提出名词短语(NPs)。作者使用 BLIP-2 描述生成器生成图像级描述,随后通过 spaCy 解析器将描述解析为名词短语(NPs)。
提出 Mask 。作者使用名词短语对现成的开集检测器 FIBER或 OWLv2进行 Prompt ,并利用生成的边界框对 SAM 2 进行 Prompt 以生成 Mask Proposal 。
验证(人工)。 Mask Proposal 的验证包含两个任务,可由人工或AI标注员完成: Mask 质量验证和 Mask 完备性验证。在第一阶段,仅由人工完成验证。每位人工验证者仅专注于一种任务类型。
• Mask 验证(Mask Verification, MV)。给定一个图像、一个名词短语以及该短语的一组候选 Mask ,任务是判断每个候选 Mask 是否应被接受或拒绝。若 Mask 与给定的名词短语匹配且质量较高(无孔洞、覆盖问题等),则接受该 Mask ;若 Mask 与短语无关或质量较低,则拒绝该 Mask 。
• 完备性验证(Exhaustivity Verification, EV)。所有通过验证任务的 Mask 都会被送入完备性检查。给定一张图像、一个名词短语以及该短语在前一 Mask 验证步骤中通过的所有已接受 Mask ,任务是判断这些已接受的 Mask (若存在)是否完全覆盖了图像中该短语的所有实例。如果存在未被 Mask 覆盖的短语实例,标注员需判断剩余实例中至少有一个是否可分离,或者剩余实例是否过于密集而无法分离。在该步骤中标注为非完备的短语将被送入修正任务;标注为完备的短语则直接进入最终标注阶段。
修正。人工标注者获得与完备性任务相同的输入:一张图像、一个名词短语,以及来自 Mask 验证任务的任何(0个或多个)已接受的 Mask 。标注者通过在基于浏览器的工具中使用点击操作,手动向未被覆盖的名词短语实例添加单独的 Mask ,调用SAM 1进行分割。如果名词短语存在不可分离的实例(即多个实例紧密相连无法区分),标注者使用特殊的组 Mask (group masks)来表示该 Mask 覆盖了多个实例。该任务的输出是一个完整的实例 Mask 和/或组 Mask 集合,覆盖图像中所有对应于该名词短语的像素。若名词短语在图像中不存在,则提交空 Mask 。若由于 Mask 复杂度过高而无法获得完整的 Mask 集合,标注者将拒绝该任务。
在每一项任务中,如果标注者认为该短语无法被识别为一组目标(例如“it”、“blue”),或者经过调研后仍不确定其是否存在(例如动物的细粒度物种),则允许标注者拒绝该图像-名词短语(image-NP)的配对。通过过滤模糊短语并允许标注者表达不确定性,可以提高最终标注结果的一致性和标注者间的共识。
D.4 第二阶段:人类 + AI 验证
数据挖掘。作者使用一个检索模型(包括感知编码器、DINOv2 和 MetaCLIPv2)来挖掘在第一阶段描述中的名词短语(NPs)中具有挑战性且不常见的概念。作者利用 SA-Co 本体论来确定候选概念列表,随后进行离线概念索引,并在线从 MetaCLIP 中进行概念挖掘。
• 概念选择。作者采用基于分类体系(taxonomy-guided)的挖掘策略,以平衡整体本体分布,扩展概念覆盖范围,并提升模型在长尾和细粒度短语上的表现。从 SA-Co 本体中选取两组概念进行针对性挖掘:Wiki-Common 是由大语言模型(LLM)判定为常见概念的节点;Wiki-FG 是“体育器材”和“食品饮料”子图中的所有节点,旨在测试模型对“kefir”(开菲尔)、“pastille”(硬糖)、“kettlebell”(壶铃)等极细粒度概念的泛化能力。
• 离线概念索引。对于每个新概念,作者从Wikimedia收集参考图像,并离线计算其K维嵌入表示。作者将所有参考图像的嵌入进行聚合,得到每个概念的单一嵌入表示。对全部N个概念重复此过程,最终得到一个N×K维的离线索引。
• 在线挖掘(Online Mining)。针对每个概念,通过基于图像和基于文本的挖掘方法检索相关图像。在基于图像的检索中,作者对每张图像计算嵌入(embedding),在离线概念索引上运行KNN,随后进行top-k采样,并在映射到特定概念前施加阈值。在基于文本的检索中,作者计算输入概念的文本嵌入与语料库中图像嵌入之间的CLIP相似度得分,在将图像映射到特定概念前施加阈值。
以下采用额外的挖掘策略以进一步优化选择结果。
• 图像类型平衡。网络数据集通常被少数几类图像(如广告或产品照片)主导。为避免特定图像类型的过度代表,作者使用多模态大语言模型(MLLM,Llama 3.2)进行零样本 Prompt (zero-shot prompting),将图像分类为不同图像类型(如广告、产品照片、室内和室外场景、信息图等),并基于类型无关的概率进行采样。
提出名词短语(NPs)。作者改进了此步骤,以生成质量更高且更具多样性的名词短语。
• 图像级描述生成与解析器。作者采用图像描述生成模型(Llama 3.2)生成图像级描述,同时使用短语解析器(Llama 3.1)根据描述提出名词短语。相较于第一阶段的 BLIP-2,Llama 3.2 描述生成模型在概念召回率方面有所提升。短语解析器针对此任务进行了微调,显著优于其零样本模型变体和 spaCy 解析器。
• 移除无法定位的短语。解析器可能生成不具体的短语,如“it”、“them”,或难以分割的短语,如“middle”。为解决此问题,作者使用另一个经过微调的AI验证器(MLLM),该验证器能够识别此类情况并将其从后续处理流程中移除。
• NP平衡。作者采用启发式方法避免收集过多频繁或简单的物体。当数据引擎已标注足够多的实例时,或当SAM 3在使用该NP Prompt 时具有较高准确率时,或根据一个固定列表(例如频繁出现的、有害的)时,作者将移除相应的NP。从第3阶段开始,作者依赖AI验证器来剔除简单案例。
• 清理名词短语(NPs)。作者将名词短语变为单数形式,去除几乎相同的重复项,并移除所有所有格形式。
• 硬负样本 Proposal 。一个硬负样本短语生成器会提出图像 Level 的负向短语,即那些在图像中不存在且对SAM 3具有对抗性的短语。在确认正向名词短语(即存在于图像中的短语)后,生成负向名词短语,并进一步验证其对抗性。
Proposal 。硬负样本的生成通过两种方式实现。第一种方法将每个正样本名词短语(NP)映射到SA-Co本体中的一个节点,然后在本体图中进行遍历,寻找对应于不同但相关概念的兄弟节点、堂兄弟节点或叔伯节点。例如,名词短语“gray Siamese cat”被映射到节点“Siamese cat”,由此可生成如“tabby cat”(兄弟)、“dog”(叔伯)或“Chihuahua”(堂兄弟)等负样本候选。第二种方法依赖于一个多模态大语言模型(MLLM,Llama 4),为每个正样本NP生成视觉上相似的负样本。
– 检查对抗性。在提出负样本(negative NPs)后,需筛选出仅对当前 SAM 3 版本具有对抗性的样本。对于每个负样本候选,获取 SAM 3 的预测结果。若预测结果为空集,则该候选被丢弃。若模型预测出一个或多个物体,将这些预测结果与对应正样本(positive NP)的原始分割 Mask 进行比较。若负样本预测结果与正样本标注之间的重叠超过某一阈值,则保留该负样本作为困难负样本(hard negative)。此最终检查是必要的,因为初始 Proposal 的负样本可能并非真正的负样本,而仅是相对于现有正样本而言的负样本(即该物体可能在图像的其他位置仍然存在)。
提出 Mask 。作者使用正向和负向短语集合作为 Prompt (prompt)输入SAM 3,以生成图像的候选实例 Mask 和语义 Mask 。对于SAM 3无法处理的细粒度概念所在领域(例如 Zanclus cornutus),作者识别出SAM 3表现良好的相关粗粒度概念(例如 frog),并以此作为 Prompt 生成 Mask 。基于IoU(IoU)度量对每个名词短语(NP)生成的 Mask 进行去重。这些带有噪声的伪标签将通过人工和AI标注器进一步清洗。
验证(人类+AI)。作者训练“AI验证器”来执行 Mask 验证(Mask Verification, MV)和完备性验证(Exhaustivity Verification, EV)任务。具体而言,作者在第一阶段数据引擎收集的人工标注数据上,对 Llama 3.2 Dubey 等人(2024)进行微调,以完成上述两项任务。
Image
• 任务定义。表21展示了 Mask 验证任务的一个示例数据点:给定一个(图像,短语, Mask )三元组,作者将 Mask 渲染在图像之上作为图像 Prompt ,提供任务指引作为文本 Prompt ,并以人工标注结果(5个选项中的1个)作为输出。对于同一图像-短语对中的每个 Mask ,其质量评估均独立进行。采用渲染技巧以更好地可视化小物体,并避免 Mask 叠加带来的颜色混淆问题。表22展示了完整性验证任务的一个示例数据点:给定一个(图像,短语, Mask )三元组,作者将 Mask 的边界框渲染在图像之上作为图像 Prompt ,提供任务指引作为文本 Prompt ,并以人工标注结果(6个选项中的1个)作为输出。
• 评估。作者从所有 SA-Co 测试集中那些经过多名人类标注者评审的工作中构建了“AI 验证器”的测试集。作者将其中一条人类标注作为人类预测结果,其余人类标注的多数投票结果作为真实标签(ground truth)。这使得作者能够比较人类与 AI 验证器的准确性。
• 训练。每个任务的训练数据不仅来自该任务本身,还来自修正(Correction)任务。例如,每一条人工添加的 Mask (mask)都是 Mask 验证(mask verification)任务中的优质数据点;修正任务中每一条被彻底完成的工作结果,都是完备性验证(exhaustivity verification)任务中的优质数据点。作者将这两个任务的所有训练数据合并在一起(超过200M张图像-文本对),用于预训练一个基础的AI验证器(AI verifier),随后仅使用来自该任务本身的高质量人工标注数据(约10M规模)对两个AI验证器进行微调,每个任务对应一个验证器。
• 结果。由于这两个任务(图像-文本对上的多选题任务)的简单性以及第一阶段训练数据的海量规模,AI验证器在这两个任务上的表现已达到甚至超越人类水平,如表23所示。作者还在PCS任务上对SAM 3系统与AI验证器进行端到端评估,结果显示该系统始终优于单一的SAM 3模型,如表9d所示。
• 对新领域的泛化能力。作者还研究了AI验证器的泛化能力。对于给定的新领域,MV AI验证器通常在无需任何领域特定数据的情况下,表现与人类验证器相当;而EV AI标注器在零样本评估中通常表现不如人类,但仅需数千个领域特定数据点即可达到人类水平的性能。
如§A.4所述,使用AI验证器是有效的,它使人工标注员能够专注于最具有挑战性的数据点,即那些 Mask 质量较差或缺失 Mask 的数据。该方法使SAM 3数据引擎的吞吐量提升超过一倍。随着SAM 3和AI验证器模型的持续改进,未来将能够仅通过SAM 3与AI验证器对更多数据进行彻底标注。这将带来更高的吞吐量,并确保人工标注员仅处理SAM 3失败的案例。
更正。如第1阶段所述,必要时作者进行手动修正。
D.5 阶段3:扩展与领域扩展
数据挖掘。作者延续第二阶段的数据挖掘方法,并将其扩展到更多新颖领域。此外,作者重点关注网络数据集中罕见且对模型具有挑战性的场景:高物体密度的密集场景以及包含极小物体的图像。为挖掘此类图像,作者依赖带有 Mask 标注的 SA-1B 数据集,计算“密集度”指标,即计算每对 Mask 之间的IoU(IoU),然后对所有 Mask 对的 IoU 进行聚合。同时,作者利用 Mask 数量和 Mask 面积的统计信息,识别出物体数量多且物体尺寸极小的图像。
提出名词短语(NPs)。作者继续采用第二阶段的方法。同时,通过从每张图像的替代文本(alt-text)中提取名词短语(NPs)(若可用),以及从 SA-Co 本体中挖掘概念,来扩展对长尾、细粒度概念的覆盖。
提出 Mask 。与阶段2保持不变。
验证(人工+AI)。作者继续使用第1阶段和第2阶段分别描述的人工验证器和AI验证器,但主要依赖AI验证器以提高数据引擎的吞吐量。
更正(人工)。如第1阶段所述,作者在需要时进行人工更正。标注行人被要求在图像中正确地遮盖给定概念的所有出现位置。
D.6 第四阶段:视频标注
在第四阶段,作者将数据引擎扩展至视频领域。作者采用与图像版本相同的高层级流程,但引入了针对视频特性的实现细节,具体如下所述。
媒体池(Media Pool)。作者从 SA-V、SA-V 内部数据集、YouTube-1B 以及 SA-FARI(野生动物摄像头)数据集中收集了约 1M 小时的视频,覆盖了多样化的领域和不同视频质量。
数据挖掘。为了高效利用人工标注资源,作者开发了激进的数据挖掘过滤器,并仅选择那些呈现最具挑战性目标跟踪场景的视频。该挖掘流程能够找到长度为5-30秒的具有挑战性的单镜头视频片段。聚焦于单镜头片段可显著减少标注时间以及因在剪辑视频中跨摄像头画面追踪目标而产生的歧义。该挖掘流程包含以下步骤:
• 场景与运动过滤。首先,作者利用 FFmpeg(FFmpeg 开发者)提供的场景边界检测和 VMAF 运动评分,从视频池中识别出非静态的单镜头摄像机片段。为进一步提高单镜头片段选择的精度,作者还使用了 PySceneDetect(PySceneDetect 开发者)库中的镜头边界检测(Shot Boundary Detection)技术;
• 内容平衡(Content Balancing)。作者使用视频特定的本体(ontology)来平衡内容分布。作者通过结合以下两部分构建分类体系:1)在图像数据引擎中频繁标注的名词短语(NPs),这些短语往往与较高的运动得分相关;2)强调人类活动、动物和交通的分类体系。随后,作者基于视频本体生成一组文本 Query (text queries),并利用 PE Bolya 等人(2025)的嵌入表示(embeddings)为每个文本 Query 检索视频候选样本。作者设计的文本 Query 旨在激发成组物体和密集场景的响应,例如,“一群狗”(group of dogs)是基于“狗”(dog)这一概念构建的文本 Query 。
• 挑战性轨迹过滤。作者使用一个多模态大语言模型(MLLM,PLM (Cho et al., 2025))作为裁判,筛选包含具有挑战性跟踪场景的视频。具体方法是对一组关于各类困难场景是否存在的问题进行视频问答(video-QA),并选择在这些问题上获得较多肯定回答的视频;
• 面向语义的精准搜索。最后,作者通过使用已知挑战性视频(由人工标注识别出的种子视频)作为 Query ,基于PE嵌入(PE embeddings)执行视频相似性搜索,以进一步提升对挑战性场景的检索效果。
提出候选名词短语(NPs)。作者获取视频中物体的候选名词短语。
• 帧级描述生成器与解析器。作者对每一视频帧应用 Phase 3 描述生成器与解析器,而非在视频 Level 进行,以最大化候选名词短语的多样性与数量。
• NP过滤。为了仅保留相关短语,作者实施了一系列过滤策略。首先,作者利用微调后的Llama 3.1模型过滤掉对应于整体场景的名词短语(noun phrase, NP),例如“room”(房间)。类似地,作者使用先前训练好的EV AI Verifier模型,该模型已具备对难以被 Mask 的名词短语进行分类的能力,以过滤掉过于模糊而无法 Mask 的名词短语。接下来,若某名词短语出现在预设的受限名词短语列表中,则将其移除。该列表包含以下三类短语:1)在之前的标注轮次中被标注为不可 Mask 的短语;2)已有大量标注数据的短语;3)对应于“背景”(background)概念的短语,因为作者关注的是具有挑战性的运动物体。此外,可选地,作者进一步过滤掉不属于某些预定义超类别(super-category)的短语,例如“animal”(动物)或“vehicle”(车辆),以更聚焦于运动物体。作者使用Llama 3.1模型来确定给定名词短语的超类别。
• NP 清理。应用与之前阶段相同的清理方法。
提出Masklets。作者使用SAM 3的最新版本,通过使用提出的名词短语作为 Prompt (prompt),生成实例级的masklets。
• Masklet生成。最初,作者在图像 Level 使用SAM 3独立处理每一帧,然后通过SAM 2进行 Mask 传播。若在未传播的帧中检测到的 Mask 未被传播的masklet所包含,则将其作为新的SAM 2 masklet传播的起点。当SAM 3在视频任务上的性能超越解耦系统后,该流程更新为仅使用SAM 3。
• Masklet 去重。在获得 masklet 后,作者基于其 IoU 进行去重。
• Masklet过滤。作者过滤掉导致masklet包含整个场景的名词短语。
• 过滤简单样本。作者关注具有挑战性的多目标场景,即相对拥挤且包含多个同类目标的视频。伪标签流水线的最后一步会过滤掉包含目标数量少于 N=3 的所有名词短语,以及包含少于 M=2 个此类名词短语的视频。
验证与修正(人工)。
• 验证。人工标注员检查视频是否已正确预处理,例如不存在场景切换、分屏或明确的内容。然后检查名词短语在整个视频中是否具有可定位性,例如不存在可能引起歧义的比较或尺寸属性,也不存在可能随时间变化的动作属性。最后,检查masklet是否具有足够的跟踪难度,但仍具备可标注性,即重点关注快速运动和高度遮挡的物体,但这些物体仍需对人工标注员可识别,且不至于过于模糊而无法正确标注。
• 修正。另一位标注员审查所提出的 masklets,移除其中错误的(提高精确率),并利用在线 SAM 2 在循环中修正那些可改进的 masklets。接着,检查是否存在遗漏的 masklets,若有必要则使用 SAM 2 进行补充(提高召回率)。该标注任务生成两类数据:完全穷尽的跟踪数据(即所有符合名词短语的目标均被标注),或部分穷尽的跟踪数据(某些 masklets 可能缺失,因为它们无法被标注,例如与背景不可分离且符合名词短语的目标)。
• 完备性验证。为确保数据质量,将进行最后一轮的完备性检查。如有任何遗漏的masklet,将根据需要进行补充。
采样帧标注。为了增加标注视频数据的多样性与数量,作者还对视频帧进行采样,并使用图像数据引擎(Phase 3)对其进行标注,这些帧的处理方式与其他图像相同。采样遵循两种独立的策略。第一种是直接在视频内进行随机帧采样,这可以保证覆盖帧的分布。第二种策略是先运行视频数据引擎的处理流程,然后利用其结果来确定包含大量目标的帧。
参考
[1]. SAM 3: Segment Anything with Concepts
