SAM2在图像与视频分割中的应用剖析:技术特性、多领域表现、跨域挑战及未来发展方向 !

大模型向量数据库云通信

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

尽管在图像和视频分割领域取得了显著的深度学习进展,现有模型仍然面临跨域适应性和泛化能力方面的挑战。图像和视频分割是计算机视觉中的基础任务,广泛应用于医疗、农业、工业检测和自动驾驶等领域。随着大规模基础模型的出现,SAM2作为SAM(Segment Anything Model)的改进版本,已被优化用于分割任务,并在复杂场景中表现出增强的性能。然而,SAM2在特定领域的适应性和局限性仍需进一步研究。

本文系统分析了SAM2在图像和视频分割中的应用,并评估了其在不同领域的表现。作者首先介绍了图像分割的基本概念,对基础模型进行了分类,并探讨了SAM和SAM2的技术特性。随后,深入探讨了SAM2在静态图像和视频分割中的应用,重点关注其在医疗影像等专业领域的表现及其跨域适应性的挑战。

作为研究的一部分,作者查阅了超过200篇相关文献,以提供对该话题的全面分析。最后,本文突出了SAM2在分割任务中的强项和弱点,指出了其所面临的技术挑战,并提出了未来的发展方向。该综述为在实际应用场景中优化和应用SAM2提供了有价值的见解和实用建议。

INTRODUCTION

图像分割和视频分割是计算机视觉中的基本任务,旨在根据语义或空间特征将图像或视频划分为有意义的区域 [1]。这些任务已在多个领域找到应用,包括医疗保健 [2]、[3]、农业 [4]、工业检测 [5]、自主驾驶 [6] 和卫星遥感 [7]、[8]。图像分割专注于从单张图像中识别和提取目标目标、边界或纹理,而视频分割则将此过程扩展到时间维度,旨在准确地分割连续的视频帧并确保时空一致性。近年来,深度学习的进步在解决这些任务方面取得了显著突破,即使是在复杂场景下也是如此。然而,大多数现有模型都是针对特定成像模态或任务进行设计的,这限制了它们在不同领域中的有效泛化能力。因此,开发更加通用和适应性的分割模型已成为推进该领域发展的一个关键方向。

大规模基础模型的涌现已经彻底改变了人工智能的研究范式,展示了显著的零样本和少样本学习能力[9]。作为图像分割领域的先驱基础模型,SAM(Segment Anything Model)[10]已经在自然图像分割任务中取得了显著成果。然而,当应用于图像和视频分割时,SAM面临着多个挑战。首先,由于SAM的预训练主要依赖于自然图像[11]、[12]、[13],它难以有效地适应其他领域,导致其准确性下降。其次,SAM大多是在二维图像上进行训练的,这限制了其处理三维医学图像和其他复杂数据类型的性能[14]。最后,SAM在视频分割任务中遇到困难,因为视频数据中存在的时间连续性和动态特征与静态图像的需求存在显著差异[15]。为了克服这些局限性,已经提出了SAM2[16]这一改进版本,它旨在更好地满足各种分割任务的具体需求,提供更稳健和准确的解决方案,适用于图像和视频分割[11]。

为了更深入地理解SAM2在图像和视频分割中的作用,并提供一个全面的视角,作者对相关的研究文献进行了系统综述[17]、[18]、[19]、[20]、[22]。虽然有些综述总结了基于SAM或SAM2的分割方法,但这些综述往往集中在特定领域或问题上,忽略了SAM2在图像和视频分割中的更广泛应用(参见表1)。本综述是首次全面评估SAM2的表现,突显了其在分割任务中的有效性,同时也考察了它在不同领域内的适应性和局限性。

picture.image

本研究重点分析了SAM2在图像和视频分割任务中的表现,涵盖了多个领域。首先,作者提供了图像分割的全面概述,包括基础模型的概念与分类,以及SAM和SAM2的技术特性,并讨论了将SAM/SAM2扩展到其他领域的努力。接着,作者总结了近期的研究进展,并评估了SAM2在两个主要领域的分割性能:视频和静态图像。在分析其在自然图像上的表现时,作者特别强调了其在医学影像这一专门领域的应用,因为在其他专门领域中的相关研究仍较为有限。最后,作者总结了SAM2在图像和视频分割中的特点,讨论了当前的技术挑战,并探讨了未来的发展方向。

本研究的主要目标是评估SAM2在图像和视频分割任务中的性能。第二章介绍了分割领域的基本概念,涵盖了图像分割的基础知识、基础模型的分类以及SAM和SAM2的详细对比,突出了它们在不同任务中的优势和差异。第三章回顾了SAM2在图像分割领域的最新研究与应用。

作者分析了最新的网络架构,总结了基于SAM和SAM2的方法,收集了自然图像和医学图像的数据集,并讨论了常用的评估指标,为性能评估奠定了理论基础。第四章转向视频分割任务,评估了SAM2在动态场景中的表现。作者对近期的视频分割网络进行了分类,整理了相关的视频数据集,并介绍了该领域中的评估指标,以全面分析SAM2的能力。

最后,第五章总结了SAM2在图像和视频分割方面的特点,指出了它面临的技术挑战,并提出了未来发展方向的见解。通过本研究,作者的目的是为SAM2在实际应用场景中的应用和进一步优化提供有价值的信息和可操作的建议。

unsetunset2 PRELIMINARIESunsetunset

在本节中,作者提供了一个简洁的问题阐述、关键主题和概念的介绍,旨在增强对作者的工作的理解。

2.1 Image Segmentation and Video Segmentation

图像分割自计算机视觉领域初期起就是一项基础问题。它可以被定义为对像素进行语义标注的任务(语义分割)、个体物体的分割任务(实例分割),或者同时处理这两种任务(全景分割)。语义分割[23],[24],[25]将每个像素分配给预定义的语义类别标签。实例分割[26],[27],[28]在此基础上进一步区分同类别中的不同实例。全景分割由[29]提出,该方法旨在同时处理语义分割和实例分割任务。

2.2.1Vision Foundation Models

将语义分割和实例分割整合起来,以提供对场景的全面理解。随着对更精确且用户友好的分割技术需求的增加,交互式分割已成为该领域的关键方法之一。交互式分割允许用户通过提供输入和反馈积极参与分割过程,例如 Token 感兴趣区域或纠正错误。这种互动参与旨在提高分割结果的准确性和效率。与传统的语义分割或实例分割方法不同,交互式分割能使用户动态地精化输出,特别是在复杂和模糊的场景中尤为有效。

视频分割是计算机视觉中的一个重要任务,旨在将视频序列中每一帧的每个像素分类或分割为不同的目标和背景[30]。它可以大致分为两大类:视频目标分割(VOS)和视频语义分割(VSS)[31]。VOS专注于在视频中隔离特定的目标,而不需要详细的目标语义标签;而VSS则是将每个像素分配到预定义的语义类别中(例如,“人”或“车”),同时确保帧之间的标签一致性。近年来,零样本和少样本学习方法在视频分割领域引起了广泛关注。零样本学习在不需要任何训练样本的情况下完成分割任务;而少样本学习则可以通过少量标注样本实现有效的模型训练。

尽管图像分割适用于静态场景且具有较低的计算复杂度,但视频分割需要处理多个帧,因此计算量较大。它特别设计用于动态场景,并需采用高级技术来应对增加的复杂性,以实现更高的性能要求。

2.2 Foundation Models

基础模型(例如[32])是指在特定任务上表现良好,并在大规模数据集上进行预训练的机器学习模型。其设计旨在增强模型的一般泛化能力和迁移能力,使其能够在各种下游任务中表现出色。如图2所示,逐步精细化模型的趋势得到了呈现。基础模型的特征可以用三个关键词来概括:大规模预训练、一般泛化能力和迁移能力。

picture.image

视觉基础模型[33]是一种先进的深度学习架构,旨在通过统一框架处理各种视觉任务。这些模型通常在大规模数据集上进行预训练,以学习丰富的视觉特征,从而提升其在多个下游任务中的性能。视觉基础模型的设计目标是实现高效的特征提取和多模态理解,使其能够在图像分类、目标检测、图像分割和图像生成等领域得到应用。

例如,CLIP[34]利用对比学习将图像和文本映射到相同特征空间,使其能够理解和生成与视觉内容相关的文本描述。此外,视觉 Transformer (Vision Transformer,ViT)[35]、[36]使用自我注意机制有效处理图像数据,并适应各种视觉任务。这些模型的出现加速了计算机视觉的快速发展,为其实际应用提供了强有力的支持。

2.2.2 General Segmentation Models

设计了一种通用分割模型,以处理图像分割中多种目标和任务,通过统一框架应对各种类型的图像分割任务。最典型的例子是 Segment Anything Model [10],它是首个可 Prompt 的一般图像分割模型。SAM 显示了基础模型的能力,通过在大规模数据集上进行预训练展现出色的一般性,并可以通过迁移学习适应不同的领域。因此,该模型在医学成像、自动驾驶和机器人视觉等领域具有广泛的应用潜力,能够提供快速且准确的分割结果,提升任务效率与准确性。借助高效的自注意力机制,SAM 迅速应对各种场景,满足现代应用对实时处理的需求。

在此基础上,SAM2 [16] 进一步提升了模型的性能和灵活性。它引入了更复杂的特征提取技术和增强的多模态学习能力,使其在处理复杂背景和多样物体时表现更加出色。通过优化训练策略,SAM2 在较少标注数据的情况下实现了高质量的分割效果,显示出更强的适应性和与其他系统集成的便捷性。此外,SAM2 支持更精细的分割和更高的分辨率,进一步提高了特定任务中的精确度和可靠性。这些改进使 SAM2 在实际应用中更加高效,能够满足不断提高的实时处理和高精度需求。

2.2.3Comparison of Specialized Models and Foundation Models

从定义角度来看,专门模型在特定主题上拥有深厚的专长,而基础模型则涵盖了更广泛的领域知识,无论是单一领域的知识还是跨多个学科的知识。以医学图像分割为例,专门的基础分割模型通常会针对特定的器官或任务进行优化,从而在相关分割任务中提供更高的准确性和可解释性。相比之下,通用分割模型则充当一个多任务和多模态平台,能够处理各种器官和疾病的多模态图像。作者的目标是利用通用分割模型实现便捷的分割功能,并达到甚至超越专门分割模型的精度水平。

2.3 Evolution of Image Segmentation

2.3.1 SAM: Segment Anything

如图3所示,Segmen Anything [10] 是首个用于 Prompt 可响应图像分割的基础模型,主要由三个主要部分组成:图像编码器、 Mask 解码器和 Prompt 编码器。

picture.image

图像编码器使用一个预训练的 Vision Transformer (ViT) [36],经过Minimal适应以处理高分辨率输入,该预训练模型来源于MAE [37]。

Prompt 编码器设计用于处理多样化的用户输入——例如点、框或文本——并通过引入位置编码[38]来引导分割过程。它将这些 Prompt 编码到与图像编码器生成的图像特征对齐的特征空间中,从而实现无缝集成并在分割过程中提供有效的指导。

Mask 解码器采用修改过的Transformer解码器块[39],随后是一个动态 Mask 预测头,通过有效结合图像嵌入和 Prompt 嵌入来生成分割 Mask 。

2.3.2 SAM2: Segment Anything in Images and Videos

如图4所示,Segment Anything Model 2(SAM2)[16] 是一种先进的视觉分割模型,它基于其前身SAM[10],引入了基于Transformer的架构并结合了 Stream 内存组件。这一增强使得SAM2能够支持实时视频分割和目标跟踪,解决动态移动场景带来的挑战。SAM2的架构针对实时视频分割和目标跟踪进行了优化,包含几个关键组件。层级图像编码器执行初始特征提取,为每一帧生成未条件化的Token,并在每次交互时运行一次,提供帧表示。记忆注意模块通过利用时序上下文,使用当前帧特征以及过去帧特征、先验预测和任何新的 Prompt 进行条件化,通过高效地自我和跨注意力机制[40]来实现。

picture.image

为了处理用户输入,Prompt 编码器——与 SAM 的编码器相同——解释类似于点击(正向或负向)、边界框或 Mask 的 Prompt ,以指定物体在帧中的范围。随后,Mask 解码器生成分割 Mask ,并采用 SAM 的方法保持连续性。记忆编码器通过轻量级卷积层下采样输出 Mask ,并将其与未条件化的帧嵌入相结合以细化记忆特征。最后,记忆库存储过往预测,从而提升准确性并减少对用户输入的需求。这些组件共同提升了 SAM2 的分割准确性和效率,减少了交互次数,并显著加快了图像分割任务的速度。SAM-2 在涉及自然图像和视频分割的各种零样本任务中展现了出色的表现。

2.3.3 Comparison between SAM and SAM2

SAM和SAM2在适用范围、架构以及实际应用场景上存在显著差异。在架构方面,SAM由图像编码器、 Mask 解码器和 Prompt 编码器组成的基本组合构成,而SAM2在此基础上增加了 Stream 记忆组件,该组件包括分层图像编码器、记忆注意力模块和记忆库。这些模块使得SAM2能够在多帧中保持一致性和准确性。在 Prompt 方法方面,SAM和SAM2的 Prompt 编码器均支持点、框和文本等多种输入方式,但SAM2利用多帧环境中的先前帧记忆来减少用户的输入需求。就应用场景而言,SAM通常用于单帧分割任务,如物体识别,而SAM2支持在视频序列中进行物体跟踪,使其特别适用于需要时序连续性的场景,例如视频编辑和自动驾驶中的动态目标检测。至于适用范围,SAM主要针对静态图像分割任务,例如单帧图像中的物体分割,这在医学图像分析或卫星图像分割等领域很有用。相比之下,SAM2进一步扩展到视频分割和物体跟踪领域,专注于动态场景中的实时处理,使其非常适合连续帧任务,如自动驾驶和视频监控。

unsetunset3 SAM2 FOr ImAGEunsetunset

图像分割会将输入的图像或视频分割成多个区域,以区分不同的物体或结构。准确的分割结果有助于提取感兴趣的区域或目标,并为后续的分析和处理提供基础,这对于高级计算机视觉任务如语义理解至关重要。

本小节提供了图像分割领域的全面概述。作者汇总了当前最先进模型的情况,特别是基于SAM和SAM2的模型。此外,作者总结了常用的数据集及其评估指标,用于评估图像分割方法。

3.1 Image Segmentation Networks

表2提供了对未来几年深度学习领域图像分割方法的理解参考,展示了近年来的分割方法。

picture.image

最初,早期的图像分割方法依赖于传统的机器学习技术,通常使用手工设计的特征进行分割。随着卷积神经网络的出现,图像分割进入了新的阶段,在这一阶段,研究行人开始开发专门的分割模型,并在特定数据集上取得了最先进的性能。近年来,通用目的的分割模型SAM展示了显著的优势,在各种场景下提供了更准确和稳健的分割结果。

为了进一步提高分割精度和效率,引入了SAM2,它能够提供更快的处理时间和更准确的分割,尤其是在复杂场景和资源受限环境中。SAM2在处理大规模数据集和实时应用方面表现出色,推动了图像分割领域的重大进展。在接下来的子部分中,作者将详细描述这些方法的特点和应用。

3.1.1Specialized SOTA Models

专门设计的先进模型针对特定任务而开发。这些模型通常针对特定的数据集或应用进行优化,在受控环境中能够实现高水平的表现。通过专注于特定的问题范围,专门设计的模型在准确性和效率方面可以在特定分割任务上超越通用方法。

nn-Unet [58] 是基于U-Net的一种自动化医学图像分割方法,能够自动优化网络结构并适应各种医学图像任务。
MedSegDiff [64] 基于扩散概率模型(DPM),通过动态条件编码和特征频率解析器增强医学图像分割性能,并广泛应用于不同的医学任务。
TransUnet [59] 结合了Transformer和U-Net,利用Transformer捕获全局上下文,而U-Net增强局部细节,从而提高医学图像分割精度。
iMOS [62] 是一种基于扩散模型的医学图像分割模型,专为动态目标分割设计,能够在最少标注的情况下实现高效的跟踪和分割。
UniverSeg [60] 不需要额外训练即可执行精确的医学图像分割,采用 Query 图像和样本集中的CrossBlock机制,适用于未见过的任务。
FCFI [61] 专注于并协同更新反馈和深层特征,在交互式分割中最大限度地利用反馈信息以提高分割准确性和效率。

OnePrompt [65] 结合了单标注方法和交互式分割方法,能够在无需训练的情况下处理未见过的任务,展示了其在医学图像分割中的零样本能力。

这些任务特定模型通常用作基准,以评估通用模型的性能。由于它们针对特定任务进行了微调,并且能够提供高精度的分割结果,因此常被用作评估新模型有效性的标准。在对比性评估中,通用模型必须展示出与任务特定模型相当或优于其性能,才能证明其在多种应用中的有效性和鲁棒性。

3.1.2SAM-based Models

基于SAM的模型(Segment Anything Model)是一类通用的分割框架,能够针对广泛的分割挑战提供灵活且稳健的解决方案。与任务特定模型不同,SAM设计旨在处理多种多样的数据集,从而在实际应用中表现出更好的适应性和准确性。这些模型通过简化复杂场景的分割任务,已在分割领域设立了新的基准。

MedSAM [12] 是 Segment Anything Model (SAM) 在医学图像分割领域的适应版本,通过使用领域特定 Prompt 来提升医学任务上的分割性能,并改善医学图像的一般化能力。

SAM-Med2D [13] 是一个大规模的二维医学图像分割数据集,整合了多样化的医学图像及其对应的 Mask ,有助于开发专门针对医学应用的分割模型。

PerSAM [44] 是一种针对 SAM 的个性化方法,能够在单个参考 Mask 和图像的基础上实现任务特定的分割,无需重新训练即可适应并实现个性化的分割。

SAM-Adapter [45] 通过引入特定任务的知识并使用简单的 Adapter 来提升 SAM 在具有挑战性的下游任务上的性能,在特定任务中显著提高分割结果。

SAM-MPA [49] 是 SAM 在多模态医学图像分割领域的扩展,通过结合模态特定的信息来改进 SAM 的分割能力,并适应不同影像技术下的分割任务表现。

IMIS-Net [46] 是一种专为交互式医学图像分割设计的网络模型,利用密集 Mask 生成等交互输入方式(如点击、边界框和文本 Prompt )进行分割。该模型在医学图像分割任务中实现了出色的准确性和可扩展性。

EVF-SAM [51] 结合了视觉和文本 Prompt ,通过早期的视觉-语言融合提升了 SAM 在引用分割任务中的性能,同时减少了参数量,从而达到更高的性能水平。

3.1.3SAM2-based Models

SAM2 基础的模型代表了 SAM 框架的下一个进化阶段,不仅在速度上有所提升,还在分割精度方面实现了增强。通过采用先进的技术和优化的架构,SAM2 能够在复杂且资源受限的环境中实现准确的分割。该模型特别适合大规模数据集和实时应用,进一步提升了图像分割的能力。

MedSAM2 [52] 是 MedSAM 的进化版本,旨在进一步提升医学图像分割的准确性与效率。它通过引入先进的技术手段,更有效地处理复杂的解剖结构。

Bio-SAM2 [53] 专注于生物图像的分割,结合了领域特定的知识,以实现对各种生物成像模态进行精确且适应性的分割。

SAM2-Adapter [56] 是一个针对 SAM2 的 Adapter ,整合了领域特定知识和视觉 Prompt ,提升了 SAM2 在医学影像复杂分割任务中的表现。

SAM-OCTA2 [54] 专用于光学相干断层血管成像(OCTA)图像,通过专为 OCTA 数据设计的技术,增强对血管结构的分割。

Path-SAM2 [57] 适用于病理图像,利用先进的 SAM 调整方法,准确分割组织病理学结构以支持医学诊断。

除了这些变化之外,现有的研究成果还系统地总结了SAM2在医学成像中的性能表现。Sengupta等[11]将SAM2与SAM在医学图像分割方面的进步进行了对比;Dong等[66]探讨了SAM2在3D图像上的性能;Shen等[67]研究了SAM2在交互式分割中的性能;He等[68]评估了SAM2在3D CT图像分割中的性能,结果显示效果不尽如人意;Xiong等[69]尝试将SAM2用作UNet的编码器,展示了其在图像分割中的强大适应性;Ma等[70]通过微调迅速将SAM2应用于医疗领域;Yamagishi等[71]在腹部器官CT扫描数据集上评估了SAM2的零样本性能;Yildiz等[72]将SAM2适应于标注3D医学图像,并通过3D Slicer扩展实现,支持基于 Prompt 的标注生成和在不同体积间的传播;Zhao等[73]重点关注了SAM2的上下文依赖性。这些评估推动了SAM2在不同领域的扩展应用。

3.2 Datasets

接下来,作者将具体讨论广泛用于模型训练和评估的数据集,重点关注自然场景和医疗场景。在自然场景方面,已有大量的研究和数据集,因此作者不会详细探讨。但在医疗场景方面,不同数据集对模型有不同的要求,因此作者将着重讨论这一方面。

3.2.1 Natural datasets

自然场景数据集在计算机视觉研究中广泛应用,支持目标检测、分割和场景理解等任务。这些数据集涵盖了从城市到自然的各种环境,提供了多样化的训练数据。具体的数据集信息见表3,接下来作者将进行详细介绍。

picture.image

水下数据集专注于水下分割任务,应对光照、浑浊度和畸变等挑战。例如,TrashCan [74] 收集了水下垃圾的数据,而CoralVOS [76] 则专注于密集珊瑚图像的分割。NDD20 [75] 包含了水下和地面上的海豚图像,旨在跨越不同环境进行海洋生物的分割。

植物数据集用于在植物学环境中实现分割和分类。PPDLS [77] 关注烟草叶,而MSU-PID [78] 则跟踪阿拉伯芥的生长。KOMATSUNA [79] 捕捉了Komatsuna叶子的图像,所有这些都致力于解决植物具有多样化形状、纹理和背景时的分割问题。

场景类别包括用于场景理解的数据集,涵盖各种环境和情境。ADE20K [84] 涵盖了多样化的场景和目标,例如语义分割;LVIS [85] 则关注长尾类目标。COCO [81] 广泛用于目标检测和分割,拥有大量图像数据。SUN [80] 针对有语义标注的日常场景,而Places [83] 则关注不同设置下的场景物体。Cityscapes [82] 专门针对城市街景,提供全景分割数据。NDISPark [88] 和STREETS [86] 分别提供了停车场地和街区视频的实例级分割数据。iShape [87] 强调室内形状和结构,而IBD [90] 则专注于单个细胞结构的分割。这些数据集有助于解决在多样化环境中分割复杂场景的挑战。

自我中心型数据集是从第一人称视角拍摄的,通常使用可穿戴摄像头。VISOR [92] 包含复杂的现实场景,而 GTEA [91] 和 EgoHOS [93] 则专注于人类与物体的互动,追踪手部运动和物体操作,面临的挑战包括遮挡和快速移动。

绘画数据集专注于艺术作品的分割。DRAM [94] 覆盖了艺术绘画,而 SegCLP [95] 则专注于中国绘画。CLP [96] 处理中国山水画的艺术风格区分、笔触和色彩变化等挑战。

其他:”其他“类别包括不归属于上述分类但仍然适用于特定图像分割任务的专业数据集。这可能包括一些专门的应用,如工业检查、卫星图像或需要特定分割技术的其他独特领域。这些数据集根据应用的需求提供了各种挑战,并要求使用高度专业化的模型以获得精确的分割结果。其他数据集涵盖了各种特定的图像分割任务,例如 BBBC038v1 [98] 旨在进行生物核仁分割,DOORS [100] 则专注于门和建筑元素的分割。TimberSeg [101] 专注于从操作员视角的木材段分割,而 OVIS [105] 则处理视频中的遮挡问题。Hypersim [102] 提供逼真的室内分割 Mask ,WoodScape [99] 则专注于周围鱼眼视图。Plittersdorf [103] 提供野生动物诱捕器分割的数据集,而 ZeroWaste-f [104] 则专注于废物回收。这些数据集满足了各种独特、细分领域的特殊分割需求。

3.2.2 Medical datasets

医学场景数据集涵盖了多种成像模态(如CT、PET、MRI、超声等)、不同的身体部位(如头 Neck 、胸部、腹部等)以及二维和三维等多种维度。为了更好地理解和分析这些数据集,作者将它们划分为单器官和多器官类别。在单器官类别中,作者进一步根据具体的身体部位进行细化分类。

表4按以下解剖区域对单一器官数据集进行了分类:头 Neck 、胸部、腹部、骨盆、骨和脊柱、病灶和其他。此外,作者还收集了大规模数据集。

picture.image

表5汇总了多器官数据集,这些数据集涵盖了多个身体器官、模态和维度。

picture.image

3.3 Evaluate Metrics

为了有效衡量分割算法的性能和效果,评价指标至关重要。这些指标不仅帮助作者验证分割结果是否符合预期,还为不同算法和模型的性能比较提供了客观标准。在图像分割任务中,评估主要关注两个方面:首先,分割结果的准确性,即分割能否精确捕捉目标区域,特别是在目标形状复杂或存在重叠的情况下;其次,模型的鲁棒性,即模型在不同输入条件下(如光照变化、遮挡和其他因素)的表现能力。通过综合考虑这两个方面,作者可以全面评估模型的实际性能,并为后续优化提供指导。

3.3.1 Intersection over Union (loU)

IoU 是一个用于度量预测分割区域与Ground Truth区域之间重叠程度的指标。它通过计算预测区域和真实区域交集与并集的比例来评估分割准确性。IoU值越高,表示分割准确性越好。

是预测的分割区域,

是ground truth区域,

是预测区域和ground truth区域的交集面积,

是预测区域和ground truth区域的并集面积。

3.3.2 Dice Similarity Coefficient (Dice)

Dice系数是另一个广泛使用的类似IoU的度量标准,但在数学上有所不同。它特别适用于评估两个集合之间的相似性,尤其是在目标区域较小或不规则的情况下,这在医学图像分割中很常见。

公式(2)中的元素与IoU公式中的相同。

3.3.3 Mean Intersection over Union (mloU)

mIoU是在多类分割任务中所有类别上的平均IoU。在多类问题中,作者为每个类别计算IoU,然后求平均值。mIoU提供了分割任务中所有类别性能的综合衡量指标。

is the total number of classes,

and

are the predicted and ground truth regions for class i,

and

are the intersection and union areas for class

3.3.4 Pixel Accuracy (PA)

像素准确率是最简单的分割评估指标,它衡量的是正确预测的像素点占总像素点的比例。像素准确率可以用来评估模型的整体性能,但在类别不平衡的情况下可能无法真实反映模型的性能。

第 (i) 个像素的 Ground Truth 值为 (y_i),预测值为 (\hat{y}_i),1 是指示函数,当 (y_i = \hat{y}_i)(预测正确)时取值为1,否则取值为0,(N) 表示总的像素数量。

unsetunset4 SAM2 FOR VIDEOunsetunset

在本节中,作者将总结基于SAM和SAM2的视频分割架构,并与其他最先进的架构进行比较。此外,作者将介绍相关的视频分割数据集,并提供常用的评估指标,同时对分割性能进行分析。

4.1 Video Segmentation Networks

从前沿的模型架构到应用场景的持续扩展,视频分割技术展示了处理复杂时序数据和长时间视频分割任务的强大潜力。传统的视频分割任务通常被分类为视频目标分割(VOS)、视频语义分割(VSS)和视频实例分割(VIS)。

随着通用模型的出现,零样本和少样本分割的概念为视频分割引入了新的方向。针对这些复杂的视频分割任务,基于不同架构的模型,如STCN、SegGPT和DeAOT,已经通过使用先进的机制和算法成功应对了sVOS和iVOS等挑战。与此同时,SAM2及其衍生版本在集成交互式分割、记忆追踪和少样本学习技术方面取得了显著进展。接下来,作者将从表6的三个视角详细介绍:最先进技术、SAM基模型和SAM2基模型,并进行深入分析。

picture.image

4.1.1 State of the Arts

当前最先进的视频分割模型通过利用创新的深度学习技术和架构,显著提升了处理动态变化和长时间视频数据的能力。接下来,作者将深入探讨这些前沿模型的核心特性及其在视频分割任务中的重要贡献。

STCN [148] 使用了 ResNet-50 架构并在多帧之间实现了多样投票,以增强视频物体分割效果。通过整合时空信息,STCN 能捕捉物体的动力学变化和空间关系,使其非常适合处理 sVOS 和 iVOS 这类复杂的任务,其中物体经历了时空变化。SegGPT [149] 利用 Vision Transformer (ViT) 和 Mask Prompting 来处理视频分割中的复杂物体。ViT 可捕获帧间的长距离依赖性,而 Mask Prompting 则提高了分割精度,使 SegGPT 在视频物体分割和实例分割等需要精确分割的任务中表现出色。

DeAOT [150] 引入了解耦传播机制,增强了在处理动态目标移动和场景变化时的灵活性。这种机制提高了目标跟踪的准确性,使得DeAOT 特别适用于iVOS和sVOS等长时间视频分割任务,在这些任务中需要长时间追踪复杂的目标运动。

RDE [151] 通过区域基于的动态编码增强了分割精度,结合局部和全局上下文信息来解决遮挡和目标交互等问题。RDE 在长时间视频分割任务中表现稳健,特别是在实时应用中,能够快速响应并保持高精度。

XMem [63] 利用记忆巩固技术提高长期目标跟踪能力。通过在多帧间存储和更新目标表示,XMem 即使在出现遮挡或外观变化的情况下也能保证一致的跟踪。这使得XMem 特别适合长时间视频序列,在需要随时间维护身份的任务,如sVOS和iVOS 中表现出色。

DEVA [153] 使用Mask2FormerR50 架构进行少样本解耦分割,利用有限标注数据增强对新目标类别的泛化能力。这种少样本学习能力使DEVA 在稀疏数据任务中非常有效,特别是在视频物体分割任务中,只有少量样本可用于训练。

DDMemory [154] 采用动态记忆库处理长时间视频目标分割,跨多个帧存储和更新目标表示。这种方法提高了分割精度,使其特别适合解决长时间视频分割中的遮挡和运动模糊等挑战。

Cutie [155] 通过轻量级、目标 Level 记忆架构优化视频物体分割。此设计平衡了计算效率与分割性能,使其特别适用于资源受限环境中的实时应用,尤其是在对视频分割任务的性能和效率有严格要求的应用场景中。

LiVOS [156] 采用轻量级记忆架构优化视频物体分割,同时保持较高的分割准确性和计算效率。该模型特别适用于长时间视频分割任务,即使目标随着时间发生变化,也能确保高精度的目标识别和连续跟踪。

4.1.2 SAM-based Models

基于SAM架构的这类模型代表了视频分割领域的最新进展,旨在增强交互式分割、记忆跟踪和少样本学习任务中的性能。SAM及其衍生模型通过集成时空记忆和解耦传播机制等创新技术,在处理动态视频场景和长时间序列方面表现出色。接下来,作者将详细阐述这些模型是如何通过各种技术提高视频目标分割的准确性和效率的。

SAM [10] 是基于视觉 Transformer (ViT)的多功能互动分割模型,能够处理有监督视频目标分割(sVOS)、无监督交互视频目标分割(iVOS)和零样本分割,无需 Token 数据。它能够捕捉长范围依赖关系,使其适用于动态分割任务。

MemSAM [159] 在 SAM 基础上增加了时空记忆模块,提升了跨帧目标跟踪的能力,从而提高长时视频分割的效果,尤其适用于 sVOS 和 iVOS 任务,通过保留和更新目标表示来实现这一目标。

DEVA-SAM [153] 引入了解耦传播机制,使 SAM 能够应对具有显著目标变化的复杂场景,从而提高了长时视频分割任务中的灵活性和鲁棒性。

VideoSAM [15] 通过关注动态内存跟踪来增强视频分割能力。它确保在挑战性的场景如遮挡的情况下,通过维持目标身份的一致性,在不同帧间实现准确的分割。

SAM-PT [157] 通过使用点传播改进了 SAM 的分割性能,利用稀疏点标注对物体边界进行细化,这种方法提高了物体实例分割和视频目标分割等任务中的准确性,尤其是在需要高精度的情境下。

SAM-PD [160] 通过减少 Prompt 噪声来提升分割效果。该方法在诸如零样本分割和复杂视频序列等含糊或多噪声的任务中提高准确性,确保专注于相关特征。

RAP-SAM [161] 是一个实时的、多功能视频分割模型,能够高效地处理各种挑战,从物体跟踪到场景理解,适用于互动和实时视频分析。

SurgicalSAM [158] 通过结合多模态时间建模和原型调优来提升分割性能。这使得它能够适应未见过的类别,特别适合医学成像任务,特别是在手术过程中,精确的分割至关重要。

4.1.3 SAM2-based Models

SAM2为基础的模型在实时视频分割领域取得了显著进展,利用改进的SAM2架构来应对多种挑战。这些模型结合了诸如高效的帧修剪、多模态时间建模和路径优化等强大技术,以提高分割精度和速度。针对需要实时处理和适应性的应用,基于SAM2的模型在零样本分割、动态目标跟踪和长时间视频分析等任务中表现优异。接下来,作者将探讨这些模型的关键贡献,突出它们在不同领域的能力和应用。

Yolo-SAM2 [162] 结合了 YOLO v8 和 SAM2,专注于通过边界框增强目标分割。它实现了更快、更精确的零样本分割,特别是在实时场景中尤为明显。利用 YOLO 的检测能力和 SAM2 的分割能力,它解决了动态环境中的挑战,为那些数据标注有限或没有标注数据的任务提供了稳健的解决方案。

SurgicalSAM2 [163]通过利用高效的帧剪枝技术提高了SurgicalSAM的实时分割性能。这使得其能够更快地处理视频帧,使其适合直播场景。其精确度和速度使其在手术和医学影像等高风险应用中成为理想选择,确保使用最少的计算资源获得准确的结果。

PolypSAM2 [164]研究了SAM2在不同 Prompt 设置下进行息肉分割的表现,分析其在各类数据集中的优势和局限性。该研究评估了分割精度、计算效率和在不同条件下的适应能力,提供了关于模型在需要高精度和可靠性的医学影像任务中效果的见解。

SAMWISE [165]提出了一种新颖的实时视频分割方法,结合了多模态时序建模和原型调整。它能够在无需重新训练的情况下适应新的目标类别和复杂场景,并在零样本分割任务中表现出色。其高效性和准确性使其非常适合医疗诊断和自动驾驶车辆等快速适应新数据至关重要的领域。

Det-SAM2 [166]的优势在于其自动化的目标 Prompt 生成能力和资源管理效率,使其特别适合需要高效推理的长时间视频分割任务。

SAMURAI [167]是SAM2的增强版本,专用于视觉物体跟踪。通过集成时间运动线索和运动感知记忆选择,它实现了稳健的实时跟踪并能够准确选择 Mask ,在零样本任务中表现出色,无需微调。

SAM2 [16]基于原始的SAM模型,提供了增强的效率和精度以满足实时分割任务的需求。借助Vision Transformer,SAM2在动态视频场景和扩展任务中表现出色,提供强大的零样本能力,适用于sVOS、iVOS和其他数据有限的应用。其零样本推理在手术视频分割中表现出优异的性能和鲁棒性[169]。

SAM2Long [168]通过路径策略优化了SAM2以适应长时间视频分割任务,能够在较长序列中保持较高的精度。它能够处理更长的时间依赖关系,适用于视频监控、环境监测和自动驾驶等领域,需要持续的目标跟踪。

4.2 Video Datasets

表7总结了多个用于各种分割任务的重要视频分割数据集,包括视频目标分割、运动跟踪和复杂场景分析。这些数据集提供了宝贵的资源,用于训练和评估能够应对各种实际挑战的视频分割模型。

picture.image

每个数据集在视频数量、物体类别、标注和任务等方面存在差异,这使得它们在多目标跟踪、目标检测和实时视频分割等不同研究应用中具有高度的价值。接下来,作者简要介绍几个关键的数据集及其各自的特征和目标任务。

· SegTrack [170] 是一个小型视频分割数据集,包含仅有的 6 条短视频和有限的目标类别,使其适合单目标分割任务。SegTrack-v2 [171] 在此基础上扩展,提供了 14 条视频以支持多目标分割任务,并提高了标注准确性,成为早期多目标跟踪研究的重要资源。

· YouTube-Objects [172] 包含 126 条专注于单目标分割的视频,使其非常适合从现实场景中学习简单目标分割。FBMS-59 [173] 包含 59 条视频和 13,860 帧,覆盖 16 个目标类别,用于评估多目标分割。Jump-cut [174] 包含 22 条视频,强调基于片段的分割任务,是一个高质量的数据资源,用于分析动态目标。

· DAVIS16 [30] 和 DAVIS17 [175] 是关键的视频分割数据集。DAVIS16 专注于单目标分割,而 DAVIS17 扩展到多目标分割,包含 90 条视频和 13,543 帧。该数据集以其高质量的标注和复杂场景著称,为视频目标分割任务提供了一个坚实的基准。

· EndoVisi7 [176]:这是一个包含 8 条视频的小型数据集(每帧 255 张),用于外科器械分割,每个帧都有 GT 分割 Mask 。EndoVis18 [177] 包含 19 个序列,用于外科图像分割,其中 15 个用于训练,4 个用于测试。每个序列包含 300 张帧,带有复杂的解剖结构和外科工具标注。

· CAMUS 数据集 [179] 包括来自 500 名患者的数据,其中 450 用于训练。它提供了来自 GE Vivid E95 扫描仪的 900 个心脏超声波序列,涵盖各种图像质量和分辨率(584×354 到 1945×1181),持续时间 10-42 秒。

· Endo NeRF [183] 包含两个外科视频片段,一个包含 63 帧,另一个包含 156 帧,重点在于内窥镜图像分析。SUN-SEG [186] 是首个高质量视频息肉分割数据集,包含 158,690 张结肠镜检查视频帧,并有多种标注类型。SurgToolLoc [184] 包含 24,695 条 30 秒的视频片段(每秒 60 帧),用于内窥镜图像分析,测试集中带有工具存在标注和边界框标签。

YouTube-VOS [178] 是一个大规模数据集,包含 94 个目标类别的 4,453 条片段,包括人类、动物和车辆。它解决了时空挑战,包含复杂的多目标场景,并提供 3,471 条训练视频和 507 条验证视频来评估模型性能。

VOT-LT 系列 [180], [182] 专门针对长期视频跟踪任务,分别包含 50 条和 52 条视频,提供大量数据量和持久目标,适用于评估长期稳定性和鲁棒性。VOT-ST 系列 [182], [187] 专注于短期跟踪,2023 年版扩展至 144 条视频和近 300,000 帧,并进行更细粒度的标注,支持动态场景中的多目标分割。

ESD [192] 是首个三维时空事件分割数据集,包含145个序列和21.88百万个事件,用于遮挡物体分割。VIPSeg [185] 是首个大规模户外视频全景分割数据集,包含3,536个视频和84,750帧的像素级标注。

VOST [188] 是一个半监督的视频目标分割基准,专注于复杂目标变形。该基准包括破裂、撕裂或发生显著形状变化的目标。数据集包含超过 700 个高分辨率视频片段,每个片段平均时长 20 秒,并且附有密集的目标实例 Mask 标注。该基准旨在捕捉完整的变形过程,为视频目标分割(VOS)模型提供了具有挑战性的应用场景。

UVO [181] 和 BURST [189] 是大规模多目标分割数据集,分别包含 1200 个和 2914 个视频。UVO 提供了超过 14,748 个物体,伴有超过 132 万条标注,专注于无定义物体分割。BURST 包含 482 个物体类别和 600,157 条标注,作为超长视频任务的关键资源。

MOSE [190] 是一个用于复杂现实场景的视频目标分割(VOS)数据集,包含2,149个视频片段,并提供了覆盖多目标场景的43,725个高质量分割 Mask 。该数据集分为1,507个训练视频、311个验证视频和331个测试视频,涵盖了36个类别共计5,200个目标。PUMaVOS [191] 是一个视频目标分割数据集,包含部分目标和不寻常目标,共有24个视频片段和21,000帧密集标注图像。它专注于电影制作中常见的部分目标(如半张脸、 Neck 、文身等),适用于处理复杂场景的分割任务。

MeViS [193] 是一个专注于运动表达指导物体分割的大规模视频分割数据集。它包含2,006个视频,涵盖了复杂的多目标场景,并通过严格的视觉和语义标准进行选择,带有详细的语言表达标注以促进运动导向的视频分割研究。PolypGen [194] 是一个大规模数据集,包含来自六个独立中心的超过300名患者的3,762个标注的息肉标签。该数据集包括单帧和序列数据,具有精确的息肉边界划分,旨在推进结肠息肉检测和像素级分割研究。

LVOS [195] 是一个设计用于真实场景的长期视频目标分割数据集,包含平均长度超过60秒的视频。该数据集包括v1版本中的720个视频和v2版本中的420个视频[196],涉及44个类别,提供了目标重新出现等挑战。数据集被划分为训练集、验证集和测试集,以评估模型的泛化能力。

Segment Anything Video (SA-V) [16] 是一个大规模数据集,包含 50,900 个视频片段和 642,600 个 Mask ,用于基于 Prompt 的视频分割。该数据集涵盖了小物体和遮挡等挑战,并将数据划分为训练集、验证集和测试集。此数据集支持稳健模型的开发,并提供了评估分割算法的平台。

4.3 Evaluate Metrics

视频分割涉及时间数据,与图像分割相比,在时间维度上引入了额外的复杂性,对分割算法的稳定性和连续性提出了更高的要求。图像分割通常侧重于单帧内的像素分类,而视频分割必须确保时空分割的一致性,并避免帧间目标抖动或漂移等问题。因此,在评估视频分割性能时,不仅要使用常见的指标如IoU和Dice,还应考虑时间维度的影响,以全面评估分割结果的空间和时间特性。

以下评价指标常用于视频分割的评估,详见[30]、[175]。

4.3.1 Region Similarity

and Contour Precision

给定预测分割 Mask

和Ground Truth Mask

,区域相似度

被计算为

之间的交并比(IoU)。

为了评估 (\hat{M}) 的轮廓质量,作者使用二分图匹配 [197] 计算轮廓召回率 (R_{c}) 和精确率 (P_{c})。然后,轮廓准确率 (\mathcal{F}) 定义为轮廓召回率 (R_{c}) 和精确率 (P_{c}) 的调和平均值。

该指标量化了预测 Mask 的轮廓与ground-truth Mask 的轮廓之间的吻合程度。平均轮廓精度

会在所有目标上进行计算。为了简洁,作者将此表示为

。最后,总体性能通过综合指标

来衡量,该指标是区域相似度和轮廓精度的算术平均值:

4.3.2 Global Accuracy

全局准确性(

元度)用于衡量分割结果的整体准确性。它定义为预测分割中正确分类像素的比例与总像素数的比例。公式如下:

直观地讲,

反映了正确分类像素的总体比例。

值越高,表示全局分割精度越好。

4.3.3Temporal Metrics: FPS

每秒帧数(FPS,Frames Per Second)是一个时间度量(add cite),用于评估视频分割或分析模型的处理速度。它测量模型每秒钟可以处理的视频帧数,反映其效率及其在实时应用中的适用性。FPS越高,表示模型能够更快地处理视频数据,使其非常适合对时间敏感的任务。

unsetunset5 DISCUSSIONunsetunset

在本文的发展过程中,作者观察到SAM2相较于之前的模型显示出显著的改进,展现出巨大的潜力。然而,尽管取得了这些进展,该领域仍然存在若干挑战和限制,需要进一步的研究和优化。在本节中,作者将讨论该领域的当前挑战和机遇。

5.1 Current Challenges

5.1.1 Domain Adaptation Limitations

尽管SAM2在零样本任务[124]、[164]中表现出色,但在医学成像和遥感等領域的应用仍需要针对特定领域的微调才能达到最佳性能。这些领域往往依赖复杂的上下文信息[73],而模型的泛化能力在缺乏目标数据的情况下有限。微调过程面临高计算成本和标注数据不足等挑战,尤其是对于专门的任务。这些问题突显了高效领域适应技术以及高质量标注数据生成的持续需求。

5.1.2Multimodal Integration

另一个重大挑战在于SAM2与多模态模型的有效集成。SAM2有潜力处理多模态数据,例如结合图像特征与文本描述,但有效融合这些数据类型仍然是一个复杂的问题[165]、[198]。多模态集成需要复杂机制来对齐和合并来自不同源的数据,这可能在计算上非常密集,并且可能需要处理不同模态特征空间之间的差异。此外,模型需要有效地利用各种输入的信息,同时在所有模态中保持性能。未来的研究必须集中在提高多模态交互能力上,以确保SAM2能够以协调的方式处理和理解复杂的多模态数据流。

SAM2作为一款大型且复杂的模型,在实时应用领域,如视频分割和在线分割系统中面临重大挑战[166],[199]。由于其庞大的规模,SAM2在推理时可能会遇到较慢的速度和更高的资源消耗问题,这可能阻碍其在速度和效率至关重要的环境中部署。特别是对每秒需要处理多帧的视频分割任务而言,它要求高度的计算能力和低延迟。解决这些挑战需要优化技术来降低模型的计算开销,同时保持性能。有效的资源管理将是使SAM2能够在实时应用中实际使用的关键,例如自动驾驶和实时视频分析。

5.2Future Works

未来的研究工作将集中在优化模型性能、增强多模态交互能力以及提高鲁棒性以应对实际应用中面临的挑战。

5.2.1Fine-Tuning for Specialized Field

开发更高效的微调策略[54],针对特定领域(例如,医学影像、遥感)进行定制,以增强模型的适应性和性能。通过利用领域特定的数据和任务优化的技术,该模型能够更好地应对实际应用,从而在分割任务中实现更高的精度。

5.2.2 Lightweight Optimization

通过模型剪枝和知识蒸馏等技术减少模型的计算开销,从而提高推理效率。进一步优化模型结构,确保即使在资源受限的场景下也能保持高性能,特别是对于实时应用[163]、[200]、[201]。

5.2.3EnhancedMultimodal Interaction

深入研究SAM2与多模态数据输入(如语言描述和文本信息)的更深层次整合,以探索其潜在应用场景。通过增强多模态交互,该模型可以更有效地应用于复杂的多样任务,包括智能问答和图像文本分析。

5.2.4 Improving Robustness

在训练过程中采用更广泛且复杂多样的数据集,以提高模型应对具有挑战性的场景如噪声和遮挡的能力[169]、[203]。通过数据增强和对抗训练等技术,可以进一步提升模型在不确定条件下的稳定性和可靠性。

unsetunset6 CONCLUSIONunsetunset

本文回顾了SAM2在图像和视频分割领域的进展与挑战。相比于其前身,SAM2在处理复杂场景方面显示出显著改进,尽管其在医学影像和自动驾驶等特定领域中的性能仍需进一步优化。

研究重点在于SAM2在图像和视频分割中的应用:在图像领域,它强调了其在医学图像处理方面的功能;在视频领域,则突出了其对时间一致性问题的处理能力。尽管存在一些挑战,但SAM2的技术潜力为未来的研究和实际应用提供了宝贵的方向。作者希望本文提供的见解能够为研究行人提供有用参考,推动SAM2在计算机视觉领域的持续优化和更广泛的应用。

unsetunset参考unsetunset

[0]. SAM2 for Image and Video Segmentation: A Comprehensive Survey .

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论