港中文 & 上海AI Lab 提出 SAM2LONG ,SAM2Long通过约束树形记忆结构提高分割鲁棒性 !

大模型视频服务数据库

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

anything 模型 2(SAM 2)已成为图像和视频物体分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2在进行视频分割时的关键设计是其内存模块,该模块可以从前几帧的物体感知记忆中获取当前帧的预测。

然而,其贪心选择内存设计存在“错误累积”问题,即错误的或未检测到的 Mask 会级联并影响后续帧的分割,从而限制了SAM 2在复杂长期视频上的性能。因此,作者引入了SAM2Long,这是一种改进的训练免视频物体分割策略,它考虑了每个帧内的分割不确定性,并以受限的树搜索方式从多个分割路径中选择视频 Level 的最优结果。

在实际应用中,作者始终保持视频内的分割路径数量固定。对于每个帧,基于现有路径提出多个 Mask ,创建各种候选分支。然后,作者选择与下一帧相同固定数量的具有更高累积分数的分支作为新的路径。

处理完最终帧后,选择累积分数最高的路径作为最终分割结果。得益于其启发式搜索设计,SAM2Long对遮挡和目标重出现具有较强的鲁棒性,可以有效地分割和跟踪复杂长期视频中的目标。

在不引入任何额外参数或进一步训练的情况下,SAM2Long在五个VOS基准测试上显著且一致地优于SAM 2。值得注意的是,SAM2Long在所有24次头对头比较中平均提高了3.0分,在长期视频物体分割基准测试(如SA-V和LVOS)上的最大增益可达5.3分。

代码已发布在https://github.com/Mark12Ding/SAM2Long。

1 Introduction

SAM 2模型(Ravi等人,2024年)作为图像和视频 Prompt 性物体分割的统一基础模型,已经引起了广泛关注。值得注意的是,SAM 2在各种视频物体分割任务上都取得了最先进的性能,显著超越了以前的方法。在基于原始SAM(Kirillov等人,2023年)的基础上,SAM 2引入了一个记忆模块,该模块允许它使用之前观察到的帧的存储记忆上下文来生成masklet预测。这个模块使得SAM 2可以无缝地将SAM扩展到视频领域,逐帧处理视频帧,关注目标物体的先前记忆,并在时间上保持目标一致性。

虽然SAM 2在视频分割方面表现出色,但其贪心分割策略在处理频繁遮挡和物体重新出现的情况下显得力不从心。具体来说,当存在明显视觉线索时,SAM 2可以准确且可靠地分割帧。然而,在存在遮挡或重新出现的物体的情况下,它可能会生成高度变化和不确定的 Mask 建议。无论帧的复杂性如何,在两种场景中均应用了统一的贪心选择策略:选择预测IoU最高的 Mask 。这种贪心选择在简单情况下效果良好,但在具有挑战性的帧中可能引发错误。一旦将错误的 Mask 存储在内存中,其无法校正,并将误导后续帧的分割。作者在图1中既定性又定量地展示了这种“错误累积”问题。随着传播时间的延长,SAM 2的性能逐步恶化,突显了其维持时间准确的跟踪能力有限。

picture.image

为此,作者对SAM 2的内存模块进行了重新设计,以提高其长期兼容性和对遮挡和错误传播的鲁棒性。作者的改进完全不需要额外的训练,也不会引入任何外部参数,而是充分利用了SAM 2本身的潜力。作者的方法受到以下观察的启发:SAM 2的 Mask 解码器在处理具有挑战性和歧义性的情况时,会生成多个多样化的 Mask ,并伴随着预测的IoU分数和遮挡分数。然而,SAM 2只选择了一个 Mask 作为内存,有时会忽略正确的 Mask 。为了应对这个问题,作者试图为SAM 2配备多个内存路径,使每个时间步都可以将各种 Mask 作为内存存储,从而提高后续帧的预测。

特别地,作者提出了一种新颖的约束树形记忆结构,该结构随着时间的推移保持固定的记忆路径数量,以有效地管理计算资源来探索多个分割假设。在每个时间步长,根据一组记忆路径(每个路径都有自己的记忆银行和累积得分,累积对数预测IoU得分),作者为当前帧生成多个候选分支。然后,在所有分支中,作者选择累积得分更高的相同固定数量的分支并修剪其他分支,从而约束树的生长。在处理最后帧后,具有最高累积得分的路径被选为最终分割结果。此外,为了防止在错误预测上过早收敛,当它们的遮挡分数表示不确定性时,作者选择具有独特预测 Mask 的假设,以保持树的分支多样性。这种树形记忆结构增强了SAM 2有效地克服误差累积的能力。

在每个路径中,作者构建一个目标感知内存库,该库选择性地包括具有确切检测到的目标和高质量分割 Mask 的帧,根据预测的遮挡分数和IoU分数。作者不仅仅将最近的帧存储为SAM 2所做的那样,而是过滤掉目标可能会被遮挡或分割得不好的帧。这确保了内存库为当前帧的分割提供有效的目标线索。此外,作者通过根据其遮挡分数对记忆条目进行加权,调节记忆注意力计算,在交叉注意力中强调更可靠的记忆条目。这些策略有助于SAM 2聚焦于可靠的目标线索,并在几乎不增加计算开销的情况下提高分割精度。如图1(a)所示,作者的方法成功消除了遮挡并重新跟踪了周期性的气球,而SAM 2在此处失败。

作者提供了一个全面的评估,证明SAM2Long在六个VOS基准测试中始终优于SAM 2,尤其是在长期和遮挡严重的场景中表现出色。例如,在具有挑战性的SA-V测试集上,SAM2Long-L在得分上提高了5.3分,而SAM2Long-S在SA-V验证集上相对于相同大小的SAM 2模型取得了4.7分的显著提升。在LVOS验证集上,SAM2Long-S比SAM 2-S高出3.5分。这些在不同模型大小(包括SAM 2和更最近的SAM 2.1模型权重)上的一致性提升清楚地表明了作者提出的方法的 effectiveness。此外,如图1(b)所示,SAM2Long和SAM 2之间的每帧性能差距随着时间的推移而增大,表明SAM2Long在长期跟踪场景中表现出色。有了这些结果,作者认为SAM2Long为基于SAM 2的复杂、真实世界应用中的视频目标分割树立了一个新的标准,在无需额外训练或外部参数的情况下,实现了卓越的性能。

2 Related work

Video Object Segmentation

人类通过物体来感知环境是一种基本的认知能力。在计算机视觉领域,视频物体分割(VOS)任务旨在通过要求模型在视频序列中分割和跟踪特定物体来复制这种能力。近几十年来,关于视频物体分割的研究已经取得了很多成果。

目前有两种主要的评估VOS模型的协议:半监督和无监督视频物体分割。在半监督VOS中,感兴趣物体的第一帧 Mask 被提供,模型在后续帧中跟踪这些物体。在无监督VOS中,模型直接从背景中分割出最显著的物体,而无需任何参考。需要注意的是,这些协议在推理阶段定义,VOS方法在训练阶段可以利用 GT 标注。

在本文中,作者探讨了SAM 2 在半监督VOS中的应用。作者改进了SAM 2的内存设计,显著提高了 Mask 传播性能,而无需进行任何额外的训练。

Memory-Based VOS

视频目标分割仍是一个未解决的挑战,因为视频场景的固有复杂性。视频中的目标可能发生变形(Tokmakov等人,2023),表现出动态运动,在长时间内重新出现,并经历遮挡(Ding等人,2023a),以及其他挑战(Ding等人,2023a)。为了解决上述挑战,采用一种存储从过去帧中获取的目标信息的内存架构对于准确跟踪视频中的目标至关重要。以前的方法将VOS视为在线学习任务,其中网络在测试时进行微调,微调是基于第一帧标注的。然而,这种方法由于测试时微调而耗时。其他技术使用模板匹配,但它们在遮挡下缺乏跟踪能力。

近年来,更多高效内存读取机制被引入,利用了像素级注意或目标级注意。一个典型的例子是XMem ,它利用层次化内存结构进行像素级内存读取。在XMem的基础上,Curie 通过在目标级处理像素特征,进一步改进了分割精度,以更好地处理复杂场景。

SAM 2(Ravi等,2024年)在基于图像的SAM(Kirillov等,2023年)之上增加了简单的内存模块,使其能够执行VOS任务。然而,仅选择时间最近的帧作为内存会导致SAM 2在涉及长期重现物体和令人困惑的相似物的情况下遇到困难。因此,作者对SAM 2的内存进行了重新设计,以保持多个潜在的正确 Mask ,使模型更加注重物体并具有更强的鲁棒性。

Segment Anything Model

段 Anything 模型(SAM)(Kirillov 等,2023)被认为是一个里程碑式的视觉基础模型,它可以通过交互式 Prompt 在图像中分割任何目标。令人印象深刻的零样本迁移性能显示了在各种视觉任务中的高度灵活性,包括分割应用,图像编辑和物体重建。

SAM 2(Ravi等人,2024年)在SAM的基础上,通过一个基于内存的 Transformer 架构,将功能扩展到视频分割领域,实现实时视频处理。SAM 2的内存存储了关于物体和过去交互的信息,使其能够比以前的方法更准确、高效地在视频帧之间生成分割 Mask 。为了进一步增强SAM 2,作者引入了一种约束记忆树结构。这种训练无关的设计利用了SAM 2生成多个预测IoU和遮挡分数的候选 Mask 的能力,从而在分割过程中减少错误累积。

3 Method

Preliminary on SAM 2

SAM 2(Ravi等人,2024年)的开端是一个图像编码器,将每个输入帧编码为嵌入。与SAM不同,帧嵌入直接输入到 Mask 解码器中,而SAM 2则包含一个记忆模块,该模块将当前帧的特征与前一个和 Prompt 帧的特征相结合。具体来说,对于半监督视频目标分割任务,SAM 2在每次时间步长处维护一个记忆库:

在SAM 2中,记忆集使用先入先出(FIFO)队列机制存储了最近N帧,以及初始 Mask 。其中,表示每个帧中的记忆 Token 数量,表示通道维数,是包含在记忆中的帧索引的集合。

每个记忆条目包含两个组件:

(1) 与预测 Mask (由记忆编码器生成)融合的空间嵌入,和 (2) 目标 Level 的指针(由 Mask 解码器生成)。在向记忆进行交叉关注后,当前帧的特征整合了细粒度的对应关系和目标 Level 的语义信息。然后, Mask 解码器,轻量级且保留了SAM的效率,为当前帧生成三个预测 Mask 。每个 Mask 都附带一个预测的交点 Union(IoU)分数 和一个输出 Mask Token 。

此外, Mask 解码器还预测了一个目标的 Mask 分数 ,其中 表示目标存在, 表示不存在,而 描述了模型的置信度。预测的IoU分数最高的 Mask 被选为最终预测,其对应的输出 Token 被转换为目标指针用于记忆。

Constrained Tree Memory with Uncertainty Handling

为了提高SAM 2在长期和模糊情况下的鲁棒性,作者提出了一种受限制的树形记忆结构,使模型在最小计算开销的情况下随时间探索多种目标状态。作者将在图2中展示高级流程。这种基于树的方法保持多个可能的路径,并减轻遮挡和错误预测的影响。

picture.image

具体来说,在每一个时间步,作者维护着一组个的记忆路径,每个路径有一个记忆单元和一个累积得分,表示在帧之前的可能分割假设。根据每个路径的记忆单元,SAM 2解码头生成三个 Mask 候选以及它们的预测IoU分数,分别表示为IoU,IoU和IoU。这个过程通过将每个现有路径分支为三个新的候选来扩展树。因此,在每一个时间步,总共有个可能的路径。然后,作者通过将路径的IoU分数的对数添加到路径的先前得分来计算每个可能路径的累积得分:

为了防止对零取对数, 是一个小的常数。

然而,持续三倍地增加路径会导致不可接受的计算和内存成本。因此,为了管理计算复杂度和内存使用,作者实现了一种剪枝策略,该策略选择累积得分最高的Top 路径,以在下一次时间步中传递。这种选择不仅保留了最有前途的分割假设,而且还限制了基于树的内存,确保了计算效率。最后,作者输出累积得分最高的分割路径作为最终结果。

与SAM 2相比,作者的方法主要通过增加通过 Mask 解码器和内存模块的迭代次数来引入额外的计算。值得注意的是,这些组件相对于图像编码器来说要轻量得多。例如,SAM 2-Large的图像编码器有2.12亿个参数,而SAM 2-Large的总参数为2.24亿。由于作者像SAM 2一样只处理一次图像编码器,引入内存树的计算成本可以忽略不计,同时显著提高了SAM 2在错误 prone 情况下的鲁棒性。

不确定性处理。 不幸的是,有时所有路径都是不确定的。为了防止模型不正确地收敛到错误的预测,作者实现了一种策略,通过故意选择不同的 Mask 来保持路径之间的多样性。也就是说,如果时间的所有路径上的最大绝对遮挡得分小于预定义的不确定性阈值,作者强制模型选择具有唯一IoU值的 Mask 候选。这受到这样一个观察结果的启发,即在同一帧中,不同的IoU得分通常对应着不同的 Mask 。在实际中,作者将每个IoU得分IoU四舍五入到两位小数,并只选择具有不同四舍五入值的假设。

总的来说,将受限的树形内存与不确定性处理相结合,提供了一种平衡的策略,该策略利用多个分割假设来增强对长期复杂视频的鲁棒性,并通过有效减轻错误累积实现更准确和可靠的分割性能。

Object-aware Memory Bank Construction

在每个记忆路径中,作者设计出物感知的记忆选择,以获取具有区分性物体的帧。同时,作者调节记忆注意力计算,以进一步增强模型对目标物体的关注度。

为了构建一个能提供有效目标线索的记忆库,作者从当前帧之前的帧开始,根据预测的目标存在和分割质量选择性地选择帧。作者以当前帧为起点,顺序遍历之前的帧。对于每个帧,作者获取其预测的遮挡分数和IoU分数作为参考。如果帧满足以下标准,则将其包含在记忆库中:

当是一个预定义的IoU阈值时,这确保只有具有确定性检测的目标和合理的分割 Mask 的帧才会对内存做出贡献。作者继续这个过程,直到作者选择了最多帧。与SAM 2不同,它直接将最近帧作为内存条目,而作者的选择过程有效滤除了目标可能被遮挡、不存在或分割不良的帧,从而为当前帧的分割提供了更可靠的物体线索。

记忆注意力调节。 为了在交叉注意力计算中更可靠地存储记忆项,作者利用关联的遮挡分数 来调节每个记忆项的贡献。假设记忆集由 个帧以及初始帧组成,总共 个 Mask ,作者定义一组标准权重 ,它们在下界 和上界 之间线性间隔:

接下来,作者将遮挡分数按升序排列,以获得排序索引 ,其中:

作者然后根据这些排序索引将这些记忆项赋予标准权重:

本次作业确保具有较高遮挡分数(表示目标存在较高置信度)的记忆项获得更高的权重。然后,作者线性放大原始键 与相应权重:

最后,调制后的记忆键在记忆模块的交叉注意力机制中用于更新当前帧的特征。通过利用可用的遮挡分数作为指示器,作者有效地强调具有更可靠目标线索的记忆项,同时引入最小化的计算开销。

4 Experiments

Datasets

为了评估作者的方法,作者选择了6个标准VOS数据集,并报告了以下指标:(区域相似度),(轮廓精度),以及综合的。所有评估都是在半监督设置下进行的,其中第一帧蒙版是提供的。用于测试的数据集如下:

SA-V(Ravi等,2024)是一个大规模的视频分割数据集,旨在为多种场景下的 Prompt 式视觉分割提供支持。该数据集包括50,900个视频片段,总计642,600个分割 Token (masklets),每个分割 Token 都经过35.5万次仔细的标注。数据集中包括视频中的小、被遮挡的和重新出现的物体,这给数据集带来了一定的挑战。数据集被划分为训练、验证和测试集,其中大多数视频被分配到训练集以进行强大的模型训练。验证集包括155个视频中的293个分割 Token ,用于模型调整,而测试集包括150个视频中的278个分割 Token ,用于全面评估。

LVOS v1(Hong等人,2023年)是一个用于真实场景下长期视频物体分割的VOS(Video Object Segmentation)基准测试。该数据集包括720个视频片段,总帧数为296,401帧,标注数为407,945个,平均视频持续时间超过60秒。LVOS引入了具有挑战性的元素,如长期物体重新出现和跨时间相似物体。在LVOS v1中,数据集包括120个用于训练的视频,50个用于验证,以及50个用于测试。

LVOS v2(Hong等人,2024年)消耗LVOS v1,提供了420个训练视频,140个验证视频和160个测试视频。本文主要使用v2,因为它已经包含了v1中的序列。该数据集涵盖44个类别,捕捉典型的日常生活场景,其中12个类别故意未见,以评估和更好地评估VOS模型的泛化能力。

MOSE(Ding等人,2023a)是一个针对复杂、真实世界场景的VOS数据集,包含2149个视频片段,每个视频片段有431,725个高质量分割 Mask 。这些视频被分为1507个训练视频,311个验证视频和331个测试视频。

VOST(Tokmakov等人,2023年)是一个半监督视频物体分割基准,侧重于复杂的物体转换。与其他数据集不同,VOST包括破碎、撕裂或 Reshape 的物体,这些变化显著改变了它们的外观。它包括700多个在各种设置下拍摄的高分辨率视频,平均持续时间为21秒,所有视频都密集地 Token 了实例 Mask 。

PUMaVOS(Bekuzarov等人,2023年)是一个专门针对挑战性分割任务的全新视频数据集。它包括24个视频片段,每个片段时长从13.5秒到60秒(平均28.7秒),分辨率为480p,具有不同的宽高比。PUMaVOS专注于标注边界与明确的视觉线索不重合的困难场景,例如视频中常见的半脸、脖子、纹身和痘痘。

Main Results

SAM2Long 始终在所有模型大小和数据集上优于 SAM2。表1 展示了 SAM2 和 SAM2Long 在 SA-V 验证集和测试集以及 LVOS v2 验证集上各种模型大小的整体比较。总共包括 8 种模型变体,涵盖了 SAM2 和最新的 SAM2.1,覆盖了四种模型大小。在 24 个实验的平均性能下, 得分为 3.0。这些结果证实了 SAM2Long 明显优于 SAM2 Baseline 。例如,对于 SAM2Long-Large,在 SA-V 验证集和测试集上分别比 SAM2 提高了 4.5 和 5.3。这种模式也在 LVOS 验证集中得到证实,SAM2Long 在每个模型大小上都明显优于 SAM2。这些结果展示了在长时间视频分割场景中,训练免费的内存树的有效性。

picture.image

SAM2Long 方法在现有方法之上取得了显著提升,在未见类别上表现尤为出色。作者在 SA-V (Ravi等,2024年) 和 LVOS (Hong等,2023年;2024年) 数据集上分别与各种最先进的 VOS 方法进行了比较,结果如表2和3所示。尽管 SAM 2.1 已远远超过之前的方法,但 SAM2.1Long 进一步提升了这些极限。具体来说,作者的方法在 SA-V 验证集上实现了 J&F 分数81.1,比 SAM 2.1 提高了2.5分。对于 LVOS,SAM2.1Long 在 v1 和 v2 子集上分别取得了83.4和85.9的J&F分数,分别比 SAM 2.1 提高了3.2和1.8分。值得注意的是,SAM2Long 在未见类别上表现尤为出色,实现了 J 和 F 分数79.1和86.2,比 SAM 2 提高了7.5和5.1分。这些显著的改进表明了其强大的泛化能力。

picture.image

SAM2Long在处理各种具有挑战性的视频方面表现出灵活性。除了SA-V和LVOS数据集,作者在表4中评估了作者在其他VOS基准测试上的提出的SAM2Long。在涉及复杂真实世界场景的MOSE数据集(Ding等人,2023a)上,SAM2.1Long实现了得分为75.2,超过了SAM 2.1的74.5分。考虑到SAM 2.1-L在MOSE基准测试上没有显示出改进,SAM2.1Long的性能提升特别显著。同样,在关注目标经历极端变化的VOST数据集(Tokmakov等人,2023)上,SAM2.1Long的得分为54.0,比SAM 2.1提高了近1个点。在挑战模型面临困难视觉线索的PUMaVOS数据集(Bekuzarov等人,2023)上,SAM2.1Long以82.4分的得分手对比81.1分的SAM 2.1,显示出其处理细微且含糊不清的分割任务的增强能力。这些结果强调了作者在保持SAM 2的基本分割能力的同时,增强了其长期能力,展示了SAM2Long在各种VOS基准测试上的强大鲁棒性和灵活性。

picture.image

Ablation Study

作者在SA-V数据集的验证集上进行了一系列的消融研究,并使用SAM2-Large作为默认的模型大小。

AI学术论文中内存路径的数量P。作者在表5中消融了内存路径的数量P,以评估它们对SAM2Long的影响。请注意,将P设置为1将退回到SAM 2 Baseline 。将内存路径的数量增加到P=2时,获得显著的改进,将得分提高到80.1。这一结果表明,所提出的内存树有效地提高了模型跟踪正确目标的能力,同时降低了遮挡的影响。进一步增加内存路径的数量到P=3时,实现了最佳性能。然而,使用P=4没有带来额外的收益,表明对于SAM 2模型,3个路径在准确性和计算效率之间达到了最优平衡。

picture.image

在速度方面,由于作者在每个时间步都保持固定的内存路径数量,处理速度仍然保持高效。使用三个内存路径只会使模型速度降低18%,同时实现4.5分的性能提升。

选择IoU阈值对选择具有可靠目标线索的帧至关重要。如表6所示,将设置为0.3可获得最高的,表明在过滤掉低质量帧和保留有价值的分割信息之间取得了有效的权衡。相反,不要求 Mask 质量,并将所有包含目标的 Mask 都输入到内存中(),则会将分数降低到80.0,表明不可靠的分割质量对SAM 2模型有害。同时,选择过于严格的阈值()会导致性能进一步恶化,降低到77.8,因为过度的排除会导致模型过度依赖远离当前帧的帧作为内存。

picture.image

不确定性阈值。 不确定性阈值控制了在不确定条件下选择假设。作者在表7中的结果表明,将设置为2可以获得最高的得分,这表明了不确定性处理的优化水平。较低的值(例如,0.5)可能导致性能下降,因为它们可能过早地确定错误的分割假设,从而导致由于错误传播而导致显著性能下降。另一方面,较高的值(例如,5)并不能进一步提高性能,这表明在某个阈值之后,模型不再从额外的 Mask 多样性中受益,并且在分割有信心时可以有效地依赖得分最高的 Mask 。

picture.image

记忆注意力调节 低高。 作者在表8中探索了使用不同范围调节记忆项的注意力权重的影响。配置 表示不应用调节。作者发现,配置 实现了最佳性能,而将调节范围增加到 () 时,性能略有降低。这一结果表明,适度的调节足以强调可靠的记忆项。

picture.image

Visualization

作者在图3中给出了SAM 2和SAM2Long之间的定性比较。SAM2Long在各个帧之间展示出显著的分割误差减少,同时保持了对物体的更准确和一致跟踪。

picture.image

例如,在第二行的第二段中,SAM 2在遮挡发生时立即失去了目标人的踪迹。尽管SAM2Long最初也失去了一定程度的跟踪,但它的记忆树具有多条路径,这使得它后来能够成功地重新跟踪到正确的目标。在另一个案例中,如图第三行所示,一群人在跳舞,SAM 2最初跟踪的是正确的人。然而,当遮挡发生时,SAM 2错误地切换到跟踪另一个误导性的个体。相比之下,SAM2Long有效地处理了这种歧义。即使在遮挡期间,SAM2Long仍然设法抵抗跟踪误差,并在原舞者重新出现时正确地重新开始跟踪。

综上所述,SAM2Long显著提高了SAM 2处理物体遮挡和重出现的能力,从而增强了其在长期视频分割中的性能。

5 Conclusion

在本文中,作者提出了SAM2Long,这是对SAM 2的一种无需训练的增强方法,可有效缓解其在长期视频物体分割中的局限性。

通过采用具有目标 Aware 的约束树形记忆结构与目标感知记忆调制,SAM2Long能有效缓解错误累积,提高对遮挡的鲁棒性,从而实现在延长周期内更可靠的分割过程。在五个VOS基准测试上的广泛评估表明,SAM2Long始终优于SAM 2,尤其是在复杂视频场景中。

值得注意的是,SAM2Long在具有挑战性的长期视频基准测试(如SA-V和LVOS)上的得分提高了5个点,而无需额外的训练或外部参数。

尽管SAM2Long引入了显著的改进,但仍存在进一步优化的空间。未来的工作可以包括使用SAM2Long的内存架构在遮挡密集的数据集上微调模型。

此外,探索同一帧内多个物体之间的语义互动可能为更精确的分割提供有价值的洞察,因为当前方法在这种场景下并未考虑多物体互动。

参考文献

[0]. SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论