点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
本文提出了MirrorSAM2,这是第一个将Segment Anything Model 2 (SAM2)适配到RGB-D视频镜像分割任务的框架。MirrorSAM2通过引入四个定制模块来解决镜像检测中的关键挑战——如反射模糊和纹理混淆:用于RGB-深度对齐的深度扭曲模块、用于自动 Prompt 生成的深度引导多尺度点 Prompt 生成器、用于增强结构边界的频率细节注意力融合模块,以及带有可学习镜像 Token 的镜像 Mask 解码器以实现精细分割。
通过充分利用RGB和深度之间的互补性,MirrorSAM2将SAM2的能力扩展到无 Prompt 设置。据作者所知,这是首个使SAM2能够实现自动视频镜像分割的工作。
在VMD和DVMD-D基准测试上的实验表明,MirrorSAM2实现了最先进的性能,即使在小镜子、弱边界和强反射等具有挑战性的条件下也是如此。
- 引言
Segment Anything Model 2 (SAM2) 是一个最近引入的视觉基础模型,显著推动了视频分割技术的发展。通过在大规模SA-1B (Kirillov et al. 2023) (1100万张图像,10亿个 Mask ) 和SA-V (Ravi et al. 2024) (5.09万段视频,3550万个 Mask ) 数据集上进行训练,SAM2学习到了对自然场景高度可泛化的表示。然而,其在视频镜像检测(VMD)任务上的表现尚未得到充分探索。尽管SAM2在提供准确的 Mask Prompt 时表现良好,但在点 Prompt 下其性能显著下降,通常无法描绘出完整的镜像区域,如(Jie 2024)中所述。
此外,据作者所知,目前尚无对SAM2在无 Prompt 条件下的能力进行的研究。在这项工作中,作者首次尝试将SAM2适配用于RGB-D视频镜像检测,与之前依赖手动提供或基于交互 Prompt 的半监督方法形成对比。通过解决SAM2在无人干预情况下处理镜像模糊性和反射混淆的局限性,yinqing-MirrorSAM2_2509实现了视频中稳健且自动的镜像分割。
为应对RGB-D视频镜像检测这一具有挑战性的任务,作者提出了一个基于SAM2的RGB-D分割框架,命名为MirrorSAM2(具有深度感知能力的分割任意模型2)。MirrorSAM2通过融合深度感知和结构先验,扩展了SAM2强大的分割能力,使其在推理过程中无需依赖手动 Prompt 即可实现精确的镜像分割。镜子在视觉上具有固有的欺骗性——它们反射周围环境的内容,并且在RGB域中经常与非镜像区域具有相似的纹理和边界,这使得它们难以区分。相比之下,深度图揭示了镜子与其环境之间的明显结构差异。MirrorSAM2利用这种RGB-D互补性来弥补RGB特征中的信息损失,并提高在这种模糊场景中的分割鲁棒性。具体而言,MirrorSAM2引入了四个核心模块:
(1) 深度扭曲(DW)模块通过双向相关性和PAC引导解码建立RGB与深度之间的跨模态对齐,减少语义噪声。
(2) 深度引导的多尺度点 Prompt 生成器(DMS-PPG)提取分层结构线索,在无需监督的情况下生成可靠的空间 Prompt 。
(3) 频率细节注意力融合(FDAF)模块将深度特征转换到频域,并对齐幅度-相位信息以恢复细粒度结构。
(4) 镜像 Mask 解码器(MMD)将增强特征与可学习的镜像 Token 集成,以明确指导 Mask 预测。这些模块共同使MirrorSAM2能够在没有任何 Prompt 的情况下精确定位和分割视频中的镜像。
与原始SAM2相比,yinqing-MirrorSAM2_2509有效抑制了假阳性并捕获了完整的镜像区域。如图1所示,DW和DMS-PPG模块在纠正仅由RGB模糊性引起的误分类方面至关重要,而FDAF和MMD模块则提高了在挑战性场景中的边界细化和分割质量。
此外,SAM2分割结果中存在明显的遗漏,如图1的第
、第
和第
行所示,其中大部分镜面区域缺失。为解决这一问题,作者提出了两个关键模块:FDAF模块和MMD。FDFA模块作用于来自DW模块的早期特征,将其转换到频域以捕获详细的结构信息。通过对齐跨尺度的幅度和相位表示,FDAF模块使解码器中的每个memory token能够选择性地关注与其上下文最相关的频率分量。这种频率引导的注意力机制丰富了模型对细微边界和细粒度纹理的感知,而这些在原始SAM2流程中容易被忽略。在此基础上,MMD引入了一个可学习的镜面token,明确引导模型关注与镜面相关的语义。它集成了频率增强特征和全局上下文嵌入,以产生更完整和准确的镜面 Mask 。总体而言,这些模块显著减少了遗漏错误,并提高了模型检测具有弱边界或模糊边界的挑战性镜面区域的能力。
作者的贡献总结如下:
- 作者提出了MirrorSAM2,这是SAM2的一个变体,通过深度信息进行增强,并专门针对视频镜像检测(VMD)领域进行了定制。据作者所知,MirrorSAM2是第一个基于SAM2框架构建的用于VMD的RGB-D模型,也是第一个以自动方式调整SAM2来解决这一任务的模型。该模型系统地探索了SAM2架构内RGB和深度模态之间的交互,其中深度作为RGB的补充线索,在具有挑战性的镜像分割场景中增强了语义理解和结构推理。
- MirrorSAM2中引入了四个模块:DW模块、DMS-PPG、FDAF模块和MMD。DW模块通过建立RGB和深度特征之间的结构一致性来增强跨模态对齐,为下游处理提供可靠的基础。在此基础上,DMS-PPG通过从深度增强的特征图中挖掘信息丰富的空间区域,生成准确且多样化的点 Prompt 。FDAFM通过引导记忆token关注基于频率的判别性线索,进一步细化结构感知,从而能够恢复细微的镜像边界。最后,MMD将这些增强的特征与可学习的镜像token集成,无需任何外部 Prompt 即可生成明确且完整的镜像分割 Mask 。
- yinqing-MirrorSAM2_2509在VMD和DVMD基准测试上优于15种SOTA方法,展示了在SAM2框架下RGB-D VMD分割的有效性。
视频镜像分割
视频镜像分割最近受到了关注(Lin and Tan 2023; Warren et al. 2024; Xu, Siu, and Lau 2024)。VMDNet(Lin and Tan 2023)通过建模时空对应关系引入了第一个视频镜像检测网络。(Warren et al. 2024)利用了运动不一致性,而(Xu, Siu, and Lau 2024)则专注于帧间相似度和对比度的时间变化。
尽管这些方法提高了性能,但在处理小镜子、模糊纹理和强反射方面仍面临挑战。最近,(Xu et al. 2025)提出了第一个RGB-D视频镜像检测模型和数据集,表明深度线索可以显著提高分割精度。
与此同时,Segment Anything Model 2 (SAM2)凭借其大规模预训练,在分割任务上展现了强大的泛化能力。然而,其在视频镜像检测方面的潜力——特别是在自动、无 Prompt 的设置下——仍有待探索。
图2展示了MirrorSAM2的整体架构,该架构扩展了SAM2用于RGB-D视频镜像检测。该框架由SAM2和四个关键模块组成:DW模块、DMS-PPG、FDAF模块和MMD。MirrorSAM2在SAM2基础上引入了两项主要改进:
(1) 生成深度引导的空间 Prompt ,增强镜像区域的定位;
(2) 通过频率感知增强和镜像特定解码来优化分割。作者采用了一种轻量级的时间采样策略——两个相邻的RGB-D帧和一个远距离帧——遵循(Lin and Tan 2023; Xu et al. 2025)的方法,以捕捉短程和长程时间线索,同时相比SAM2的八帧输入减少了计算量。DW模块执行跨模态相关性计算以对齐RGB和深度特征。DMS-PPG然后从深度线索中生成多样化、高置信度的点 Prompt ,这些 Prompt 被输入到SAM2 Prompt 编码器中。在这些 Prompt 的引导下,SAM2预测初始分割结果。为了解决遗漏或模糊区域,FDAF模块将Low-Level深度特征转换到频域,用细粒度边界信息丰富记忆 Token 。
最后,MMD将增强特征与可学习的镜像 Token 融合,以产生精细且准确的镜像 Mask 。总的来说,这些模块使MirrorSAM2能够有效利用RGB-D线索,在视频中实现鲁棒、无 Prompt 的镜像分割。
深度扭曲(DW)模块
受光流估计和基于扭曲的特征对齐的先前工作启发(Stroud等人,2020;Tian等人,2020;Xie等人,2024),作者设计了一个轻量级的DW模块,用于高效的RGB-深度融合。与之前采用双流架构独立处理图像和深度特征从而导致高计算成本的工作不同(Xu等人,2025),作者选择了单流相关性引导的融合策略。考虑到SAM2的巨大计算开销,这一设计选择尤为重要。
给定来自图像分支
和深度分支
的Low-Level和High-Level特征,DWM通过相关性引导的注意力和深度感知解码执行高效融合。通过选择性地仅利用Low-Level和High-Level特征,该模块在结构细节和语义丰富性之间取得了平衡,同时保持了计算效率。作者的DW模块设计灵感来自于(Xu et al. 2025)中提出的跨模态一致性块,该块通过显式一致性建模对齐RGB和深度特征。相比之下,作者采用了一种更轻量级的方法,基于通过互相关和深度引导解码的隐式对齐,这在保持融合有效性的同时显著降低了计算开销。除了增强RGB-深度特征对齐外,作者的DW模块还输出了由图像语义隐式精炼的深度特征。这些精炼特征不仅捕捉了结构一致性,还使DMS-PPG中的点生成更加准确和鲁棒。整体流程包括三个主要步骤:
首先,作者对图像
和深度特征
进行归一化和空间下采样,得到
和
,然后使用基于滑动核的卷积计算双向相关性图:
这种相关性随后被压缩并融合回原始特征中:
其中
是相关压缩块
conv),Fuse是通道融合层
ReLU)。最后,作者应用PAC引导的解码器来获得融合输出:
输出包括精炼的深度特征
和结构引导的融合特征
,它们共同支持鲁棒的点 Prompt 生成和结构推理。
深度引导的多尺度点 Prompt 生成器 (DMS-PPG)
对于像SAM2这样的基于 Prompt 的分割模型,其性能严重依赖于信息丰富的输入 Prompt 。正如(Jie 2024)所展示的,缺少 Prompt 或使用朴素的点 Prompt 会导致显著的性能下降。为了解决RGB-D视频镜像检测背景下的这一限制,作者提出了深度引导的多尺度点 Prompt 生成器(DMS-PPG)——一个关键组件,它直接从融合的深度和视觉线索生成有意义、结构感知的 Prompt ,使SAM2能够在没有任何手动 Prompt 的情况下有效运行。
具体来说,作者的模块从深度增强的多尺度特征中生成Sparse但信息丰富的前景 Prompt ,无需任何手动标注或预定义标签。这些点 Prompt 作为软监督信号,引导SAM2关注物体区域,即使存在复杂反射、虚假对称性和不确定边界。通过将这些点作为Sparsetoken嵌入到SAM2的transformer解码器中,作者将自动检测问题转换为 Prompt 驱动的分割问题,该问题可在SAM2框架内解决。
如图3所示,DMS-PPG模块将Low-Level和High-Level精炼深度特征作为输入。这些特征通过级联融合策略进行融合:首先使用
卷积对High-Level特征进行投影,然后上采样以匹配Low-Level特征的空间尺寸。融合后的输出通过
卷积块进行精炼,以生成粗略响应图。从该图中,作者应用智能点选择过程。首先,选择前512个高响应候选点。然后,应用类似非极大值抑制(NMS)的距离滤波(Qi et al. 2017)来强制空间多样性并防止点聚集。如果没有剩余的有效候选点,则使用回退中心点以确保稳定性。最终的点坐标被归一化到[0,1]范围,并传递给SAM2 Prompt Encoder进行嵌入。
令
为响应图,则:
其中
是具有最高响应值的 Top-
个点。
是通过非极大值抑制(NMS)进行空间滤波后的点集。
是所选点之间的最小距离阈值。
是点i在[0, 1]范围内的归一化2D坐标。
是响应图的宽度和高度。
是每张地图所选点 Prompt 的最大数量。
频率细节注意力融合 (FDAF) 模块
为了增强记忆特征的细节感知,作者提出了一个FDAF模块。该模块在频域中捕获来自低层depthwarped图像特征的高频结构信息,并通过cross-attention机制将其与记忆表示对齐。这种融合策略通过细粒度边界线索丰富了语义上下文,同时保持全局一致性。
如图4所示,给定结构引导的Low-Level融合特征
,作者首先沿通道维度执行一维快速傅里叶变换(FFT)(Cooley and Tukey 1965)以提取幅度和相位信息。作者使用傅里叶变换后特征的幅度和相位来捕获互补信息:幅度反映纹理强度,而相位编码空间结构和排列。相位对于镜像检测尤为重要,因为它保留了区分真实内容和反射内容所必需的对称性和位置线索。这使得在反射和对称区域中能够更精确地进行边界定位。作者采用FFT是因为其效率以及能够将特征明确分解为全局幅度和相位分量的能力。与离散余弦变换(DCT)(Ahmed, Natarajan, and Rao 1974)或小波变换(Mallat 1989)不同,FFT在不引入额外参数的情况下保留了结构强度和空间排列线索。然后,将得到的频率特征进行线性投影以匹配记忆特征维度。然后,作者将记忆特征
作为 Query ,将投影后的频率特征作为多头交叉注意力模块中的 Key和Value 。
最后,对齐的频率增强输出通过残差连接和前馈块与原始记忆特征融合:
其中
表示一个由LayerNorm、GELU和线性层组成的前馈块。
这个模块使模型能够在语义记忆聚合之后利用局部频率细节,如边缘、纹理和对称结构。因此,它显著提高了分割 Mask 的准确性和清晰度,特别是在具有挑战性的反射区域或精细结构区域。
镜像 Mask 解码器 (MMD)
作者提出MMD,一种基于transformer的解码器架构,专为精确的镜像区域分割而设计。它通过以下方式整合语义、几何和频率感知线索:(1) 用于显式反射物体建模的镜像 Token ,(2) 用于多尺度特征推理的上下文对比通路,以及(3) 深度引导的Sparse Prompt 以指导解码过程。
正式地,解码器接收三个关键特征图:来自FDAF模块的频率增强图像特征
,来自DW模块的结构引导Low-Level融合特征
,然后与中间频率图
执行逐元素乘法,从而得到频率感知表示。
是由DMS-PPG生成的Sparse Prompt 嵌入。这些 Prompt 作为突出深度显著区域的软目标先验,并与transformer输出 Token 连接。
Mirror Token与Transformer
为了明确指导反射表面的分割,作者在transformer解码器中引入了一个可学习的mirror token
。该token捕获镜像区域的全局语义,并关注空间特征图和prompt tokens。作者使用mirror token扩展transformer输入序列,如下所示:
其中
、
和
是来自基础transformer解码器的标准object、IoU和mask tokens,而
表示由DMS-PPG生成的Sparse点 Prompt 。transformer处理这些tokens以及空间特征图
,产生输出token嵌入:
其中对应于镜像token的输出嵌入表示为:
镜像 Token 作为镜像区域的类别特定语义载体。与一般的 Mask Token 不同,它专门用于捕获与对称性、反射和上下文一致性相关的视觉线索。其全局注意力和 Token 特定解码促进了鲁棒的镜像分割,即使在杂乱或模糊的视觉环境中也能实现。
对比与融合 从MirrorNet (Yang et al. 2019)开始,对比上下文建模已被证明在增强镜像检测方面是有效的,特别是对于捕捉细微边界和区分镜像与非镜像区域。后续工作如PMDNet (Lin, Wang, and Lau 2020)、HetNet (He, Lin, and Lau 2023)、SATNet (Huang et al. 2023)、CSFwinformer (Li et al. 2023)、ZOOM (Xu, Siu, and Lau 2024)和DVMDNet (Xu et al. 2025)通过改进对比机制以获得更好的边界感知,进一步推进了这一方法。受这一趋势的启发,作者在解码器中集成了一个上下文对比模块(CCM),该模块改编自CSFwinformer (Li et al. 2023)。在遵循其分块对比公式的同时,作者使用频率感知和深度对齐的特征来增强对比效果。
具体而言,作者在特征层次的两个阶段之间提取上下文对比特征。给定一对输入特征
,作者首先通过基于窗口的提取
展开局部块,并计算它们的差异:
其中
是深度扭曲特征图,
是频率增强特征,确保对比度同时关注几何对齐和纹理增强的内容。与在输出阶段应用对比度的CSFwinformer不同,作者的模块放置在解码之前,在多个层级产生中间对比特征。这些特征以级联方式进一步融合,并传递给镜像token进行最终预测。这个推理模块使解码器能够捕捉微小的结构变化和深度感知边界,这对于在杂乱或复杂场景中识别镜像区域至关重要。
在计算两个层次的对比特征并以级联方式融合以获得最终的融合特征图
之后。这种融合表示整合了High-Level语义结构和Low-Level几何对比。为了生成镜像 Mask ,作者使用来自transformer的镜像token的输出:
并计算该向量与最终镜像 Mask 之间的点积:
这种设计允许mirror token全局关注并总结镜像相关信息,然后基于深度和频率对比特征将其解码为密集的像素级预测。
损失函数
作者采用一个混合损失函数
,定义为
其中
和
分别表示在第i帧的预测镜像区域与真实值之间计算的二元交叉熵损失和IoU损失。
表示最终的镜像预测图,
表示中间预测图,而
代表真实镜像图。
实验数据集和评估指标
作者在两组实验中评估yinqing-MirrorSAM2_2509:一组使用RGB-D视频镜像检测(DVMD)(Xu et al. 2025)数据集,另一组使用现有的RGB视频镜像检测(VMD)(Lin and Tan 2023)数据集。作者使用四个指标进行评估,包括IoU(IoU)、F度量
、平均绝对误差(MAE)和像素准确率。
MirrorSAM2在PyTorch中实现,并使用AdamW优化器(Loshchilov and Hutter 2017)进行训练,学习率设为
,权重衰减为
。所有实验和消融研究在四块NVIDIA A100 GPU(每块
)上进行30个epoch的训练,使用批次大小为1。输入图像在输入模型前,使用双线性插值统一调整大小为
像素。
与SOTA技术的比较
由于缺乏将SAM2适配于RGB-D视频镜像检测的现有方法——甚至是一般的视频镜像检测方法——作者参考了一些相关作品进行比较。例如,SAM2-Adapter (Chen et al. 2024) 被提出用于将SAM2扩展到下游任务,如伪装目标检测、阴影分割和医学图像分析。尽管它并非直接为VMD设计,但它提供了关于如何将SAM2适配于专业领域的见解。迄今为止,DVMDNet (Xu et al. 2025) 是唯一明确针对RGB-D视频镜像检测的现有方法,因此在作者评估中作为关键比较点。此外,作者将yinqing-MirrorSAM2_2509与相关领域的13种最先进方法进行比较。这些包括用于视频阴影检测的TVSD (Chen et al. 2021)和SCOTCH (Liu et al. 2023),用于玻璃检测的GDNet (Mei et al. 2020),用于视频玻璃检测的VGNet (Liu et al. 2024),用于镜像检测的MirrorNet (Yang et al. 2019)、PMD (Lin, Wang, and Lau 2020)、SANet (Guan, Lin, and Lau 2022)、HetNet (He, Lin, and Lau 2023)和SATNet (Huang et al. 2023),用于视频镜像检测的VMDNet (Lin and Tan 2023)和MD-VMD (Warren et al. 2024),以及用于RGB-D镜像检测的PDNet (Mei et al. 2021)。所有 Baseline 模型都在DVMD和VMD数据集上使用其官方实现进行训练和测试,在相同的硬件和评估设置下。
如表1所示,yinqing-MirrorSAM2_2509在所有四个评估指标上始终取得最佳性能,显著优于基准测试中所有现有的最先进方法。值得注意的是,即使在没有深度信息的VMD数据集上,yinqing-MirrorSAM2_2509仍然取得了最佳的总体性能,这表明了其强大的泛化能力以及作者的设计在RGB-D设置之外的有效性。
图5比较了MirrorSAM2与代表性方法在多种挑战性场景下的表现。更多示例在补充材料中提供。在
行中,涉及小镜子的情况下,只有MirrorSAM2能够准确分割浴室墙上的镜子区域。这归功于它集成了深度线索和频率增强的结构特征,即使在杂乱的纹理中也能实现精确的边界检测。
行展示了一个部分被雾覆盖的大镜子,这引入了噪声深度信息。尽管如此,MirrorSAM2仍然依靠其强大的特征融合实现了正确的分割,有效结合了基于频率的结构和上下文语义。相比之下,PDNet由于过度依赖深度而失败,而CSWinFormer则因雾导致的纹理损失而表现不佳。
和
行展示了视觉上混淆的非镜面物体,如类似镜子的画作或门道。这些相似性误导了其他方法,但MirrorSAM2能够准确区分镜子和干扰物,这得益于其深度引导的点 Prompt 和频率感知的细化处理,提供了更强的语义区分能力。
消融研究
点 Prompt 生成器(DWM-MPPG)、频率细节注意力融合(FDAF)和镜像 Mask 解码器(MMD)在所有评估指标上都优于其他变体。
在作者的消融研究中,作者选择SAM2作为 Baseline ,而不是SAM2-Adapter。初步实验表明,经过adapter修改的特征往往会丢失镜像特定线索,而这些线索对下游模块至关重要——特别是那些依赖于频率表示和结构细节的模块。使用这种降级的特征会削弱作者频率增强和 Prompt 生成模块的有效性,使SAM2成为一个更合适和公平的 Baseline 。如图6的第
列所示,添加DW和DMS-PPG模块显著改善了镜像定位,突出了深度引导 Prompt 在复杂背景下提供空间先验的作用。在第
列中,加入FDAF模块增强了精细结构细节,展示了其通过频域信息恢复微妙纹理和边界的能力。最后,在第
列中,MMD模块产生了更完整和精确的预测,同时有效抑制了假阳性,这得益于可学习镜像 Token 的指导。
在本文中,作者提出了MirrorSAM2,这是第一个将Segment Anything Model 2 (SAM2)适配于RGB-D视频镜像检测(DVMD)的框架,也是第一个在完全自动、无 Prompt 设置下探索SAM2的框架。
MirrorSAM2包含四个关键模块:用于RGB-深度对齐的DW、用于深度引导 Prompt 生成的DMS-PPG、用于基于频率的结构增强的FDAF,以及用于特定镜像 Mask 预测的MMD。在VMD和DVMD-D基准测试上的实验表明,MirrorSAM2以较大幅度优于先前的方法。虽然有效,但在极端反射或高度杂乱场景中仍存在挑战,作者在补充材料中进一步讨论了这些挑战。
参考
[1]. MirrorSAM2: Segment Mirror in Videos with Depth Perception
点击上方卡片,关注「AI视界引擎」公众号
