点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
合成数据集通过提供大规模、密集标注的监督,显著推动了点跟踪技术的发展。然而,由于领域迁移和缺乏标注数据等问题,将这些模型部署到真实世界领域仍然具有挑战性,这些问题在手术视频中尤为严重,因为手术场景表现出复杂的组织变形、遮挡和光照变化。
尽管最近的方法通过教师集成或增强型伪标签流程将合成训练的跟踪器应用于自然视频,但它们在高迁移领域(如手术)中的有效性尚未得到探索。
这项工作提出了SurgTracker,一个半监督框架,用于通过过滤式自蒸馏技术将合成训练的点跟踪器应用于手术视频。伪标签由一个架构和初始化与学生完全相同的固定教师在线生成,并通过循环一致性约束进行过滤,以丢弃时间上不一致的轨迹。
这种简单而有效的设计强制执行几何一致性,并在整个训练过程中提供稳定的监督,而无需维护多个教师的计算开销。
在STIR基准测试上的实验表明,SurgTracker仅使用80个 未标注 视频即可提高跟踪性能,展示了其在高迁移、数据稀缺领域进行鲁棒适应的潜力。
unsetunset1. 引言unsetunset
跟踪视觉点随时间变化是计算机视觉中的核心问题,为运动理解、视觉对应和机器人感知等应用奠定了基础。基于学习的点跟踪器[2, 4, 9, 10]在大型合成数据集上通过密集监督训练展现出卓越性能。这些模型受益于模拟中的可扩展性和可控性,但由于领域迁移和标注数据缺乏,将其迁移到真实场景仍是一个重大挑战。
为弥补这一差距,近期研究[5, 8]提出了基于无标签自然视频生成的伪标签的半监督适应策略。这些方法利用教师-学生框架和一致性损失,在缺乏真实标签的情况下优化模型。然而,这些方法主要在自然视频领域得到验证,尽管这些视频是无标签的,但其在运动规律性和场景构成方面仍与合成训练分布相似。它们在更专业、高方差领域的适用性仍基本未得到探索。
其中一个领域是手术视频分析,其中精确的点跟踪能够促进对组织动态、工具-组织交互以及术中状态估计的理解——这对于手术技能评估、自动化和引导等应用至关重要[13]。然而,该领域提出了独特的挑战:可变形的解剖结构、镜面光照、严重的遮挡以及快速运动。此外,由于隐私问题、需要领域专业知识以及手动标注的高成本,获取用于手术中点跟踪的标注数据集是不切实际的。
手术视频中的点跟踪先前方法通常依赖于Sparse特征匹配或光流等经典技术[7]。近期工作如SurgMotion[18]通过特定领域先验将OmniMotion[17]应用于手术数据,但需要测试时优化,使其在实际实时部署中不太实用。因此,问题仍然存在:近期合成训练的点跟踪器能否有效适应手术视频——无需任何人工标注?为解决此问题,作者提出了SurgTracker,一个半监督框架,仅使用 未标注 数据将合成训练的点跟踪器适应于手术视频。虽然CoTracker3[8]使用来自不同教师模型的伪标签适应自然视频,但作者发现这种方法在手术环境中效果较差,因为领域差异更为显著。相反,SurgTracker采用一种更简单但更有效的策略:它利用来自一个冻结的教师模型的伪标签,该教师模型在架构和初始化上与学生模型相同,并应用循环一致性约束以仅保留时间上连贯的轨迹。
作者将此设计的有效性归因于三个因素:
- 首先,不同教师由于在领域转换下行为不一致,引入了更高的监督方差,导致伪标签质量降低;
- 其次,教师与学生之间的架构对齐提高了表示兼容性,从而实现更有效的学习;
- 第三,使用固定教师能在不同训练批次中提供稳定的监督信号,减少优化过程中的波动。此外,作者的单教师设置无需在训练过程中保留多个大型模型,从而提高了计算效率。
- 在STIR基准测试[18]上的实验表明,SurgTracker仅使用80个 未标注 视频即可提高跟踪性能,这证明了在高转换率数据稀缺的领域,监督一致性和对齐可以超过教师多样性的优势。
unsetunset2. 相关工作unsetunset
2.1. 点跟踪
基于深度学习的点追踪技术发展迅速,这主要得益于在合成数据集上进行训练,因为标注真实轨迹存在困难。早期工作如PIP [6]将密集追踪视为长程运动估计,后扩展至更长的序列在
[19]中。TAPIR [4]在此基础上引入全局匹配,而CoTracker [9]利用Transformer联合追踪多个点并更好地处理遮挡。
较新的变体如LocoTrack [2]使用4D相关体积,Track-On [1]则通过空间和上下文记忆实现逐帧追踪。尽管这些方法表现出色,但它们是在合成数据集上训练的,主要在自然视频领域进行了验证。
手术视频中的点跟踪对于建模组织动力学和实现图像引导的机器人干预至关重要[18]。基于Sparse特征或稠密光流的经典方法[7]在手术场景中受限于纹理、变形和遮挡的不足。近期的方法如SENDD[12]使用基于图的模型联合估计二维对应关系和三维变形。更近期的Zhan等人[18]引入了一个带有手动标注轨迹的基准,并提出了SurgMotion,该方法是OmniMotion[17]的改进版本,结合了特定领域的先验知识。虽然有效,但SurgMotion依赖于测试时优化,限制了其在实时环境中的应用。
相比之下,作者的工作探索了是否可以在没有任何标签的情况下将合成训练的跟踪器应用于手术视频,以在临床场景中实现鲁棒的实时性能。
2.2. 无监督域适应
合成数据能够实现可扩展的训练,但在将模型部署到真实世界视频时,领域偏移仍然是一个核心挑战。自训练使用伪标签已成为一种有前景的策略,其中源训练模型在 未标注 的目标数据上生成标签以指导微调。BootsTAP [5] 将此范式应用于大规模自然视频,通过教师学生学习和强增强。CoTracker3 [8] 通过从多个教师模型中蒸馏伪标签来提高效率,但未应用任何过滤来处理标签噪声。Sun等人 [14] 结合循环一致性来提高标签质量,但仅计算一次伪标签并保持其固定,增加了对确认偏见的易感性。
关键在于,这些方法仅在自然视频上得到验证,且尚不清楚它们是否能够泛化到分布差异显著(如手术视频)的领域。作者通过将基于自训练的点跟踪扩展到手术数据,利用单个与架构对齐的教师,并应用循环一致性滤波来提供稳定监督,从而解决这一差距。
unsetunset3. 方法unsetunset
3.1. 问题表述
在手术视频中进行组织运动追踪,需要精确地跟踪特定组织点跨越帧的变化。给定一个由
帧组成的视频序列
,作者的目标是追踪一组
个 Query 点
,其中
表示 Query 点
在帧
中的空间位置。目标是估计每个 Query 点
的轨迹
,表示其在序列每一帧中的预测位置。
3.2. SurgTracker
作者提出了SurgTracker,一个半监督框架,用于将合成预训练点跟踪器适配于手术视频,其中领域差异大和缺乏标注构成了显著挑战。yinqing-SurgTracker_2505利用CoTracker3——在合成数据上预训练并在自然视频中进行适配——作为固定的教师模型来生成伪标签,这些伪标签再通过循环一致性约束进行过滤以去除噪声轨迹。学生模型与教师模型在架构和初始化上完全相同,随后使用这些过滤后的标签进行微调。SurgTracker流程的概述如图1所示。
与依赖教师模型集成[8]或大规模数据增强[5]的先前工作不同,SurgTracker采用单个教师——其架构与学生保持一致——并利用时间一致性来识别高质量的训练信号。这种简单而有效的设计能够适应手术视频,而无需任何标注。该方法包括三个主要阶段:(1)伪标签生成,(2)通过循环一致性进行轨迹过滤,以及(3)对学生的监督微调。
3.2.1. 伪标签生成
对于每个训练序列,作者从第一帧中采样一组 Query 点
。为确保这些点具有信息量和可追踪性,作者使用SIFT [11]提取关键点,该算法在外观变化和视角变化下能提供鲁棒特征。检测到的关键点数量不足的序列被排除,以保持监督质量。教师模型
然后为每个 Query 点
预测候选轨迹 P
3.2.2. 周期一致性滤波
为提高伪标签的质量,作者应用循环一致性检查来识别并丢弃噪声轨迹。令
表示 Query 点
由教师模型
生成的正向轨迹,其中
和
是序列的起始和结束帧。然后,作者从最终预测位置
开始进行反向跟踪,再次使用
获取反向轨迹
。作者定义循环一致性误差为原始 Query 点与反向轨迹终点之间的欧几里得距离:
若轨迹
满足循环一致性误差
,则该轨迹被视为有效,其中
是一个控制过滤激进程度的超参数。仅使用有效的轨迹作为伪标签来监督学生模型。在训练过程中,教师模型保持冻结状态,仅通过反向传播更新学生模型。
3.2.3. 学生微调
作者使用来自可见和遮挡轨迹的监督来训练学生模型,遵循CoTracker3 [8]中的损失公式。通过一个阈值为6的Huber损失提供跟踪监督,并在多次细化迭代中应用。为了强调可见点,作者给它们的损失项分配更高的权重,而将遮挡点的权重降低到1/5。此外,还应用了一个指数折扣因子
,以减少早期迭代的贡献,并鼓励在最终细化步骤中做出准确的预测。总损失定义为:
其中
表示学生在精炼迭代
时的预测,
表示教师
提供的伪标签。由于伪标签可能存在噪声,作者发现省略置信度和可见性监督在微调过程中更加稳定。这有助于防止过度拟合不可靠的标签质量,并将学习重点集中在轨迹精炼上。
unsetunset4. 实验unsetunset
4.1. 数据集和指标
作者在Cholec80数据集[16]上进行训练,该数据集包含80个腹腔镜胆囊切除术视频,展示了多样的解剖结构、运动模式、光照条件和工具交互。视频以25 FPS录制,平均时长为2,306秒。尽管缺乏点级标注,作者将其用作半监督训练的无标签数据集。对于评估,作者使用STIR基准[18],该基准包含约425个由达芬奇Xi机器人记录的体内和体外手术视频,每个序列的首尾帧均标注了超过3,000个点。作者筛选出约20个标签噪声过度的序列,以确保评估的一致性。
作者使用三种指标评估跟踪性能:端点平均误差(MEE)、平均 chamfer 距离(MCD)以及平均精度
,该指标定义于 TAPVid [3] 中。
指标计算为被跟踪点在真实位置附近
像素阈值范围内的平均百分比。
4.2. 实现细节
学生模型使用Adam优化器,并采用余弦学习率调度策略,经过120,000次迭代进行训练,初始学习率为
。每个批次包含一个随机采样的序列,包含64个 Query 点,跨越16帧,采样步长在1到4之间随机选择。训练在NVIDIA RTX 4090 GPU上进行。循环一致性阈值
在标签质量和训练信号之间提供了最佳权衡。
4.3. 结果
作者在STIR基准上评估了SurgTracker,并将其与几种最近的点跟踪方法进行了比较,包括RAFT [15]、SENDD [12]、TAPIR [4]、BootsTAP [5]和CoTracker3(在线)[8]。如表1所示,SurgTracker在所有指标上均优于所有 Baseline 。与用作作者初始化和冻结教师的CoTracker3(在线)相比,它将MEE降低了0.74,MCD降低了0.69,同时将
提高了0.44。这些提升证明了过滤自蒸馏在使点跟踪器适应高位移手术领域的有效性。
4.4. 消融实验
为评估循环一致性滤波的影响,作者变化控制点与其循环跟踪对应点之间最大允许偏差的阈值
。如表2所示,省略滤波会导致准确率降低,证实存在噪声伪标签。使用
的滤波实现了最佳权衡,同时最小化MEE和MCD,并提升了
,反映了更精确的跟踪。较低阈值
过于保守,丢弃过多训练样本,从而限制了监督。相反,较高阈值
允许更多轨迹,但引入额外噪声,略微降低性能。这些结果突显了时间一致性在提升标签质量和整体跟踪性能方面的重要性。
4.5. 结论
作者提出了SurgTracker,一个通过过滤式自蒸馏技术将合成训练的点跟踪器适配于手术视频的半监督框架。通过利用单个与架构对齐的教师并强制执行循环一致性,yinqing-SurgTracker_2505提供了稳定、高质量的监督,而无需维护教师集合的开销。
在STIR基准测试上的实验表明,SurgTracker仅使用80个 未标注 视频即可提升跟踪性能,证明一致的监督在高挑战性、高位移手术领域中优于多样化的教师设置。
unsetunset参考unsetunset
[1]. You Are Your Best Teacher: Semi-Supervised Surgical Point Tracking with Cycle-Consistent Self-Distillation
点击上方卡片,关注「AI视界引擎」公众号