点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
手术视频分割是计算机辅助手术中的一个关键任务,对于提高手术质量和患者预后至关重要。最近,Segment Anything Model 2(SAM2)框架在图像和视频分割方面取得了优越的进展。
然而,由于需要处理高分辨率图像和手术视频中复杂且长时间动态范围,SAM2在效率方面存在问题。
为了解决这些挑战,作者提出了一个高级模型 Surgical SAM 2(SurgSAM-2),该模型利用SAM2,并采用高效帧裁剪(EFP)机制,以实现实时手术视频分割。
EFP机制通过选择性保留只有最具有信息性的帧,动态管理内存单元,从而减少了内存使用和计算成本,同时保持了高的分割精度。
作者的广泛实验表明,与原始SAM2相比,SurgSAM-2在提高效率和分割精度方面有显著提高。
值得注意的是,SurgSAM-2以3倍每秒的帧率运行,并在使用低分辨率数据进行微调后,也达到了最先进的表现。这些进展使SurgSAM-2成为手术视频分析的领先模型,使得在资源受限的环境中实时手术视频分割成为可能。
1 Introduction
手术视频场景分割是计算机辅助手术中的一个关键任务,在视频序列中精确定位和描绘手术器械和组织是必要的。这个能力支撑了各种应用,如器械跟踪和姿态估计、术中指导以及术后分析等,最终提高了手术精度,缩短了手术时间,并改善了患者的预后。
考虑到临床中心资源有限,实时预测在实际应用中发挥着核心作用,以使方法能够提供及时的决策支持、导航,生成实时警告可能的偏差和异常,并促进远程手术监督和团队交流。然而,精确高效的手术视频分割具有挑战性,由于手术场景高度复杂,存在照明反射和血迹遮挡、动态语境下的长时间、类别的冗余(如不同的器械)、关键信息的频繁丢失、无规律的错误和噪声等因素。
2 Related work
Surgical Instrument Segmentation
外科手术分割领域的AI研究在深度学习方面取得了显著进步,尤其是在全卷积网络(FCNs)和类似于U-Net的编码器-解码器架构上[15]。然而,这些早期的方法往往在动态手术环境中面临挑战,难以处理外科器械和周围解剖结构之间的空间不一致和复杂交互[16,17]。
为了解决这些问题,近期的先进方法主要集中在 Transformer 模型和注意力机制,例如Swin Transformer 和多尺度注意力U-Net,它们在处理外科器械的复杂视觉特征方面具有更好的鲁棒性和适应性[18,19]。遵循了Segment Anything Model (SAM)[5]和SAM2[13]的引入,出现了专门针对医学图像分割[39]和外科视频分割的模型,例如SurgicalSAM[14]。尽管这些取得了进步,但在资源限制的情况下实现高效处理仍然存在挑战。这就是SurgSAM-2背后的核心驱动力,它旨在优化实时手术应用的性能[20,21]。
Segment Anything Model 2
SAM2是基于增强的多尺度特征提取的Vision Transformers (ViTs)构建的,使其成为图像和视频分割的强大工具[13]。经过针对性的修改,SAM2在2D和3D医学图像分割[38]中也显示出显著的有效性。然而,由于ViTs的计算强度,其在手术视频分割中的应用面临巨大的挑战,这需要大量的资源,限制了它们在实时、资源受限的环境中的实用性[27]。SAM2依赖的首先到达先服务记忆机制加剧了低效性,因为它保留了可能重复的帧,进一步减慢了处理速度。减少计算开销的同时保持强大的分割性能的优化模型是至关重要的,为更有效的解决方案铺平了道路,如SurgSAM-2。
Memory Bank Restriction
高效内存管理对实时应用程序至关重要,尤其是在手术视频分割的背景下,计算资源是有限的。XMem [22]和RMem [23]这样的策略已经探索了在视频分析期间仅保留最相关的帧的方法。在这的基础上,SurgSAM-2引入了一种高效的帧裁剪机制,它使用余弦相似度加权分系统来保留最有信息的帧,从而减少内存使用并提高处理速度。这种方法直接解决了SAM2内存管理的低效问题,使得SurgSAM-2更加适合用于快速进行的实时手术视频分析的需求和要求。
3 Methods
SurgSAM-2是一个专门针对手术视频分割的复杂和资源受限环境的高级模型。在SAM2[13]的基础上,SurgSAM-2引入了一个动态内存银行管理机制,以优化分割任务期间视频帧的保留和使用。这种创新不仅减少了计算负载,而且通过选择性地保留最相关和最有用的信息,提高了分割精度。内存银行包括当前帧和动态选择的先前帧,这对于保持时间上下文至关重要。通过整合这些改进,SurgSAM-2解决了实时手术视频分析的独特挑战,提供了一个既保证效率又保证性能的强健解决方案。
SurgSAM-2 Architecture
SurgSAM-2 基于 SAM2 [13],利用其专为手术视频分割设计的强大 ViT 架构。SAM2 的基础架构在 SurgSAM-2 中保留,但通过显著的优化以应对手术环境中提出的新挑战。
SurgSAM-2 的图像编码器在其核心处理输入视频帧,将其转换为详细的多维嵌入(embeddings),捕捉准确的分割所需的地方和全局特征。尽管这种架构与 vanilla SAM2 一致,但 SurgSAM-2 通过引入动态内存管理系统,有选择性地剪枝不相关的帧,确保只有最关键的数据被保留进行分析。
这些改进使 SurgSAM-2 保持了与 SAM2 相关的卓越性能,同时显著提高了效率,使其更适合在资源受限的手术环境中进行实时应用。
Efficient Frame Pruning
SurgSAM-2的关键创新在于实现了高效的帧裁剪机制,用于智能管理哪些视频帧进行进一步处理。此机制在将帧添加到内存库之前,动态评估每个 incoming帧的相关性,以确保保留最具有信息量的帧,同时丢弃那些对分割任务贡献最小。
对于进入内存库的每一帧,计算与过去帧()之间的余弦相似性,如下所示:
图1:所提出的模型SurgSAM-2的结构。
在计算完个余弦相似性之后,机制识别出这些帧中的个最相似的帧。这些帧被裁剪,剩下的帧加上帧被存入内存库进行内存交叉注意力。值得注意的是,作为关键参考的第一帧总是保持在内存库中,不计入动态内存库大小。这确保了内存库始终包括一个关键参考帧,并仍通过保留最相关的后续帧来优化效率。
考虑到原始SAM2模型使用了大小为六的过去帧和第一个参考帧的内存库以及空间时间建模的第一个参考帧,作者的设置为和。作者首先计算帧与过去帧之间的余弦相似性。然后,裁剪两个最相似的帧,留下四个帧在动态内存库,这符合作者在SurgSAM-2中的EFP机制配置。
通过实现这种选择性的EFP策略,SurgSAM-2有效地降低了内存使用和计算负载,使得模型能够更有效地处理视频帧。在手术视频中,场景往往表现出高的视觉相似度和跨帧的语义内容重复,这种方法在消除冗余的同时保持效率。尽管存储的帧数减少,但模型通过专注于最关键的数据,保证了很高的分割精度,使其非常适合在资源受限的环境下进行实时手术视频分析。
Implementation Details
所有的实验都在配备48GB RTX A6000 GPU的系统上进行,使用了ViT-Small后端。实验的精度设置为bfloat16,这可以在保持模型性能的同时减少计算负载。需要注意的是,基础版的SAM2使用了分辨率为1024×1024,而ViT-Base+。然而,在这种分辨率下进行视频训练耗时且难以在手术场景下的有限计算资源下实现稳定。因此,作者选择在分辨率为512×512的情况下进行微调,并采用了SAM2的ViT-Small版本权重。在遵循SAM2的训练策略下,作者交替进行视频和图像训练。为了充分探索SAM2的潜力,作者对多 Mask 输出、IoU预测和遮挡预测进行了训练。为了保持SAM2的泛化能力,作者仅对 Mask 解码器和记忆模块进行微调,将提示编码器和图像编码器保持不变。
对于视频训练,作者采用了12的批量大小,每个批包含8个图像和每个图像最多3个目标。在图像训练中,作者将批量大小设置为32,每个图像最多3个目标。在训练过程中,这种在训练期间交替使用视频和图像数据确保模型有效学习动态和静态内容,从而提高其泛化能力。作者对 Mask 解码器和记忆编码器的训练速率分别为和。关于视频数据增强策略,作者遵循Cutie [29]的策略,该策略旨在通过在训练过程中模拟各种挑战性场景来提高模型的鲁棒性。在推理阶段,作者将输出分割重新缩放回其原始分辨率进行公平评估。为了确保第一个帧(对于后续帧的有效仪器跟踪至关重要)的质量,作者采用了原始分辨率(1024),然后对剩余帧使用较低分辨率(512)处理以优化模型效率。
4 Experiment
Dataset
作者在两个广泛认可且公开可用的数据集上对提出的SurgSAM-2模型进行了广泛评估:2017 MICCAI EndoVis 仪器挑战(EndoVis17)[24]和2018 MICCAI EndoVis 场景分割挑战(EndoVis18)[25]。与EndoVis17相比,EndoVis18中的手术场景更为复杂,因此具有更大的挑战性。EndoVis17数据集包含8个训练视频,每个视频包含225帧,8个测试视频随后收集,再与训练视频一起,另外还有两个独立的测试视频(序号9和10),共计1200帧。EndoVis18数据集由15个视频组成,每个视频包含149帧。对于EndoVis17,作者使用隔离测试集进行评估。对于EndoVis18,作者遵循ISINet [26]的标准流程,将2、5、9和15的序列分成测试集。
EndoVis17和EndoVis18数据集的数据按照Shvets等人[28]所述的方法进行预处理。鉴于ISINet [26]的EndoVis17和EndoVis18数据集只包含仪器类型标签而不包含实例级标签,作者对数据进行了重新标注,以确保作者的模型在更为详细和实例特定的 Level 上进行评估,从而实现更为精确的仪器分割和在不同手术场景下的更好泛化。
Evaluation Metrics
为了全面评估SurgSAM-2的性能,作者在视频物体分割(VOS)中采用了许多广泛使用的评估指标,这些指标可以评估分割的准确性和计算效率。这些指标被选择以全面展示模型在手术视频分割方面的能力。对这些指标,作者遵循了视频物体分割基准的评估协议,特别是排除了评估中最前和最后帧。作者还利用了EndoVis挑战的官方评估协议进行方法验证。
交点与并集(IoU): 交点与并集(IoU),简写为J或IoU,衡量预测分割和真实分割之间的重合度。它通过计算预测和真实阳性区域的交集除以它们的并集来计算。IoU是分割任务中一个标准的指标,能提供模型预测准确性的一种稳健度量。
J=Area Of Intersection/Area Of Union
边界F1得分(F): 边界F1得分,简写为F,评估了分割 Mask 中预测边界的准确性。它具体计算了分割区域边缘的F1得分,提供了一种洞察模型如何准确捕捉手术器械精确轮廓的方法。
F=2× Precision× Recall/(Precision+Recall)
J&F得分(J与F得分): J&F得分是一种综合指标,将IoU和边界F1得分平均,以提供区域重叠和边界准确性之间的均衡评估。这种指标特别适用于评估在精确定义区域划分和边界准确性都至关重要的任务中的分割质量。
J & F = (J+F)/2
Dice系数(Dice): Dice系数是分割任务中另一个广泛使用的指标,衡量预测分割和真实分割之间的相似度。它与IoU密切相关,但更强调重合度,因此是IoU的有益补充。
Dice=2×|Prediction∩Ground Truth|/(|Prediction|+|Ground Truth|)
挑战IoU(CIoU): 挑战IoU指标遵循EndoVis18挑战中的评估协议。CIoU单独计算每一帧的IoU,只考虑该特定帧中存在的目标。然后将IoU得分平均到所有帧以获得最终CIoU得分,这为进一步评估实时手术视频分析SurgSAM-2的分割性能提供了更准确的方法。
FPS(帧/秒):**以推理过程中的实时性能对SurgSAM-2进行评估。在手术环境中,对视频帧的及时处理对于有效决策至关重要。
内存占用: 作者还通过在推理过程中计算模型的内存占用来评估SurgSAM-2的内存效率。考虑到许多手术设置资源受限,减少内存使用是作者的关键目标。通过优化内存银行大小和采用有选择性的帧保留,SurgSAM-2在实现高分割准确率和高效内存使用之间取得了平衡。
这些指标整体上提供了一全面评估SurgSAM-2,突显其在分割准确率、边界精确度、计算速度和内存效率方面的优势。通过平衡这些方面,SurgSAM-2在实时手术视频分析方面位置良好,能够满足实际需求。
Experimental Results
Evaluation on Model Efficiency
作者在FPS和内存使用率方面对SurgSAM-2的性能进行了全面的评估,与其基础SAM2进行了各种配置的比较。结果如表格1、2和3所示,明显表明通过实现一个基于余弦相似度的有效帧裁剪机制并将内存单元大小减小,FPS和内存效率都显著提高。在对SurgSAM-2与基础SAM2的效率进行评估时,作者在EndoVis17 [24]和EndoVis18 [25]数据集的不同的提示设置下观察到一致的改进。平均而言,SurgSAM-2在各种提示设置(全 Mask 、一点、五点)下分别实现了13.8%的FPS提升和8.5%的内存消耗减少。这些结果证明了作者在增强计算效率方面,尤其在资源受限的环境中,基于余弦相似度的帧裁剪机制的有效性。
除了模型效率外,作者还评估了SurgSAM-2与原SAM2模型相比的性能。详细的结果可见表1、2和3,结果表明SurgSAM-2在各种设置和数据集上都优于原SAM2。
从实验结果来看,降低内存大小并在应用余弦相似机制的情况下,在EndoVis17数据集的分割精度上得到了混合结果。具体而言,J&F指标轻微下降了0.5%,Dice分数下降了0.3%与原始内存大小配置相比,但FPS和内存效率有所提高。另一方面,对于更具挑战性的数据集EndoVis18,SurgSAM-2将J&F指标提高了2.2%,Dice分数提高了2.5%,这反映了拟议的EFP机制的积极影响。
这种结果可以归因于视频分割模型中内存管理的原理。在更大的内存中,冗余信息累积可能导致相关目标之间的注意分数稀释,从而导致分割不精确。通过减小内存大小,模型变得更 selective,只保留最 inform
Fine-Tuning for Optimized Segmentation and Efficiency
作者进一步研究了作者SurgSAM-2模型在微调中的有效性。通常,更高的输入分辨率会提高分割精度。令人惊讶的是,作者发现SurgSAM-2模型,该模型基于原始分辨率的一半进行预测(在作者的设置中为512),在分辨率全高下已经能够超过原始SAM2模型。这一结果在手术场景中尤为重要,因为较小的分辨率允许在减少内存需求的情况下进行实际模型的训练。最重要的是,这使得手术视频的实时分割预测速度有了显著提高。在1点设置下,医生只需点击整个手术过程的第一帧,作者的SurgSAM-2就可以将Dice精度从85.1%提高到87.3%,同时将EndoVis17中的FPS从29提高至86。如表2所示。
详细观察表1、2和3,作者可以看到在不同的设置下,作者的SurgSAM-2在微调后的分割精度上显示出明显的、一致的改进。例如,在Five points设置中,作者的SurgSAM-2在EndoVis17数据集上的J&F指标从83.6%提高到88.0%,Dice分数从86.9%提高到91.4%。同样,作者的方法在EndoVis18数据集上的J&F指标从76.3%提高到80.8%,Dice分数从80%提高到84.9%。这种显著的改进进一步强调了作者在模拟临床实践的情况下微调策略的有效性,进一步验证了SurgSAM-2在实际医学应用中能够提供精确和一致的分割能力。
Comparative Model Evaluation
作者将SurgSAM-2与其他专门针对手术器械分割的最新方法以及一些先进的基于SAM的方法进行比较,并通过EndoVis18中的挑战性IoU指标评估了它们的性能。其他方法的性能引用了它们的文章[14]。需要注意的是,完全公平的比较无法实现,因为这些现有方法大多数都不需要推理时的提示。此外,大多数用于分割手术器械的方法都专门用于类型分割,尽管这可能是手术器械分割中的最具挑战性的问题。作者的方法旨在在一个更实际的环境中,例如在实例 Level 分割器械。作者还将在这种环境中比较 vanilla SAM2,并在Table 4中列出EndoVis18数据集的所有结果。
与评估矩阵中其他方法的表现相似,作者可以看到在挑战性IoU中,SurgSAM-2始终优于没有详细提示(全 Mask )的vanilla SAM2,无论是提供了更少的提示(1个点和5个点)。作者也发现,在实例 Level 的设置下,作者的方法在带有 Mask 提示的情况下,可以实现与这些特定任务的方法具有竞争力的IoU结果。更重要的是,SurgSAM-2在FPS和内存效率方面实现了显著改进,优于所有其他方法。
在实际手术环境中,性能和计算需求都需要谨慎考虑。考虑到分割精度的高效结合,作者的SurgSAM-2显示出在手术部署中应用AI模型的巨大潜力。它在不同提示等级上表现出一致的高性能,使其成为将医学影像工作流程集成到手术过程的实用选择,为外科医生在不同条件下提供实时可靠的分割结果。
Qualitative Evaluation
图2展示了作者SurgSAM-2与原始SAM2在全口罩、一点提示和五点提示设置下的定性比较。该图表明,标准SAM2偶尔无法将目标物体进行分割或识别出错误的物体。相反,作者的SurgSAM-2在所有情况下都能为目标器械产生准确的分割 Mask 。通过增加更精确的提示,如五点或 Mask 提示,可以进一步提高分割精度。
5 Conclusion and Future Work
结论:作者提出的模型SurgSAM-2在手术视频分割领域取得了重要进展。通过将EFP机制与强大的SAM2框架相结合,SurgSAM-2成功解决了实时手术视频处理中的挑战,提高了效率和准确性。SurgSAM-2能够选择性地保留基于余弦相似度的最重要帧,从而降低了内存占用,同时提高了模型在各种任务上的分割性能。
作者对EndoVis17和EndoVis18数据集进行的全面评估证明了SurgSAM-2始终优于原始SAM2模型,提供了 superior的处理速度和降低了计算需求,而没有牺牲准确性。这些结果表明,在资源受限的环境中,有效地管理内存对于推进视频分割至关重要,尤其是在高风险的手术干预背景下。
展望未来,未来的研究将专注于改进EFP策略和尝试不同的内存银行大小,以确定最大程度地同时提高效率和分割准确性的最佳配置。此外,作者计划在更多样化和复杂的数据集上扩展SurgSAM-2的评估,进一步验证其在各种手术环境中的健壮性和适用性。通过继续探索和集成更复杂的内存管理技术,作者旨在突破实时视频分析的界限,不仅限于医学领域,还包括需要快速准确视频分割的更广泛的应用。
参考
[1].Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning.
点击上方卡片,关注 「AI视界引擎」 公众号