点击下方卡片,关注 「AI视界引擎」 公众号
目的:近期提出的Segment Anything Model(SAM)已经在各种应用中通过点、文本或边界框提示展示了令人印象深刻的性能。
然而,在安全性至关重要的外科任务中,提示是不可行的,原因是:
监督学习中缺乏每帧提示
在实时跟踪应用中逐帧提示不切实际
为离线应用标注提示成本高昂。
方法:作者开发了Surgical-DeSAM,以生成自动边界框提示,将SAM解耦以在实时机器人手术中获得器械分割。作者使用了一个常用的检测架构DETR,并对其进行了微调以获得器械的边界框提示。然后,作者通过用DETR编码器替换图像编码器并微调提示编码器和 Mask 解码器来应用解耦SAM(DeSAM),以获得手术器械的实例分割。为了提高检测性能,作者采用了Swin-transformer以获得更好的特征表示。
结果:所提出的方法已经在MICCAI手术器械分割挑战的两个公开数据集EndoVis 2017和2018上得到了验证。作者方法的性能也与现有的顶级器械分割方法进行了比较,并显示出显著的改进,EndoVis 2017和2018的dice指标分别为89.62和90.70。
结论:作者的大量实验和验证表明,Surgical-DeSAM能够在无需任何额外提示的情况下实现实时器械分割,并且优于其他顶级分割方法。
代码可用性:本工作的源代码可在以下链接获取:https://github.com/YuyangSheng/Surgical-DeSAM。
1 Introduction
机器人辅助手术在智能机器人研究领域越来越受到关注。一些现有工作应用深度学习技术来实现手术器械的实例分割。尽管这些模型在手术数据集上的实例分割性能有了显著提升,但它们尚未完全利用最新的分割模型或高级目标检测模型的潜力,这为进一步的改进和提升提供了机会。著名的分割基础模型SAM(Segment Anything Model)[1]及其在医疗图像分割和手术器械分割中的变体[2]在语义分割方面表现出了巨大的潜力。然而,它们不能产生目标标签分割,并且在部署期间需要交互式提示,这并不现实。
图1:Surgical-DeSAM:Swin-DETR检测器和用于器械分割的解耦SAM。
在这项工作中,
- 提出了Surgical-DeSAM为解耦SAM生成自动边界框提示;
- 设计Swin-DETR,将DETR中的ResNet替换为Swin-transformer作为图像特征提取器;
- 通过将SAM的图像编码器替换为DETR的编码器来解耦SAM(DeSAM);
- 在EndoVis17和EndoVis18两个公开可用的手术器械分割数据集上进行验证;
- 与SOTA模型相比,展示了鲁棒性。
2 方法论
Sam
SAM [1] 是基于提示的图像分割的基础模型,并在包含超过10亿个高质量 Mask 的最大分割数据集上进行训练。SAM 构成了一个设计简单的 Transformer ,由一个重型的图像编码器、一个提示编码器和一个轻量级的 Mask 解码器组成。图像编码器可以直接从输入图像中提取图像特征,无需依赖 Backbone 模型;而其轻量级的提示编码器能够实时地将任何给定的提示动态转换为嵌入向量。这些嵌入向量随后被解码器处理,生成精确的分割 Mask 。提示有多种类型,包括点、框、文本或 Mask ,这限制了SAM直接用于实际应用的能力,比如在手术过程中进行手术器械的分割。为手术视频的每一帧提供提示是不现实的。
Detr
DETR(DEtection TRansformer)[3] 是一种基于Transformer的目标检测器。它包括一个CNN Backbone 网络、一个编码器-解码器Transformer以及前馈网络(FFN)。CNN Backbone 网络通常使用的是ResNet50 [4],它从输入图像()中提取特征表示()。 Backbone 网络的输出随后传递给带有空间位置编码的Transformer编码器,并生成目标 Query 和编码器记忆。解码器接收编码器的输出,并使用FFN预测类别标签和边界框,包括中心坐标、高度和宽度。
Surgical-DeSAM
如图1所示,作者提出了_Surgical-DeSAM_来自动化边界框提示,通过设计(i)Swin-DETR:将DETR中的ResNet50替换为Swin-transformer,以设计一种用于手术器械检测的高效模型;(ii)解耦SAM:将SAM图像编码器替换为DETR编码器,并进行端到端的检测训练,以提示SAM的 Mask 解码器进行手术器械的分割。
Swin-Detr
DETR使用ResNet50作为提取特征表示的 Backbone CNN。然而,由于基于视觉变换的网络性能远超CNN,作者将 Backbone 网络替换为最近基于 Transformer 的架构——Swin Transformer [5],并采用作者如图1所示的Swin-DETR。Swin Transformer 引入了一种基于移位窗口的分层Transformer,以在自注意力计算中增加效率。需要注意的是,Swin Transformer 的输出可以直接输入到DETR编码器中,而ResNet50特征的额外步骤是将空间维度折叠成一维,将其转换成 Transformer 的输入序列。总的来说,SWINDETR包括一个Swin Transformer 来提取图像特征,然后将其传递给 Transformer 的编码器-解码器和FFN以获得最终的目标类别预测和相应的边界框。更具体地说,ResNet5o需要将的特征图转换成通过折叠空间维度得到的,而Swin Transformer 直接产生输出特征图。
2.2.2 Decoupling SAM
由于SAM和DETR的图像编码器执行类似特征提取,作者通过移除图像编码器并将DETR编码器的输出直接输入到 Mask 解码器来解耦SAM。这使得作者可以使用DETR预测的检测提示和仅解耦的提示编码器与 Mask 解码器的SAM,端到端地训练分割模型。在训练期间,作者使用检测边界框和分割 Mask 的真实值来端到端地训练两个模型。为了计算损失,作者采用了结合了GIoU [6] 和 损失的框损失 用于检测任务,遵循DETR的方法,以及分割任务的骰子系数相似性(DSC)损失 。因此,总损失 可以表示为:
3 Experiment and Results
Dataset
作者使用了两个基准机器人仪器分割数据集,分别是EndoVis17[1]和EndoVis18[2]。该数据集包含了不同视频序列中的仪器分割。作者将EndoVis17的第一个视频序列1至8用于训练,剩下的序列8和9用于测试。对于EndoVis18,作者按照ISINet[7]的方式,将序列2、5、9和15用于测试,其余序列用于训练。
作者选择AdamW优化器,学习率为,权重衰减为0.1,以更新模型参数。所采用的 Baseline DETR和SAM代码来自官方仓库,这些代码使用了Pytorch框架进行深度学习网络。
Results
作者在机器人仪器数据集上进行了目标检测和语义分割任务实验,并获得了作者模型的实例分割性能。
表1展示了在Endovis 17和Endovis18数据集上,作者模型与其他SOTA模型在机器人仪器实例分割性能方面的比较。很明显,作者的Surgical-DeSAM模型在mIoU和DICE得分上都超过了其他SOTA分割模型。
预测的定性可视化展示在图2中。作者的模型几乎没有假阳性,因为它基于Swin-DETR预测的边界框类别来分割整个仪器。
作者在表2中观察到了Swin-DETR的高检测性能,其中预测的边界框大部分准确,框区域有轻微偏差。
Ablation Study
为了研究Swin-transformer [5] 主干网相较于ResNet50 [4] 的优势,作者进行了一项消融研究,重点关注单独的检测任务以及检测提示和分割任务。在表2中,前两行展示了DETR-SwinB(使用Swin-transformer的DETR)与DETR-R50(使用ResNet50的DETR)相比在检测性能上的优势。相反,接下来的几行比较了Surgical-DeSAM分别使用ResNet50和Swin-transformer主干网的结果。
很明显,使用Swin-transformer主干网的Surgical-DeSAM显著优于使用ResNet50主干网的情况,在检测任务上mAP提高了2.7%,在分割任务上DICE分数提高了7.1%。
在本文中,作者提出了一种新颖的模型架构Surgical-DeSAM,通过解耦SAM来自动化手术器械分割的边界框提示。为了获得更好的特征提取,作者用Swin-transformer替换了ResNet50进行器械检测。
为了自动化边界框提示,作者通过移除图像编码器并将DETR编码器的特征和预测的边界框输入到SAM Mask 解码器和提示编码器来解耦SAM,以获得最终的分割。
实验结果通过与其他最先进的手术器械分割技术进行比较,证明了作者模型的效率。未来的工作可以关注基于Surgical-DeSAM的检测和分割任务的鲁棒性和可靠性。
参考
[1].Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery.
点击上方卡片,关注 「AI视界引擎」 公众号