超越最先进技术 SEDMamba | 基于SSM 错误检测模型，参数减少75.79%，FLOPs减少 90.93% ！ - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

在本文中，作者提出了SEDMamba，这是一个创新框架，用于通过瓶颈机制和细到粗的时间融合增强机器人辅助手术中的选择性状态空间建模。机器人辅助手术系统在准确性和安全性方面已显示出良好的效果；

然而，错误的发生仍然是一个问题。所提出的方法旨在通过整合一种新型的自适应维度降低技术和多分辨率时间融合机制来提高错误检测的效率。

自适应维度降低是通过一个瓶颈机制实现的，该机制自适应地提取最相关的特征，而细到粗的时间融合则捕捉不同时间尺度上的时间依赖性。

作者在一个公开可用的机器人辅助手术任务数据集上评估了作者的方法，并与现有技术方法相比，在错误检测性能上展示了显著的提升。

引言

机器人辅助手术（RAS）在全球范围内得到了广泛采用，并且是许多外科专科（例如泌尿科）的首选[1]。RAS是复杂的、多变的，并且需要高级的技术和认知技能。在RAS和广泛进行的腹腔镜手术中，不良事件并不少见[2]。其中一部分是操作者的错误，可能导致从手术任务执行不理想到患者受伤，甚至罕见死亡等后果。总体而言，在RAS中，人为错误是造成伤害和死亡的第二个原因[3]。

观察性临床人力可靠性评估（OCHRA）是一种标准化方法，通过检测并描述各种专科手术执行质量的技术错误的性质（程序性或执行性）和严重性来进行评估[4, 5, 6]。临床验证已确定按照OCRA定义的执行性错误是技术和患者结果的一个强烈预测因素[7, 8]。这强烈推动了这类工具在减少不良事件和手术训练中的应用。由于回顾和手动标注所需时间过长，部署OCHRA是不切实际的。在有效性和可靠性问题上存在主观性，这进一步突出了对自动化解决方案的需求[9, 10]。

在深度学习方法以及公开的JIGSAWS数据集[11]的推动下，该数据集包含从干实验室RAS任务中原子手势和技能标注，之前的显著工作集中在通过识别和定位手术手势的时间来理解RAS视频以进行技能分析[12, 13, 14, 15, 16]。最近的工作将DL方法适配到体内数据集[17, 18, 19]，并研究观察到的手势序列与患者结果和外科医生技能之间的关联[20]。程序性和执行性错误的检测和时序定位尚未得到广泛研究。Hutchinson等人[21]在两个JIGSAWS任务（模拟缝合和穿针）中包含了错误标注。当手术手势被省略或任务以与定义的语法图偏离的手势序列执行时，考虑程序性错误，而执行性错误表示表现不佳的时刻。对于每个手势，考虑从列表中最多四个错误（多次尝试、针头方向、针头掉落、视野外），用于将整个手势（从开始到结束）标识为错误（如果有任何错误记录）或正常[21]。利用这些标注，Li等人比较了三种DL分类器以检测错误手势[22]。

作者认为[21]中的标注方法虽然在干实验室中取得了成功，但并不直接适用于体内RAS环境。不可能为所有手势考虑相同的错误定义。错误通常跨越多个手势，因此它们的时间定位不能总是与手势的时间边界（开始、结束）对齐。因此，基于预先分割的手势片段的标注无法为错误的开始和结束提供准确的时间边界。在这项工作中，作者根据OCHRA定义了自定义错误描述，并展示了第一个带有帧 Level 错误标注的体内RAS数据集，以提供更准确的错误时间边界用于手术错误检测（SED）。

手术错误检测（SED）旨在检测手术过程中出现的错误。在[22]中，通过在手动预分割的手势片段中使用滑动窗口进一步将运动学数据降采样到30的长度，作为输入到CNN-LSTM网络的执行错误检测。然而，其并行计算能力受到长短期记忆（LSTM）的限制。Samuel和Cuzzolin[23]开发了一种深度卷积自编码器，以无监督方式检测预修剪视频片段中的错误，但卷积层局部感受野限制了其全局时间建模能力。总体而言，现有的SED研究主要关注短运动学数据和视频片段，对长时间手术视频的高效SED仍未探索。为了实现这一目标，必须考虑两个关键因素：长期依赖性建模和计算复杂性。Transformer架构，得益于自注意力机制，实现了全局建模，并在手术视频分析任务（如手术阶段识别[24, 25]）中展示了令人印象深刻的性能。然而，与视频序列长度成二次方关系的自注意力的计算复杂性显著增加了计算负担，阻碍了其在处理长视频场景时的效率。

最近，状态空间模型（SSMs）在自然语言处理领域捕获长序列的能力得到了证明[26, 27]。选择性SSM[27]，即Mamba，通过整合一个数据相关的SSM和采用并行扫描的选择机制，与其他基于SSM的方法区分开来，从而在保持全局感受野的同时实现线性复杂性。受到Mamba巨大成功的启发，研究行人在计算机视觉领域对其进行了探索，并取得了有希望的性能。Zhu等人[28]提出了一种双向Mamba（Vim），该Mamba向前和向后扫描图像，以增强图像任务的的空间感知理解，与已建立的Transformers相比，在显著提高计算效率的同时实现了更高的性能。SegMamba[29]构建了一个三向Mamba用于3D医学图像分割。然而，如图1所示，手术视频包含不同持续时间的错误，这需要算法考虑不同粒度的时间信息。之前的基于选择性SSM的工作很少考虑建模多尺度时间信息，因此作者展示了名为SEDMamba的新型选择性SSM基础方法的有效性，该方法捕捉不同尺度的时间信息，以检测来自机器人辅助根治性前列腺切除术（RARP）病例的缝合手术错误。

picture.image

这项工作做出了以下贡献：

作者提出了一种名为SEDMamba的新型分层模型，该模型由瓶颈多尺度状态空间块构建，用于检测长视频中的手术错误。为了处理不同持续时间的错误，作者设计了一种从细到粗的时间融合（FCTF），使用不同的膨胀1D卷积层来合并不同尺度范围的时间信息。此外，为了进一步降低计算复杂性，作者融入了一种瓶颈机制，压缩特征的空间维度，使选择性SSM能够专注于建模时间维度。据作者所知，这是首次尝试在手术错误检测中利用选择性SSM。
作者展示了第一个体内RAS数据集的帧级手术错误标注。
所提出的SEDMamba在模型参数减少11.71-75.79%，FLOPs减少40.71-90.93%的情况下，其性能优于最先进的视频分析方法和基于选择性SSM的方法，AUC提高了1.82-13.06%，AP提高了3.8-18.86%。

II Methodology

Dataset Description and Annotation

共有48段来自开源SAR-RARP50 数据集的RARP案例视频，帧率为60 Hz，由两位评估者独立盲目审阅。SAR-RARP50专注于背静脉复合体（DVC）缝合任务，并包含作为任务分析表的八种手势的开源标注[30]。作者开发了一个定制工具，使用之前验证过的缝合清单和OCHRA方法论[32]对程序性和执行性错误进行标注。这被总结为在给定缝合任务中可能出现程序性和执行性错误的列表，如表1所示。这些视频的时长从一分钟到超过十一分钟不等，包括整个缝合过程。两位评估者（一位资深的和一位初级的RAS外科医生，在RAS教育方面具有专业知识）逐帧连续分析这些未修剪的视频，并标注出所有错误的起始和结束帧索引。图2展示了作者标注中的三种错误类型。通过皮尔逊相关系数检验评估者间的一致性，显示两位评估者之间有非常强的协议（=0.8726, 0.001）。最后，通过联合审查对所有分歧达成了共识。

picture.image

共标注了2507个错误案例，其中E24-“不正确/控制不当的仪器”出现最频繁（686次），其次是E1-“多次尝试”（510次）。错误类型的频率在统计学上有显著差异（2 = 1945.15, 2.2e-16）。错误的持续时间各不相同，平均持续时间最长的为E19-“缝线纠缠”，每个案例平均约为599帧，而最短的是E11-“抓住针尖”，每个案例平均8帧。48个视频共包含976037帧。在SED任务中，如果不存在错误，帧被分类为“正常”，如果存在任何类型的错误，则被分类为“错误”，结果共有320355错误帧。为了检测不同持续时间的错误，无论其类型如何，特别重要的是要在多个尺度上建模时间信息。

Surgical Error Detection Model (SEDMamba)

本节介绍了与SEDMamba相关的基础概念，包括状态空间建模和离散化。然后作者制定了SEDMamba架构及其核心瓶颈多尺度状态空间（BMSS）块，带有细到粗的时间融合。

Iii-B1 Preliminaries

状态空间模型（SSM），如结构化状态空间序列模型[26]和选择性SSM[27]，受到连续系统的启发，这些系统将一维特征或长度为的序列映射到，通过隐藏状态。正式地，SSM可以表述为：

其中是演化参数，表示投影参数，是状态大小。为了将方程1中的连续参数转换为离散的，SSM通常采用零阶保持规则，包括一个时间尺度参数进行离散化：

根据方程2，方程1现在可以重写为离散版本：

模型的输出可以通过全局卷积来高效地计算：

其中是输入序列的长度，是一个结构化卷积核[26]。

Iii-B2 Overview of SEDMamba

SEDMamba具有分层架构，如图3所示，由三个瓶颈多尺度状态空间（BMSS）块组成。对于长度为的视频，作者首先从一个固定的DINOv2 [33]中提取空间嵌入序列，其中是空间维度。DINOv2是一个强大的视觉基础模型，已被证明能够提取与任务无关的视觉空间嵌入，并且在基于视频的任务中表现出色[33]。然后，SEDMamba在空间维度上压缩，并通过每个BMSS块捕捉从细到粗的时序特征，产生大小为的第层时空表示。随后使用1D卷积层（核大小为1，通道数为1）进行二分类，并输出最终的错误概率预测。需要注意的是，中的每个值表示相应帧出错的概率。作者使用二元交叉熵损失进行有监督的训练。

picture.image

Iii-B3 Bottleneck Multi-scale State Space (BMSS) Block

BMSS块的结构如图3(a)所示。受到SSMs强大的长距离建模能力的启发，BMSS块结合了选择性的SSM和瓶颈机制以及细到粗的时间融合（FCTF），分别降低计算复杂度并在基于空间嵌入序列的多个时间尺度上捕捉帧间长距离依赖关系。给定输入，首先通过瓶颈1D卷积压缩其空间维度从到，其中压缩因子。然后通过FCTF在四个不同时间尺度上获取并合并多尺度时间信息，以生成细到粗的时间特征。之后，通过线性层扩展并分成两个信息流。第一个流通过1D卷积层，然后经过SiLU激活函数[34]进入选择性的SSM。选择性的SSM的输出随后由来自另一流的生成的进行门控。最后，作者使用另一个瓶颈1D卷积层将空间维度恢复到，并得到BMSS块的输出。正式地，作者在算法1中呈现了BMSS块的运算。BMSS块继承了选择性的SSM的线性复杂度，同时保持了局部到全局的感受野，这对于基于视频的时间错误检测是很有前景的。

picture.image

Iii-B4 Fine-to-Coarse Temporal Fusion (FCTF)

为了解决误差持续时间的可变性和卷积层受限的感受野问题，作者提出了FCTF来捕捉和合并多尺度时间信息。FCTF从上到下堆叠了三个具有膨胀率为2、4和8的一维膨胀卷积层，实现了从细到粗逐级提取时间特征。此外，堆叠膨胀卷积在不增加核大小的情况下增加了感受野，而不需要增加参数数量。随着堆叠层数的增加，感受野呈指数级扩大。因此，使用少量参数，作者在时间维度上实现了显著大的感受野，这减轻了模型的过拟合，并促进了有效的误差检测。每个层的感受野（核大小为3）可以通过以下公式计算：

其中代表层号。

具体来说，给定通过第一个瓶颈一维卷积层获得的压缩特征。它首先通过一个膨胀率为2的一维卷积层，提取一个感受野大小为7的时间特征，记为。类似地，通过膨胀率为4和8的一维卷积层进一步细化，从而获得了跨越更大、更粗糙时间跨度的时间特征和。这些不同粒度的时间特征与原始尺度在空间维度上连接，并最终通过一个核大小为1的一维卷积将它们融合成一个从细到粗的时间特征。

III Experiments

Experimental Settings

所有实验都是在GTX 4090Ti GPU上使用 PyTorch 实现的。作者使用了AdamW优化器，初始学习率为1e-4，最大训练周期设置为200。作者以5Hz的采样率对SAR-RARP视频进行采样，得到了40个视频，其中包含46,586个正常帧和18,540个错误帧作为训练集，以及8个视频，包含7549个正常帧和2096个错误帧作为测试集。作者使用在ImageNet [33]上预训练且权重固定的DINOv2作为视觉提取器，从包含L帧的视频生成空间嵌入序列作为模型输入。在BMSS块中的压缩因子设置为64。FCTF中的膨胀1D卷积层的通道固定为。按照[27]的方法，选择性的SSM的状态维度设置为。作者采用了标准的、广泛使用的评估指标：曲线下面积（AUC）和平均精度（AP）用于SED任务。作者报告了三次不同随机种子的运行结果的平均值和标准差。

Comparison with the State-of-the-Art

作者对比了所提出的SEDMamba与最先进的基于卷积和Transformer的视频分析方法：TeCNO [35]，MS-TCN [36]，MS-TCN++ [37]，ASFormer [24]，以及选择性的SSM-based方法：Mamba 和Vim 。所有方法都是根据它们发布的代码和原始文献实现的，并且为了适应作者的错误检测任务进行了微调，从而为公平比较提供了基础。

表2展示了所有方法的定量结果。与其它方法相比，所提出的SEDMamba一致地取得了更优的性能，AUC提高了1.82-13.06%，AP提高了3.8-18.86%。值得注意的是，所有选择性的SSM-based方法都超过了基于Transformer的方法ASFormer，这证明了在SED任务中选择性SSM的优越性。图4展示了所有测试视频的错误检测结果。排名第二的方法Mamba倾向于输出更平滑且更模糊的预测曲线，这降低了它对错误的敏感性。同时，在错误帧中它也产生了较低置信度的输出。得益于FCTF为选择性SSM提供的由细到粗的时间信息，SEDMamba能够识别短暂出现的错误（用红框突出显示），并且在大多数情况下在错误区域内一致地产生高置信度（用黑框突出显示）。在大多数正常帧中，SEDMamba的错误概率与Mamba相当或更低，只有一小部分显示出更高的错误概率。需要注意的是，AUC和AP都综合考虑了所有类别，即错误和正常，表明SEDMamba具有更优的整体性能。

picture.image

Computational Efficiency

给定一个视频空间嵌入序列，单个头自注意力Transformer的计算复杂度以及SEDMamba中的选择型SSM分别为和。在计算上，自注意力与序列长度的关系是二次的，而选择型SSM与的关系是线性的。这种计算效率使得SEDMamba能够扩展到具有大视频长度的吉像素级应用。此外，如表格II和表格III所示，SEDMamba在保持最低参数量和FLOPs的同时，实现了最高的性能。特别是，与基于选择型SSM的其他方法（Mamba和Vim）相比，作者的SEDMamba在模型参数上分别减少了58.23%和75.79%，在FLOPs上分别减少了51.79%和70.90%。而且，作者的SEDMamba的参数量和FLOPs仅为基于Transformer的方法ASFormer的27.38%和9.07%，但它却实现了2.44%的AUC性能提升和8.08%的AP性能提升。与基于1D和膨胀卷积的方法（即TeCNO、MS-TCN和MS-TCN++）相比，作者的方法在更小的复杂度下获得了更大的性能提升。这归功于BMSS块的瓶颈结构，它在上游压缩空间维度并在下游恢复，以节省计算，以及BMSS中的FCTF，它为选择型SSM提供了从细到粗的时序特征，有效地建模长期依赖关系。

Ablation Study

V-D1 Effectiveness of Key Components in BMSS Block

作者研究了瓶颈机制和FCFT在BMSS块中的效果。如表格IV所示，移除每个组件都会导致性能下降。瓶颈机制在AUC上带来1.64%的性能提升，在AP上带来3.69%的提升，同时模型参数和FLOPs显著减少了82.98%和78.83%，这有助于防止过拟合并提高模型效率。此外，这种瓶颈机制在空间维度上压缩特征，这可以减轻冗余空间噪声对长期依赖建模的影响。将FCTF引入瓶颈机制会导致计算复杂性的轻微增加，鉴于其在AUC上带来1.58%和在AP上带来3.58%的显著性能提升，这是可以接受的。这强调了在手术错误检测任务中为选择性SSM提供多尺度时间信息的重要性。

III-B2 BMSS块的数量

如表格V所示，通过分层堆叠BMSS块，作者可以定制SEDMamba的深度。值得注意的是，即使只有一个BMSS块，作者的方法也能达到69.96%的AUC和41.47%的AP，超过了排名第二的方法Mamba，而作者方法的参数和FLOPs仅为Mamba的19.78%和34.73%。这进一步验证了所提出BMSS块的有效性。随着BMSS块数量的增加，性能持续提升，但当模型过于深时，例如使用五个BMSS块，性能会下降。这种下降的潜在原因可能是深度模型中常见的梯度消失/爆炸问题。在BMSS块之间引入残差连接可能有助于解决这个问题。

Iii-B3 Compression Factor in Bottleneck Mechanism

瓶颈机制中的压缩因子在BMSS块中决定了FCTF和选择性SSM的输入空间维度。如表格VI所示，很明显，改变会显著影响模型的计算复杂度。考虑到性能与计算复杂度之间的权衡，作者将设置为64。

IV Conclusion

本文首次在体内手术数据集中提供了帧 Level 的错误标注。来自SAR-RAP50中的48个视频的超过97万个帧被逐帧标注，以提供错误的时间边界。

基于此，作者提出了SEDMamba，一个基于选择性SSM的分层手术错误检测模型，具有瓶颈和细到粗的时间融合，它在错误检测性能上展示了提高，同时具有高计算效率。

实验结果表明，提出的方法在AUC上比六个最先进的方法高出1.82-13.06%，AP性能提高了3.8-18.86%，并且定性结果更好。

利用非常高效的设计，SEDMamba需要的模型参数减少了11.71-75.79%，导致FLOPs减少了40.71-90.93%。未来的工作将集中在使用多标签算法语义地检测错误类型。

点击上方卡片，关注「AI视界引擎」公众号