VidLPRO: 机器人和腹腔镜手术视频语言框架 !

关系型数据库机器学习视频服务

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

作者提出了VidLPRO,是一种专门针对机器人及其腹腔镜手术的视频-语言(VL)预训练框架。尽管现有的手术VL模型主要依赖对比学习,但作者提出了一个更全面的方案,以捕捉复杂的时序动态并使视频与语言对齐。

VidLPRO集成视频-文本对比学习、视频-文本匹配和 Mask 语言模型目标,以学习丰富的VL表示。

为了支持这一框架,作者提出了GenSurg+,这是一个经过精心选择的数据集,源于GenSurgery,其中包括17,000个手术视频片段,配对由GPT-4通过Whisper模型提取的草稿生成的字幕。

该数据集解决了手术领域对大规模、高质量VL数据的需求。在包括Cholec80和AutoLaparo在内的多个基准数据集上的大量实验证明了作者的方法的有效性。VidLPRO在零样本手术阶段识别方面达到了最先进的技术水平,显著超过了现有手术VL模型,如 SurgVLP 和 HecVL。

作者的模型在准确性和F1得分方面的改进分别达到了21.5%和15.7%,在该领域创造了新的基准。值得注意的是,VidLPRO在新帧推理下也表现出强大的性能,同时能够随着时间语境的增加有效地扩展。

切片研究揭示了帧采样策略对模型性能和计算效率的影响。这些结果强调了VidLPRO作为手术视频理解的基础模型具有潜力。

1 Introduction

近年来,手术计算机视觉领域取得了显著的进步,这是由于人工智能(AI)在医疗保健领域的应用需求不断增长所驱动的。研究成果显著增加,导致开发出能够识别手术流程深度学习模型,增强手术场景理解 和重建 。随着手术过程越来越复杂和技术驱动,从术前规划到整个手术过程中的医生支持,需要智能系统支持 - 从术前计划到术后分析,以便提高患者结果,优化工作流程,并提高总体手术效率。

尽管存在这些有前景的应用,但将这些系统在手术领域中的发展和实施面临许多挑战。一个主要的挑战是手术过程本身的复杂性和变异性。与许多标准化视频数据集不同,手术视频捕获了高度动态的环境,其中视觉内容根据特定的手术、患者解剖学、外科技术和意外并发症可以显著变化。这种可变性使开发能够在不同手术场景下泛化的强大模型变得困难。另一个主要的挑战是大规模标注的手术数据集的稀缺性。

与其他领域中的数据可以更容易地收集和标记的情况不同,手术数据受到严格的隐私规定,需要专家标注,这既耗时又昂贵。这一限制阻碍了需要大量标记数据的深层学习模型的发展,并需要创新方法有效地利用有限标记数据。手术过程的长持续时间也提出了独特的挑战。手术视频经常跨越数小时,需要模型捕获和处理长期的时间依赖性 [10]。这与其他通用视频理解任务通常处理的只持续几秒钟至几分钟的短片段形成鲜明对比。

此外,解释手术视频需要专业的医学知识,这使得直接将通用视频理解模型应用于手术任务变得具有挑战性 [12]。最后,手术动作的精细程度以及区分不同阶段或步骤的微妙视觉线索增加了另一层复杂性。模型必须能够检测并解释手术领域中的小而关键的细节,通常在存在遮挡、反射和快速摄像机运动的情况下 。

最近,多模态学习作为一种在计算机视觉领域具有可行性的策略,将多种模态(如视觉数据、文本数据、音频、深度图等)集成在一起。其中,视觉语言预训练(VLP)利用大规模的配对视觉数据和无文本数据的数据集,可以减少对标注数据集的依赖,实现更高效、更有效的学习。通过VLP,模型可以学习到丰富的、泛化的表示,这些表示可适应各种下游任务,如图像文本检索,视觉问答,视频理解和zero-shot分类[31,32]。由于VLP对视觉内容与自然语言描述之间的复杂关系的捕捉潜力,它对手术领域尤其具有吸引力,因为手术过程中通常伴随着详细的文本报告或叙述。

近年来,研究行人开始探索将VLP技术应用于手术视频分析。一些显着的方法包括SurgVLP [33],该方法利用手术视频讲座及其文本记录来学习多模态表示,以及HecVL [34],该方法提出了一种零样本手术阶段识别的分层预训练框架。尽管这些方法已经显示出有前景的结果,但它们仍然面临一些局限。一个重要的挑战是缺乏大规模、多样化的手术VLP数据集。

GenSurgery数据集[35]的出现是一个进展,提供了大量手术视频。然而,这个数据集存在一些局限,如缺乏配对文本数据,音频质量不一致以及存在非信息性内容。作者的GenSurg+数据集通过严格过滤原始数据,添加高质量字幕并确保丰富的语言上下文来解决这些问题。

尽管有这样的进展,现有的方法仍然在时间建模方面存在不足,无法有效地捕捉手术视频中的长程依赖性。许多当前方法在新手术过程或预训练期间未见过的任务上的性能降低,表明其通用化能力有限。此外,大多数方法仅依赖视频-文本对比(VTC)学习,如图1所示,未能充分利用可能增强模型对手术内容和上下文理解的其他预训练目标。解决这些问题对于推动手术VLP领域的发展至关重要,并开发出更强大、更通用的模型来理解手术视频。

picture.image

为解决现有手术视觉语言预训练方法的局限性,作者提出了VidLPRO和GenSurg+,这是一个新颖的框架和数据集,用于研究机器人腹腔镜手术视频-语言基础模型。VidLPRO 基于视频语言预训练的最新进展,采用视觉 Transformer (ViT)作为视频编码器,BERT 作为文本编码器,以及多模态融合模块。作者的模型采用视频-文本对比学习(VTC)、视频-文本匹配(VTM)和遮挡语言模型(MLM)目标,以学习手术过程的细微、语境 aware 的表示,如图1所示。

作者还引入了GenSurg+,这是 GenSurgery 数据集 [35] 的增强版,包含 17 000 个 45 秒的腹腔镜机器人手术视频片段,这些视频片段使用了原始叙述和 GPT-4 生成的质量很高的字幕。在零样本手术阶段识别中, VidLPRO 在 Cholec80 [14] 和 AutoLaparo [36] 上都显著优于当前最先进的状态。更具体地说,在 Cholec80 上,它达到了 57.1% 的准确率和 32.1% 的 F1 分数,分别比 HecVL 提高 15.4% 和 5.8% 。

作者的消融研究证明了 VidLPRO 在不同帧采样率下的一致性,随着帧数增加,性能扩展有效地改变。这些结果强调了作者的预训练方法的有效性,GenSurg+ 的质量以及 VidLPRO 跨不同手术过程和任务泛化潜力的重要性,这对于开发适应不同手术环境的自适应 AI 系统至关重要。

2 Related Work

Vision-Language models

大多数视觉语言方法可以分为两组。一组专注于训练多模态编码器,另一组则专注于训练单一模态的视觉和文本编码器。

在手术领域,Surgical-VQA [44]、SurgicalGPT [45] 提出了针对视觉问答的多模态模型。Surgical-LVLM [46] 针对机器人手术中的基于视觉的地面问答,通过引入专门的视觉知觉拉普拉斯块来适配大型的视觉语言模型。

Surgical Video-Language Pretraining

近年来,将视频语言预训练(VLP)技术应用于手术领域是一种新兴的发展方向,这显示出了在提高手术视频分析方面的巨大潜力。这个新领域中 notable 的两种方法是 SurgVLP [33] 和 HecVL [34],这两种方法在将 VLP 方法适应到手术数据分析的独特挑战方面取得了重大的进步。SurgVLP [33] 采用对比学习目标来学习手术视频讲座的 多模态表示。

这种方法利用手术视频与转录音频的配对数据集,使用多个互补的自动语音识别(ASR)系统来生成文本标注。

在这个基础上,HecVL [34] 提出了一种专门为零样本手术阶段识别设计的分层视频语言预训练框架。这种方法通过结合多层次的文本监督来解决这个问题,即捕捉细致的动作和高级的手术概念。另一方面,VidLPRO 引入了超越对比学习的多种预训练目标,以捕捉更丰富多样的多模态表示。

Surgical Phase Recognition

手术阶段识别旨在自动识别和分割手术过程的不同阶段。传统的手术阶段识别方法通常依赖于手制品特征和经典机器学习技术。

然而,随着深度学习的出现,人们开始倾向于使用更复杂的模型来自动从原始视频数据中学习相关特征[13; 48]。

接着,许多一阶段方法[49; 50; 51]被提出来学习空间-时间特征。然而,一阶段方法无法捕捉长期的空间-时间依赖性。

为了解决这一限制,提出了一种两阶段解决方案,首先使用特征提取器提取空间或空间-时间特征,然后在这些特征的基础上使用时间模型来学习长期依赖性。

时间模型通常分为三类:循环神经网络(RNNs)[56],时间卷积网络(TCNs)[52; 57],和Transformer[58]。

3 Method

GenSurg+

为实现有效的手持和腹腔镜手术的视频语言预训练,作者提出了 GenSurg+,这是一个由手术视频与描述性字幕配对的规模庞大的数据集。

GenSurg+ 基于 GenSurgery 数据集 [35],该数据集最初作为公开的普通外科手术视频的最大数据集而引入。

Dataset Creation Pipeline

作者首先从原始的GenSurgery数据集中开始,该数据集包含了3100个涵盖28种不同手术过程的视频,总时长为680小时。作者的数据集创建流程涉及几个关键步骤,以细化并增强这个初始语料库:

音频过滤。作者首先过滤掉了没有音频内容,因为音频对于生成有意义的文本描述至关重要。

字幕提取。对于剩下的1800个带有音频的视频,作者采用了[59]的Whisper模型来提取字幕。这一步骤是必要的,因为许多视频由于其年代久远,缺乏可靠的YouTube自动字幕。

视频分割和过滤。作者将视频分割为45秒的片段,结果产生了大约18000个独特的片段。为了确保作者数据集的质量和相关性,作者进一步根据语言标准过滤这些片段。具体而言,作者删除了大约1000个含有单词数量过少或高度重复内容的片段。这一步骤有助于消除静音片段和信息不明确的音频(例如,背景音乐或噪声)。

字幕生成。对于剩下的17000个高质量的视频片段,作者使用[60]的GPT-4语言模型来生成描述性字幕。作者创作了一个专门的提示,以确保字幕简洁、有信息量且针对手术领域定制。请参阅附录了解提示。GenSurg+数据集创建的完整流程如图2所示。

picture.image

Dataset Statistics and Characteristics

生成的GenSurg+数据集包含17,000个45秒的视频片段,总时长213小时,这些高质量的手术内容配有描述性字幕。如表1所示,这使得GenSurg+成为专门为手术视频-语言预训练而设计的最大公开数据集,为该领域的研究提供了重要资源。

picture.image

GenSurg+ 是实现大规模视频-语言预训练在机器人腔镜手术中的重大突破。通过在手术领域中弥合视觉内容与描述性文本之间的鸿沟,这个数据集为手术辅助和分析中更先进和通用的AI模型奠定了基础。

VidLPRO

VidLPRO 框架是基于一个全面的视频语言预训练的综合框架,以应对手术视频分析的特定需求。

3.4.1 Model Architecture

作者的 VidLPRO 模型主要由三个主要部分组成:视频编码器(VE)、文本编码器(TE)和多模态融合模块(MFM)。架构旨在处理视频短片及其相关文本描述,为各种下游任务创建联合表示。

视频编码器(VE)。作者采用标准视觉 Transformer,特别是 ViT-B/16 [61],作为作者的视频编码器。ViT 模型通过受到 TimeSformer [62] 启发的分时空注意力机制进行增强,有效捕捉手术视频的时空动态。

这一选择使得模型能够同时处理多个帧并提取对理解手术过程至关重要的时空特征。对于一个视频短片 ,其中包含 个帧,视频编码器对这些帧进行处理,生成视频特征 :

图3 显示了 VidLPRO 模型架构和配置的概述。模型采用视觉 Transformer(ViT)作为视频编码器,BERT 作为文本编码器。多模态融合模块集成视觉和文本表示,而预训练目标如视频-文本对比学习(VTC )、视频-文本匹配(VTM )和 Mask 语言建模(MLM )确保对多模态表示的全面学习。

picture.image

在这里, 是一个线性投影, 是可学习的位置嵌入,分别编码空间和时间信息。ViT 编码器使用 BEiT [63] 权重初始化。

文本编码器(TE)。对于文本编码器,作者使用 BERT [64],一种用于自然语言处理的强大且广泛使用的 Transformer 模型。BERT 负责编码伴随手术视频的文本描述,例如字幕和翻译。

对于一个给定的文本描述 ,其中包含 个标记,文本编码器生成词向量 :

BERT 编码器使用 BERTbase [64] 权重初始化。

多模态融合模块(MFM)。多模态融合模块集成视觉和文本表示。作者采用视频-文本(V2T)多模态融合方案,使用交叉注意力向文本特征中注入视频线索。MFM 接受视频特征 和词向量 作为输入,并执行跨模态融合,生成联合视频-语言表示 :

其中 和 分别是视频和文本的位置嵌入,[CLS] 是专门用于分类任务的位置标记。输出 可分为 ,分别对应视频、全局和文本表示。

遵循先前的工作 [65, 66, 67],作者重用文本编码器并将其插入到文本编码器的前几层之间的交叉注意力操作中,位于自注意力(Self-Attention)和 MLP 之间。

3.4.2 Pretraining Objectives

作者使用三个预训练目标来学习鲁棒的 multimodal 表示:

视频-文本对比学习(VTC)。VTC 目标将视觉和文本表示在共享嵌入空间中进行对齐。对于一批 N 个视频-文本对,作者计算:

其中

在这里, 和 分别是通过应用一个投影层到 [CLS] 标记表示获得的视频全局和文本全局特征, 是余弦相似度,并且 是一个温度参数。

视频-文本匹配(VTM)。VTM 目标通过学习区分手头和不相匹配的视频-文本对来增强跨模式融合。

对于每个视频剪辑 ,作者考虑它的匹配描述 和一个随机选择的非匹配描述 。作者计算:

其中 是一个线性层, 是 [CLS] 标记表示, 是 sigmoid 函数。

Mask 语言模型(MLM)。

MLM 目标通过随机 mask 输入 token 的 50%(即创建 masked 版本 ),来提高模型对手术术语的理解。具体而言, 中的输入 token 随机 mask 50%, 是 mask 版的 D。模型然后预测原始 token:

其中 是一个线性层, 是一个 Mask 标记索引集合, 是模型预测正确标记的概率。

VidLPRO 的完整预训练目标是:

4 Experiments

为评估作者VidLPRO框架的有效性,作者在零样本手术阶段识别任务上进行了广泛的实验。

作者选择这个任务,因为它代表了视频语言模型在手术领域的具有挑战性和临床相关应用。作者的实验旨在评估VidLPRO学习到的表示在不同的数据集和手术程序中的泛化和鲁棒性。

Pretraining Setup

作者预训练VidLPRO在GenSurg+数据集上。对于每个45秒的剪辑,作者采样4帧以捕捉时间信息,同时保持计算效率。与多阶段的课程预训练方法不同,作者采用单阶段预训练协议,这简化了训练过程并导致了更高效的學習。视频编码器和文本编码器分别使用BEiT [63]和BERTbase [64]权重初始化。

预训练使用4块NVIDIA A100 GPU,并根据在Cholec80数据集子集上的评估 selecting the best pre-training checkpoint。表2中可以找到更多实现细节。

picture.image

Zero-Shot Surgical Phase Recognition

为评估VidLPRO的零样本学习能力,作者关注了两个广泛使用的手术阶段识别数据集:Cholec80 [14] 和 AutoLaparo [36]。这些数据集代表了不同的手术过程,并为作者的模型提供了全面的泛化能力测试。

Cholec80 [14]包括80个胆囊切除手术过程的视频,共标注了7个手术阶段。AutoLaparo [36]包含21个腹腔镜子宫切除手术的视频,分为7个阶段。

为了确保与前期工作的公平比较,作者将SurgVLP [33]和HeeVL [34]中使用的类提示进行了调整,使其更好地与作者的基于提示的预训练方法对齐。作者使用GPT-4将类提示转化为类似的提示,使用与生成作者预训练标题相同的提示模板。

这个过程确保了评估类提示与作者的预训练数据风格和内容相匹配,同时保持了每个手术阶段的必要信息。Cholec80和AutoLapro数据集使用的类似类提示可以在附录中找到。

作者将两个数据集的视频分割成45秒的片段,每个片段包含一个手术过程。然后作者每个片段采样4张图片,与作者的预训练设置相同。

对于零样本分类,作者使用预训练的文本编码器来提取类提示的表示,使用视频编码器来获取视频片段的表示。

分类是通过测量类提示表示和视频片段表示之间的余弦相似性来实现的,并将每个片段分配给具有最高相似分数的类。

Results and Comparison

作者将VidLPRO与几个 Baseline 进行了比较,包括SurgVLP [33],HecVL [34],以及HecVL [34]中报道的一些通用领域模型,例如CLIP [31]和MIL-NCE [68]。表3总结了VidLPRO在Cholec80和AutoLaparo数据集上的结果。

picture.image

结果表明,VidLPRO在这两个数据集上都达到了最先进的零样本性能,显著优于以前的手术VLP方法。值得注意的是,在传统计算机视觉数据集上预训练的通用领域模型CLIP和MIL-NCE在这些外科任务上的表现不佳。

VidLPRO在两个不同数据集和不同外科程序(例如胆囊切除术和子宫切除术)上的强大零样本性能,展示了由作者模型学习的视频语言表示的泛化能力。这强调了针对特定领域进行外科术前预训练的重要性,并突显了VidLPRO作为手术视频理解的基础模型具有巨大的潜力。

Ablation Study on Number of Frames

为了更深入地理解VidLPRO设计选择的影响,作者对推理过程中每段使用的帧数进行了消融研究。这些实验旨在在零样本手术阶段识别和权衡性能和计算效率之间的最优配置。

作者在推理时评估了VidLPRO的性能,使用的帧数为1,4,8,16,32和45帧。这一范围使作者能够理解模型性能如何随时间信息增加而扩展。表4展示了这些实验在Cholec80和AutoLaparo数据集上的结果。

picture.image

实验结果表明,在推理过程中增加帧数通常会导致性能提升。这是预期的,因为更多的帧提供了手术过程更丰富的表示,从而允许更精确的相位识别。当作者增加采样帧数时,性能仍然 improved。当采样45帧时,改善的余地变大,说明VidLPRO可以有效地利用现有时间上下文。然而,性能提升伴随着增加计算成本。

在考虑这些权衡后,作者推荐将推理过程中使用4帧作为一个平衡配置在大多数应用中。使用4帧,VidLPRO仍然显著优于以前的最先进方法,同时保持合理的计算需求。值得注意的是,在使用推理过程中只使用单一帧的情况下,VidLPRO仍然实现了最先进性能,突显了预训练表示的鲁棒性。

5 Conclusion

本文提出了VidLPRO,一种新的视频-语言预训练框架,用于手术视频,该框架首先将单模态视频和语言表示进行对齐,然后使用多模态模块进行融合。作者的方法旨在解决现有手术VL预训练方法中多模态表示匮乏的问题,这些方法仅依赖对比学习。

通过将视频-文本对比学习、视频-文本匹配和 Mask 语言建模作为预训练目标,作者的模型更有效地捕获了复杂的时序动态并使视频与语言对齐。

此外,为了预训练VidLPRO,作者引入了GenSurg+,这是通过使用生成式文本GPT-4生成的17k对配对的GenSurgery的扩展版本,基于原始叙述生成的字幕。在两个基准数据集上的实验结果证明了作者的方法在零样本阶段识别任务中的性能优于最先进的方法。

此外,作者对推理帧插值的消融研究揭示了VidLPRO的鲁棒性和可扩展性,即使使用单帧输入也能实现优越的性能。这种灵活性使得在保持高精度的条件下适应各种计算约束成为可能。

最后,这些结果为更先进的AI辅助手术系统奠定了基础,这些系统可以根据各种手术适应不同的程序,需要进行最少的任务特定训练,从而在性能和效率之间实现关键平衡,以实现实时的外科应用。

参考

[1].VidLPRO: A Video-Language Pre-training Framework for Robotic and Laparoscopic Surgery.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论