SAM-OCTA2 一种高效的OCTA图像层序列与投影分割方法 !

图像处理关系型数据库云安全

picture.image

指示性目标的分割有助于对光学相干断层扫描血管造影(OCTA)样品的精确分析。

现有的分割方法通常在2D投影目标上运行,这使得通过3D体积捕捉被分割物体的变异性的挑战变得困难。

为了应对这一限制,采用了低秩自适应技术来微调Segment Anything Model(SAM)版本2,使得可以跟踪并跨越OCTA扫描层序列对指定物体进行分割。

为了进一步推广这项工作,作者提出了一种提示性点生成策略在帧序列中,以及一种稀疏标注方法来获取视网膜血管(RV)层 Mask 。

这种方法被称为SAM-OCTA2,并在OCTA-500数据集上进行了实验。

该方法在常规2D正面和扫描层序列上分割黄斑中心凹无血管区(FAZ)方面实现了最先进的性能,同时有效地跟踪扫描层序列中的局部血管。

代码可在本https://github.com/ShellMedia/SAM-OCTA2。

I Introduction

OCTA(光学相干断层扫描)是一种关键技术,用于可视化视网膜血管系统,特别是微血管结构和血流动力学[1]。它提供了眼球结构和疾病详细的无创成像,已经广泛应用于分析并诊断近视相关的眼病,如年龄相关性黄斑病变,分支的视网膜静脉阻塞,糖尿病视网膜病变和青光眼。OCTA通过堆叠B扫描获取深度信息,同时通过层切片创建表面视图[6]。

在OCTA中分割RVs和FAZ对于评估视网膜健康和诊断疾病至关重要。已经开发了大量的基于深度学习的分割方法,它们表现出了强大的性能。现有方法可以根据输入格式分为2D和3D类型。2D方法接收单或多个横截面投影图像,在处理效率和轻便设计方面具有优势。3D方法使用完整的体积输入,执行更好的分割,但需要更高的计算资源,如时间和内存。然而,受标注限制,这两种类型的方法目前预测目标为表面视图或B扫描投影。

SAM(自注意力机制)是最强大的基础零样本分割模型[14]。通过再训练或微调方法,SAM已应用于医学图像,并取得了显著的性能。SAM 2是SAM的一个扩展版本,适用于视频分割任务[17]。借助视频的任何帧的提示,指定感兴趣的目标,它可以全帧序列中分割目标。通过微调的SAM-OCTA有效地分割了En-face OCTA图像中的局部血管,证明了将SAM 2应用于OCTA数据的可行性[18]。

作者发现OCTA的样本层扫描结构与SAM 2的帧序列输入相匹配。受此启发,作者称为作者的方法SAM-OCTA2,并总结如下贡献:

  1. SAM 2微调使用了低秩自适应(LoRA)技术,使其能够跨层序列有效地进行局部RV或FAZ分割。
  2. 提出了一种相应的提示点生成策略,用于识别和指示局部目标。
  3. 设计了一种稀疏标注方法,用于为OCTA体积样本提供层RV标注。

II Related Work

OCTA Segmentation Models

对于大多数OCTA语义分割模型,都采用了定制的模块和处理策略来适应生物标志物的分布和形状,尤其是视网膜毛细血管(RVs)。自注意力机制和 Transformer 层由于能够捕获长程相依性和全局连接性,非常适合RV分割,这对准确模拟RV的复杂分支结构是必要的[19]。为处理不同的形状和大密度的分布,OCTA-Net,FARGO,ARP-Net等方法引入了注意力模块,实现对视网膜中大型和细小血管的精确分割。一些其他的方法对数据平衡、参数约减和细节保留进行了优化,通过使用先进技术在OCTA数据集上实现 promising的分割结果[26, 27, 25, 28]。这些方法表明,OCTA深度网络广泛采用改良的 Transformer 层并取得了准确分割RV和FAZ的出色结果。

SAM 2 and Parameter-Efficient Fine-tuning Techniques

SAM2作为基础分割模型,已经在超过50,000个视频样本上进行了预训练。其零样本特征允许通过限制提示轻松实现转移到各种应用。尽管SAM2在常规帧序列的语义理解方面表现出色,但要将其适配用于OCTA特征提取,仍然需要进行细微调整。一种理想的细微调整方法应该实现两个目标:提高OCTA分割性能,同时保持先前模块的合作。因此,插入 Adapter 层或使用LoRA等参数高效微调技术是切实可行的选择[29, 30]。

III Method

在本文中,作者提出了SAM-OCTA2,该模型通过微调预训练的SAM 2与OCTA数据集。该模型在正面投影和层序列图像中均能进行灵活的OCTA分割,微调过程如图1所示。SAM由图像编码器、灵活的提示编码器及快速的 Mask 解码器组成,以支持提示条件输入。SAM 2在SAM中引入了记忆库和记忆注意力两个模块,以整合多帧信息。

picture.image

Fine-tuning of SAM 2

图像编码器使用堆叠 Transformer 层从输入帧中提取语义信息,这非常适合光学相干断层扫描(OCTA)图像。提示编码器将输入提示(点、边界框、 Mask )编码为条件向量,以指示图像序列中的分割目标。在本研究中,仅使用点提示以简化。Mask 解码器将图像序列、提示和记忆特征的嵌入映射到分割 Mask 。输出 Mask 用于计算损失,并传递到记忆库进行多帧特征融合。内存库使用FIFO队列存储来自 Mask 解码器生成的多个帧,以便保留过去的预测和提示信息。记忆注意力模块通过堆叠 Transformer 块将当前帧的特征与内存库中存储的过去特征融合。它通过计算每个帧的 self-attention 和不同帧之间的 cross-attention 进行特征融合。

每个模块中可训练参数的比例在原始 SAM 2 的 Baseline 配置中如下量化:图像编码器:85.703%,提示编码器:0.007%, Mask 解码器:5.227%,内存注意力:9.063%。只有图像编码器在LoRA上进行微调。

因为 LoRA 包含大多数参数 [30]。首先将原始 SAM 2 的所有可训练参数冻结,然后将 LoRA 模块的块作为侧分支添加到图像编码器的 Transformer 层中。

LoRA 模块的块是轻量级的线性层,占整个模型参数的1.68%,只在微调期间更新 LoRA 参数。

Prompt Points Generation Strategy

SAM 2的提示点主要包括四个要素:帧(frame)、目标(object)、类型(type)和坐标(coordinate)。这些要素描述了提示点如何在图像序列中跟踪指定目标。生成OCTA样本的提示点过程如图2所示。作者首先选择一个或几个帧,并找到所有选定帧中出现的目标目标作为分割目标。提示点的坐标依赖于其类型。如果提示点为正,坐标将在目标像素内采样。如果为负,则坐标选择为目标的周围区域,该区域使用膨胀操作计算。此外,在正负区域之间设置3像素宽的分离间隙以减少歧义。

picture.image

在这项工作中,RV和FAZ被分段在连续扫描层的en-face OCTA图像中,每层对应于图像序列中的一帧。在不同层中识别相同目标至关重要。FAZ对于样本是唯一的,不需要任何额外处理。

对于RV分割,每个可见的血管或血管团都是独立区分的。同一血管在多层之间的厚度和位置几乎一致,只有可见长度有所变化。利用这一特性,每个血管可以使用基于en-face投影RV标注的连接组件计算进行标记。

由于扫描层的分割不遵循解剖结构,一个目标可能被分散到多个连接组件中。每个连接组件在生成过程中至少包含一个提示点。

Layer Annotation of Retinal Vessel

当前的OCTA数据集缺乏RV(肾静脉)的层分割标注,因此作者设计了一种稀疏标注方法来弥补这一缺口,如图3所示。在一个OCTA体积样本中,大多数扫描层要么是空白,要么缺少血管,所以作者筛选并弃除了空白层。然后,作者将所有保留的层进行了汇总,并随机采样了1000层进行手工标注,这些注

picture.image

IV Experiments

Dataset and Settings

作者使用的SAM-OCTA2部署在一个配备80GB内存的A100显卡上。所使用的优化器是AdamW,学习率为,损失函数为Dice损失。训练和测试集的划分遵循IPN-v2的配置[10]进行比较。

对于正面投影图像分割,将结果与以前的工作进行比较,而在层序列分割阶段,由于缺乏现有相关研究,仅进行了消融研究。在序列训练阶段,从同一OCTA样本的扫描层中以等间隔选择输入帧,帧长从4到8不等。从采样帧中,选择1到3帧生成提示点,优先顺序为第一帧、最后帧和中间帧。

每个分割中只有一个目标带有提示点,标记为1到10的阳性点和0到6的阴性点。评估指标平均应用于帧序列中所有目标的分割结果。

Results

本文使用了指标Dice和Jaccard来进行区域划分。其中,Dice(hatY,Y)和Jaccard(hatY,Y)的计算公式如下:

picture.image

其中,Y和代表真实值和预测值。

在之前的研究中,RV和FAZ在正面投影标签上的分割是常规任务,作者在表1中总结了比较结果。这些引用的工作已经进行了详细的实验,并更有针对性地适用于本研究[8, 10, 18, 21]。可视化结果呈现如图4所示。作者的方法在正面投影图像上的目标分割非常精确,并接近最先进的全面性能。对于层序列分割,作者选择四种条件:帧长度,提示帧和正负点, Baseline 设置中的值为4,2,5和3。在消融研究中,每个条件单独修改,结果如表2所示。

picture.image

picture.image

picture.image

在部分帧上输入的提示点可以基本上实现整个层序列中目标的定位和分割。与正面投影任务的结果类似,对于3M子集层序列分割,分割更容易实现。然而,这两种任务上的FoV对目标类型的影响正好相反。层扫描更方便地将RV分成多个部分,导致分割性能降低。分割破坏了分割细节,如边界和连接性。随着输入提示信息增加,包括提示帧和提示点,分割性能通常提高。一个意外的结果是,增加输入帧长度在不需要额外提示信息的情况下提高了FAZ分割。

picture.image

V Conclusion

作者提出了一个名为 SAM-OCTA2 方法,用于OCTA体积或单张图像的层序列和投影分割。在最少的提示输入下,SAM-OCTA2 可以在2D或体积空间中跟踪OCTA数据中的局部目标。

作者认为这是一种灵活且非常有前途的方法,有助于光学疾病的诊断和样品的3D结构重建。

参考

[1].SAM-OCTA2: Layer Sequence OCTA Segmentation with Fine-tuned Segment Anything Model 2.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论