点击下方卡片,关注「AI视界引擎」公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
精确的血管分割对于冠状动脉可视化和冠心病诊断至关重要。该任务涉及从体积空间中提取Sparse的树状血管分支。然而,现有方法由于血管分割不连续和端点缺失而面临重大挑战。
为解决这一问题,作者引入了一种名为ViG3D-UNet的3D视觉图神经网络框架。该方法在U形架构中集成了3D图表示和聚合,以促进连续的血管分割。ViG3D模块捕获体积血管的连接性和拓扑结构,而卷积模块提取精细的血管细节。
这两个分支通过通道注意力机制结合,形成编码器特征。随后,一个纸夹形状的偏移解码器在Sparse特征空间中减少冗余计算,并将特征图大小恢复到匹配原始输入维度。
为了评估所提出方法在连续血管分割方面的有效性,作者在两个公开数据集AsOCA和ImageCAS上进行了评估。
分割结果表明,ViG3D-UNet在保持血管分割连续性的同时,实现了高分割精度,超越了竞争方法。作者的代码即将公开。
从 CTA图像中提取血管网络为关键本研究部分由国家自然科学基金(编号62201156)和上海市科学技术重大项目(编号2021SHZDzx0103)资助。 本研究还得到复旦大学人工智能与机器人工程研究中心和教育部人工智能与机器人工程工程研究中心的支持。该研究的计算工作是在复旦大学CFFF平台上完成的。
冠状动脉狭窄定量分析的基础,并确保高置信度诊断。在进行血管3D重建之前,对冠状动脉进行精确的体积分割对于观察血管空间信息至关重要[3]。与通常表现为团块或聚集体的腹部器官不同,冠状动脉和颅内血管等血管在体积空间中呈现为树状或管状结构[4]。这一特征导致血管整体呈现Sparse性,但在血管分支处却密集且连续,这使得精确的血管分割具有挑战性。
近年来,在管状结构检测方法方面取得了显著进展,特别是在血管分割领域。基于学习的自动分割方法[5][6]在器官分割任务中表现出色,这得益于语义分割领域深度学习的重大突破。随着卷积神经网络(CNN)从二维向三维的演进,端到端三维血管分割[7]现已被认为可行。注意力机制[8]的引入以及视觉Transformer(ViT)[9]模块的应用,使得模型能够学习不同横截面切片之间器官的相关性。此外,结合图神经网络(GNN)[4][10]的研究表明,利用目标目标的几何结构可以显著提升分割性能。最近,大语言模型在医学图像分割[11]方面的成就增强了分割模型在二维和三维分割任务中学习各种器官形态、连接性和位置先验的能力。
现有大多数通用医学图像分割模型在血管分割中表现出显著的拓扑错误,如图1所示,其特征为主要血管结构的碎片化和远端分支的遗漏。这些挑战主要源于三维血管图像的三个固有特性:(1)血管网络的空間Sparse性,(2)远端血管的体积减小[12],以及(3)边界定义不明确[13]。这些局限性进一步加剧了传统模型无法同时处理管状几何先验和微血管对比度变化的能力。首先,U-Net框架及其变体难以捕捉拓扑结构和模糊边界中的所有Low-Level特征[14],这通常导致细小分支和复杂形态分割结果出现断裂。其次, Voxel 分割通常采用块作为输入,因为深度学习网络的高计算需求[9][15]。这种基于块的方法经常忽略从主干到分支的血管拓扑先验知识的整合。此外,与腹部和胸部器官的CT医学图像相比,三维管状结构数据集的可获得性有限,尤其是冠状动脉CTA数据。冠状动脉数据不足使其不适用于训练或微调用于三维血管分割任务的大语言模型。因此,开发一种在血管结构中表现准确的提取方法被认为是一个重大挑战。
本研究提出了一种基于三维视觉图(3D Vision Graph)的U形神经网络(ViG3D-UNet)框架,用于冠状动脉的连续分割。编码器集成了视觉图神经网络(Vision GNN)以提取拓扑结构,以及三维卷积神经网络(3D CNN)以捕获纹理特征。这些特征通过通道注意力模块进行精炼和融合,随后由一个偏移解码器进一步处理,该解码器设计用于增强血管分割结果的时空连接性。首先,构建了三维视觉图神经网络(ViG3D)模块,以建立图表示,从而提取空间血管连接性和拓扑结构。随后,采用三维卷积模块捕获血管上下文特征,作为与ViG3D模块并行的编码器。最后,使用一个形状独特的纸夹式偏移解码器,以精确重建分割结果中的高维血管结构和纹理特征。该方法通过在两个公开的冠状动脉计算机断层扫描血管造影(CTA)数据集上进行实验进行验证,评估了该方法在血管分割任务中的完整性和一致性。
总之,作者的贡献如下:
提出了一种三维图表示模块ViG3D用于 Voxel 分割,有效确保血管分割结果中的连通性和连续性。
提出了一种回形针形状的偏移解码器用于整合ViG3D和三维卷积神经网络特征,减少与三维操作相关的计算冗余,并提高这些网络类型之间的协同作用。
在两个公开数据集上的评估表明,在保持准确性的同时,分割连通性得到了显著提升。
A. 3D网络用于分割
随着U型 Shortcut 网络[5]的发展,基于CNN的对称编码器-解码器结构[16]已成为医学图像分割的主流方法。在基于CNN的网络中,采用更深层次的结构[17]和更密集的层间连接[18]来提升分割算法的性能。注意力机制[19]被引入以更有效地聚合上下文信息。尽管基于CNN的网络提升了分割精度[7], [20],但CNN模块仍无法充分提取足够的上下文信息。单个CNN模型被认为不足以解决血管分割任务中固有的空间Sparse性和拓扑连续性。
由Transformer驱动的视觉Transformer(ViT)由Dosovitskiy等人[21]为图像任务开发。由于能够处理长距离依赖关系,Transformer方法在分割方面表现出色。Unetr是一种用于3D医学图像分割的Transformer框架,由Hatamizadeh等人[15]首次提出。Valanarasu等人[22]将门控轴向注意力引入ViT中,以提高计算效率。
Swin Transformer采用移位窗口机制来降低3D分割中的计算复杂度,由Hatamizadeh等人[9]提出。然而,Transformer网络训练需要大量数据集,而血管分割数据集尤为稀缺,这对ViT在体积血管分割中的应用提出了挑战。
B. 管状结构图表示
血管通常呈现管状结构。研究行人[23]-[25]提出了多种方法来利用这一先验信息,包括管状结构的几何形状和特征。Wolterink等人[23]通过跟踪血管中心线引入了一种冠状动脉追踪器。Jiang等人[24]将冠状动脉建模为圆 Pillar 结构,并提出了一种基于方向的追踪方法,以增强从CT图像中进行冠状动脉分割的连通性。Wang等人[25]指出管状结构可以看作是一系列球体,并提出了一种针对管状结构分割的几何感知深度距离变换网络。Mou等人[26]开发了CS2-Net,这是一种结合了自注意力机制的曲线结构分割网络。Pan等人[12]提出了一种基于能量匹配的分割框架,并引入了基于能量的损失函数来捕捉长期血管几何信息。利用管状先验信息可以提高分割精度,然而,在分割任务中很难保证连续性。
Pipeline 状结构可以进一步抽象为图数据,其中 Pipeline 表示边,分支点表示顶点。Han等人[27]引入了图卷积用于视觉任务,并提出了视觉GNN。Meng等人[28]构建了一个基于GNN的深度学习框架,包含多个图推理模块,以利用区域和边界特征。然而,传统GNN天生适用于平面数据,不能直接应用于空间数据。Antonio等人[29]通过用图卷积替换最深的卷积层,设计了用于气道分割的UNet-GNN架构。Li等人[4]提出了一种图注意力网络来建模肝脏血管的图形连接信息。
Zhao等人[30]提出了一种两阶段级联分割模型。第一阶段使用基于CNN的方法建立血管图,第二阶段采用图卷积来细化冠状动脉分割的结果。3D血管图像包含密集堆积的 Voxel ,使得难以从原始3D数据直接构建血管图。图网络分割通常涉及两个步骤:图构建和分割。因此,基于图的分割框架本质上具有两阶段,进一步增加了训练和应用的复杂性。
C. 血管分割的特征融合
在血管分割任务中,血管的纹理和拓扑结构是至关重要的特征。然而,当单独训练深度模型时,这些特征之间的关系往往被忽略。Zhang等人[31]将语义信息引入Low-Level特征,并将高分辨率细节引入High-Level特征以进行语义分割。Nagaraj等人[32]提出了一种用于医学图像分割的多路径特征融合方法。Wu等人[33]设计了一种尺度和上下文敏感的网络来捕获视网膜血管的代表性特征和区分性特征。由于图网络和CNN之间特征尺度和形式的差异,将密集3D CNN特征与Sparse图网络特征集成的方法尚未得到发展。
为解决空间血管分割任务,该任务要求目标 Voxel 具有空间连续性和拓扑一致性,作者提出了一种基于三维视觉图的三维U形框架ViG3D-UNet。整体框架如图2所示,其设计类似于U形网络,采用编码器-解码器配置。该框架由并行双分支编码器、通道注意力模块和独特挂钩形状的偏移解码器组成。与传统的两阶段串行级联图网络方法[30]不同,该框架采用双分支并行编码器,以同时整合血管纹理和拓扑信息。两个编码器分支分别包含三维卷积神经网络模块[7]和三维视觉图神经网络模块。
ViG3D模块作为空间网络模块,通过血管连通性特征的图聚合实现端到端训练。血管纹理特征由CNN模块提取,而拓扑特征由ViG3D模块捕获。通道注意力模块通过整合这两种数据类型来丰富血管特征。为提高计算效率,在上采样过程中使用挂钩形状的偏移解码器,将纹理特征与拓扑特征相结合。关于方法的更多细节将在下文提供。
A. 3D视觉GNN模块
三维视觉图神经网络模块是编码器分支之一,用于提取血管连接特征。最初,使用主干模块来降低数据的维度和样本的血管节点,如图3(a)所示。然后,将这些输出添加位置嵌入,并由ViG3D模块进行处理。在该模块中,特征经过图聚合,转化为图特征。图表示与前馈算子相结合,为ViG3D模块中血管图表示的核心结构。每个ViG3D模块重复
次,随后通过下采样算子形成单层ViG3D单元。金字塔ViG3D模块的编码器分支通过对每个特征尺度重复每个ViG3D单元
次来构建。
主干模块由三个卷积层组成。前两层,每层步长为2,有效将输入的高度和宽度维度减半。最后一层,步长为1,进一步聚合像素级特征。因此,主干模块的输出特征维度被缩减为
和
,其中
和
分别表示输入图像的原始高度、宽度和深度。这种维度降低减少了后续3D视觉GNN模块的计算负载,并促进了密集 Voxel 向离散形式的转换,从而优化了基于图的方法。
ViG3D模块由两个阶段组成,如图3(b)所示:3D图处理和前向网络。在图处理阶段,输入特征被视为一组无序的顶点,表示为
mber o o
在
中识别出顶点
的邻域顶点。因此,边
从节点
形成到其每个邻域 Voxel
。属于同一分支的血管节点表现出更高的距离度量。这种图表示在图卷积操作期间增强了相邻血管节点之间的信息传递。一旦图表示完成,每个输入特征图的图
被建立。对于给定的输入特征
,图表示过程随后称为
。图卷积操作
可以表示为:
图2. ViG3D-UNet架构概述。编码器由一个3D视觉GNN模块和一个3D CNN模块组成。这两个模块在通道注意力模块下并行组合。通过通道注意力获得的融合特征与编码器第一层和第三层特征进行拼接,随后通过3D卷积得到的特征与解码器最后两层通过 Shortcut 进行拼接,形成解码器特征。
在图卷积过程中,
和
分别表示聚合和更新操作。这些算子由可学习参数
和
[34] 参数化。
随着血管图的建立,采用三维图聚合方法提取三维管状结构特征。对于每个单独的节点
,三维图聚合将合并来自周围空间邻域的节点特征。从输入特征
获取聚合特征
的过程可以描述为:
表示节点
的邻接节点集合。图聚合特别采用最大相对图卷积
实现,因其已在视觉任务中展现出优越性能,如 [35] 所示,表达式为:
对于输入特征
,图处理阶段可以表示为:
连接同一分支内血管节点的边增强了特征的表示,从而提高了该血管分支分割结果的连续性。
在图卷积的背景下,输入和输出阶段均采用两个多层感知器,将节点特征映射到一个统一的域中,从而增强特征的多样性。对于输入特征
,图处理阶段的ViG3D模块可以表示为:
其中
,
和
分别表示多层感知器(MLP)的输入权重和输出权重。激活函数
采用GeLU [36]实现。
图处理阶段后,通过 FFN 进行特征变换。每个节点由一个包含两个全连接层的额外多层感知器进行进一步处理,该感知器增强了同一分支内节点之间的连接。三维图处理和前馈阶段共同构成ViG3D模块,即三维视觉GNN编码器的核心单元。
B. 并行编码器
编码器包含两个并行化的金字塔分支:一个分支集成了CNN模块,另一个分支集成了ViG3D模块。表1详细说明了该双分支编码器的设置,其中
为特征通道维度,
为卷积步长,
为 FFN 中的卷积层数量,
为图表示中的邻居数量。在CNN模块中,使用3D卷积算子作为 Backbone 结构,以捕获冠状动脉图像中的局部纹理信息。该模块包含六层,设计用于在不同分辨率下提取特征:3D卷积算子增加特征维度,而下采样算子减小特征尺寸。在ViG3D模块中,干路块包含Enc_1和Enc 2中的卷积层,最终层由一组ViG3D块堆叠而成。
通道注意力模块用于融合CNN分支和ViG分支的血管纹理和拓扑信息。如图2所示,从Enc_3到Enc_6的CNN和ViG分支特征图被选取以整合血管连通性和纹理信息用于分割。首先,CNN分支特征
与ViG分支
进行拼接,生成
,随后经过一系列变换,包括平均池化、多层感知机以及Sigmoid激活函数,最终生成通道注意力图
。该注意力图与组合特征
在元素 Level 相乘,有效加权每个通道以突出相关血管信息,同时削弱无关细节。通道注意力模块的输出为
。通过通道注意力机制增强后的这些特征包含了更丰富的语义和拓扑信息,从而提高了其适用于解码过程的适用性。
C. 偏移解码器
由于编码器上的大多数算子都是三维的,直接通过 Shortcut 将编码器特征传递给解码器可能会引入计算冗余。所提出的解码器与传统U形解码器不同,它不依赖于单个编码器进行 Shortcut 。相反,如图2所示,它将三维CNN模块的纹理特征和通道注意力模块的融合特征作为纸夹形偏移解码器的主要输入。纹理特征从编码器卷积分支的前两层提取,并输入到解码器的后两层,而融合特征源自ViG3D和三维CNN模块的最后四层,并指向解码器的前四层。解码器的每一层都采用两个卷积层来处理连接后的特征,利用卷积、实例归一化[37]和ReLU激活。每个解码器块以一个
卷积开始,然后通过转置卷积实现上采样。
A. 实验设置
- 数据集与描述:用于MICCAI2020挑战赛[38]的冠状动脉自动分割(ASOCA)数据集是一个公开可访问的数据集,专门用于冠状动脉分割。该数据集包含40张标注的胸部CT图像,初始分辨率为
,其中
的范围为168至334。该数据集策略性地分为30个样本用于训练和10个样本用于测试,专注于体积血管分割任务。
表1 并行化编码器详细设置
ImageCAS数据集,题为《冠状动脉分割的大规模数据集和基准》[39],是一个包含1000名被诊断为冠状动脉疾病患者的3D CTA图像的综合集合。该数据集特别包括了在诊断后90天内接受早期血运重建的患者,提供了关于治疗后的冠状动脉解剖结构的有价值信息。每张图像的特征尺寸为
,其中
的范围为206至275。平面分辨率在0.29至0.43
之间变化,而切片间距在0.25至0.45
之间变化。该数据集策略性地划分为800个样本用于训练和200个样本用于测试,便于进行稳健的模型验证。
- 实现细节:ViG3D模块中邻居节点的最优超参数通过调整图表示的节点数量,主要评估方法的性能来确定。此外,通过消融研究验证了ViG3D的结构,具体细节将在以下章节中提供。
所提出的模型在ASOCA和ImageCAS数据集上进行了1,000个epoch的训练,每个epoch包含250次迭代。作者使用了SGD优化器,并配合多项式衰减调度器,初始学习率为
,在50,000次迭代内以
的速率衰减。在两个数据集上的实验中,采用了五折交叉验证策略。批处理大小设置为2,输入 Patch 维度为
。网络实现使用PyTorch完成,并基于nnUNet框架[7]进行训练。所有模型均在两块Tesla A100 40G GPU卡上从头开始训练。分割模型使用了组合损失函数,包含Dice损失和交叉熵损失两个部分,定义如下:
其中
表示解码器层
的损失,权重系数
和
设置为 0.5。为了缓解梯度消失问题,对最后五个解码器应用了深度监督损失 [40],从解码器 6 到解码器 2 的损失权重依次减半。
- 性能指标:Dice相似度系数(DSC)用于衡量分割结果的准确性,通过评估预测分割图与实际分割图之间的重叠程度来定义,具体表示为:
其中
(真阳性)表示正确识别为冠状动脉类别的像素数量,
(假阳性)表示错误识别为冠状动脉类别归属的像素,而
(假阴性)表示错误识别为背景类别的像素。DSC指标反映了模型捕捉冠状动脉结构的能力。
平均对称表面距离(AssD)和Hausdorff距离(HD)95%被用于评估分割结果与真实值之间的边界一致性。AssD是根据平均表面距离计算的,而HD95返回Hausdorff距离测量值中95%分位数的最大值。ASsD和HD的公式定义如下:
和
分别表示预测分割和真实分割的表面点集。
和
表示表面
和
中的点数。
表示表面
上的点
到表面
的最小欧几里得距离。
是表面
中任意一点到表面
最近点的最大距离,而
是表面
中任意一点到表面
最近点的最大距离。
此外,还选择了IoU(IoU)、精确率和召回率作为评估指标。IoU 作为辅助指标用于评估分割的准确性。精确率表示算法在分割结果中保持连通性的能力,较高的精确率值意味着更好的连通性。召回率强调算法检测所有血管区域的能力,反映其覆盖率。较高的召回率表明模型成功识别了大部分血管分支。这些指标的定义如下:
召
回
率
更高的DSC、IoU、精确率和召回值以及更低的ASSD和HD95表明性能更优。
B. yinqing-ViG3D-UNet_2504的分割性能
在ASOCA和ImageCAS数据集上分别进行了五折交叉验证实验。综合评价指标如表2所示。在小规模ASOCA数据集中,DSC、ASSD、HD95、IoU、精确率和召回率的平均值分别为84.23%、1.85、13.39、73.06%、90.39%和79.65%。图6的最后一列展示了ViG3D-UNet在四种情况下的视觉分割示例。在大规模ImageCAS数据集中,平均DSC、ASSD、HD95、IoU、精确率和召回率分别为81.72%、2.41、15.21、69.40%、83.16%和80.79%。图7的最后一列展示了ViG3D-UNet在四种情况下的视觉分割示例。定量和定性结果均表明,所提出的模型实现了卓越的分割性能,并保持了良好的血管连通性。值得注意的是,在小样本数据集上,yinqing-ViG3D-UNet_2504实现了更好的平均指标,且标准差更低。这反映了当训练数据有限时,所提出方法具有显著的分割性能。
C. 消融实验
在ViG3D模块的图构建阶段,血管节点的数量决定了聚合范围。邻居数量不足会阻碍有效的信息交换,而过多则会导致过度平滑[27]。因此,选择合适的邻居节点数量(用
表示)对于保持3D血管结构分割中的连通性至关重要。如图4所示,当
从3调整到32时,当
设置为7时,模型实现了最高的DSC值81.72和最小的HD95值15.21。这表明
值过高或过低都无法在冠状动脉分割任务中实现最佳性能。在
时,模型达到了其最高的空间表征能力。
表2 ASOCA 和 IMAGECAS 数据集上冠状动脉血管分割性能指标
除了邻近节点的数量外,ViG3D模块的数量(记为
)对于捕获血管分支的详细信息也至关重要。参数
影响单层特征图内的聚合效率,而ViG3D模块的数量
则影响多层特征图之间的连接性。较大的
意味着更广泛的搜索连接血管 Voxel 的范围。为了平衡3D图聚合的范围和效率,必须确定堆叠的ViG3D模块层的最佳数量。通过实验不同规模的模型(从小到大),检验了不同数量的ViG3D模块的影响。具有不同数量ViG3D模块的网络分割性能如表4所示。当ViG3D单元层的数量配置为2、4、16和2时,实现了最佳的DSC和HD95性能。
ViG3DUNet中结构模块的有效性通过一系列结构消融研究进行评估。DSC和HD95值如表4所示。首先评估了排除ViG3D模块的模型的分割性能。没有ViG3D模块时,模型仅依赖3D卷积操作,实际上退化为nnUNet [7]。与包含ViG3D模块的网络相比,DSC值降低了0.61,HD95值增加了2.39。与STUNet [17]相比,没有ViG3D模块时,模型的整体性能下降。
表3 在ImageNet数据集上与不同ViGD单元的性能比较
随后对并行化编码器中的通道注意力(Channel Attention,CA)模块进行了消融研究。在移除通道注意力的情况下,编码器直接将CNN和ViG模态的特征进行拼接。如表4第二行所示,DSC值下降了0.51,而HD95值上升了1.88。这导致其性能与使用通道注意力模块的网络相比不具备竞争力,突显了其对提升ViG3DUNet性能的重要性。
表4 在IMAGECAS数据集上结构消融的性能比较
最后,分析了不包含偏移解码器(Offset Decoder,OD)机制的分割性能。如表4所示,消融模型在性能上劣于所yinqing-ViG3D-UNet_2504,DSC值降低了1.16,HD95值增加了3.13。与其它方法[7],[17]相比,不包含偏移解码器的模型也观察到明显的性能下降。这表明ViG3DUNet中更密集的 Shortcut 阻碍了分割性能的提升。消融实验验证了网络中每个模块的重要性。
D. 性能比较
在AsOCA和ImageCAS数据集上进行了实验,以评估ViG3D-UNet相对于四个领先分割模型的性能。nnU-Net [7]是一种基于深度学习的医学图像分割的自配置方法,以其在不同任务中无需手动调整即可取得优异性能而著称。STUNet [17]因其与ViG3D-UNet相当的模型权重规模而被选择,它是一种迁移学习网络,具有可扩展和可适应的U-Net参数。UNETR [15]采用了一种混合架构,结合了Transformer编码器和卷积解码器。SwinUNETR [9]使用Swin Transformer [41]作为特征提取的编码器,成为医学Transformer分割中的一个重要基准。为确保对每个模型能力的公平评估,所有方法中均尽量减少了后处理的使用。
表5 在ASOCA和IMAGECAS数据集上与最先进算法的性能比较
与当前最先进方法进行定量比较的结果如表5所示。在AsOCA数据集上,所yinqing-ViG3D-UNet_2504达到了DSC为
,HD95为13.39,IoU为
,精度为
,召回率为
。HD95和精度指标在所比较的方法中表现最佳,其中HD95比第二优模型低3.44,精度高2.03。HD95指标表明所yinqing-ViG3D-UNet_2504与真实标签的边界差异最小,显示出分割结果中更优的连通性。精度指标表明所yinqing-ViG3D-UNet_2504与其他方法相比,错分情况更少。ViG3D-UNet的DSC位居第二,仅比STUNet [17]低0.57,但显著优于其他基于CNN [7]和基于transformer [9],[15]的方法。
在大规模ImageCAS数据集上,表
中的评估结果表明,所yinqing-ViG3D-UNet_2504实现了Dice相似度系数(DSC)为81.72%,HD95为15.21,IoU(IoU)为69.40%,精确率为83.16%,召回率为80.79%。ViG3D-UNet的DSC值比当前最先进方法高出0.57,凸显了其在分割方面的优越准确性。此外,该方法在HD95性能上有所提升,其值比STUNet[17]获得的第二高分DSC值低2.39,这表明其能够更紧密地与真实边界对齐,同时改善分割连通性。所yinqing-ViG3D-UNet_2504在DSC、HD95、IoU、精确率和召回率上均取得了最佳值。因此,该分析证实,与现有方法相比,ViG3D-UNet在ImageCAS数据集上实现了最先进的性能。
为进一步探究不同方法在边界误差和连通性方面的差异,作者对HD95指标在两个独立数据集上进行了统计分析。ASOCA数据集中不同方法下单个案例的HD95分布情况如图5中的蓝色方框所示。ViG3D-UNet展现出更紧凑的HD95分布,其异常值更接近均值,表明了增强的分割连通性和模型鲁棒性。在ImageCAS数据集上,如图5中的红色方框所示,yinqing-ViG3D-UNet_2504与其他方法相比也呈现出类似的HD95统计分布。最右侧展示的yinqing-ViG3D-UNet_2504,其分布更接近均值且异常值更少。HD95分布中的这种模式表明了分割连通性和鲁棒性的提升,这进一步证实了增强的分割连通性和准确性。
CTA因其无创性、低风险和低成本而被广泛应用于心血管疾病的筛查。冠状动脉分割作为血管重建的关键步骤,对于心血管疾病的诊断和手术规划至关重要。当前医学图像分割方法往往难以生成连续的血管结构。为解决这一问题,本文提出了一种端到端的基于图的U形体积分割框架,旨在增强血管连通性同时实现高精度。
血管形态因人而异,但人类冠状动脉表现出一致拓扑结构。为增强模型连接性,设计了一个三维视觉GNN模块来表征和聚合血管拓扑结构特征(图3)。引入双分支并行编码器和纸夹形偏移解码器用于特征融合和精确分割。ViG3D-UNet的两个主要贡献如下:(1) 三维视觉GNN模块ViG3D,专门用于捕获和聚合空间图特征,在训练过程中自动构建血管图以提取端到端分割框架内的拓扑结构。表2和表4中的结果证明了其有效性。(2) 纸夹形偏移解码器将CNN的纹理特征与视觉GNN的拓扑特征相结合,解决了直接拼接带来的挑战,通常导致高计算成本和次优特征融合。如表4所示,该模块显著提升了模型性能。
图7 在mageCAS数据集的视觉比较中,yinqing-ViG3D-UNet_2504在冠状动脉端点保持了更高的连通性。即使当部分区域存在噪声或伪影时,yinqing-ViG3D-UNet_2504与其他算法相比,错误分割率也较低。
ViG3D-UNet模型在其他最先进方法上显示出显著的连接优势,如表5和图5所示。单个案例的可视化结果展示在图6和图7中。例如,图6的第二行揭示,虽然所有方法都表现出血管断裂,但只有ViG3D-UNet显示了一个具有完整分支的断裂,而其他方法则显示出多个断裂或不完整的 主要分支分割。图7进一步表明,ViG3D-UNet实现了更完整的血管分割,错误分割的 Voxel 更少,血管末端的分割 Mask 更连续。此外,ViG3D-UNet始终显示出更少的断裂和错误分割。在两个数据集中,血管结构都得到了有效利用,增强了血管分支的连接性。
CTA通常作为门诊手术进行,所需恢复时间更短,这使其对患者更为便捷。然而,与冠状动脉数字减影血管造影相比,其在评估血管形态方面的精度有限[42][43]。这一局限性体现在重建血管的直径与其实际解剖结构之间的差异,以及预期连续的血管出现断裂的现象。所yinqing-ViG3D-UNet_2504能够进一步提升使用CTA诊断心血管疾病的准确性。这一改进使得成本效益高、风险较低CTA能够更频繁地作为可靠的成像工具,在门诊和筛查环境中评估冠状动脉疾病。
尽管该方法取得了令人鼓舞的成果,但仍存在一些局限性。首先,在样本量有限的情况下,模型是从零开始训练的。通过在大型数据集上预训练 Backbone 网络,可以进一步提高分割精度。其次,当前的时空图表示涉及对特征距离的盲目搜索。鉴于血管是具有不规则分形结构的特征[44],结合结构知识可以增强拓扑特征提取的效率。
本研究介绍了ViG3D-UNet作为用于冠状动脉连续分割的三维视觉图神经网络框架。通过引入ViG3D模块,传统的平面视觉图神经网络被改造以处理和聚合体积图像特征。
ViG3D-UNet框架由一个双分支并行编码器和纸夹形状的偏移解码器组成,旨在有效利用血管结构的拓扑形态。ViG3D-UNet在冠状动脉分割中展现出更高的准确性和连通性,优于现有的最先进方法。总体而言,本研究为开发更准确、无缝集成的医学图像分割框架做出了重要贡献。
参考
[1]. ViG3D-UNet: Volumetric Vascular Connectivity-Aware Segmentation via 3D Vision Graph Representation.
点击上方卡片,关注「AI视界引擎」公众号