点击下方卡片,关注 「AI视界引擎」 公众号
( 添加时备注:方向+学校/公司+昵称/姓名 )
脑内出血(ICH)是中风的最致命亚型,其特点是高发病率和高致残率。准确分割ICH区域和预测预后对于开发和完善ICH患者的治疗计划至关重要。
然而,现有方法独立处理这两个任务,并主要侧重于影像数据,从而忽视了任务和模态之间的内在关联。本文介绍了一种多任务网络ICH-SCNet,用于同时进行ICH分割和预测分类。具体而言,作者集成了一个SAM-CLIP跨模态交互机制,该机制将医学文本和分割辅助信息与神经影像数据相结合,以增强跨模态特征识别。
此外,作者还开发了一个有效的特征融合模块和多任务损失函数,以进一步提高性能。在ICH数据集上的大量实验表明,作者的方法超过了其他最先进的方法。
在分类任务的整体性能方面,作者的方法优于竞争模型,并在所有分割任务指标方面超过了竞争对手。
unset
unsetI Introductionunset
unset
脑内出血(ICH)是重大的公共卫生问题,每年影响超过200万人,约占所有中风病例的10-15% [14]。至今,对于ICH治疗所有阶段的完全有效疗法仍然不可得 [3]。尽管在医学影像方面,尤其是计算机断层扫描(CT)方面取得了进步,并持续研究ICH,但ICH后患者的死亡率和长期残疾率并未显著下降 [12]。准确分割ICH病变和及时预测预后对于制定有效的治疗策略至关重要。然而,这些任务通常依赖于人工标注和神经外科医生的评估,这既费时又可能受到主观因素和个人经验的影响 [4]。此外,大多数当前的ICH相关模型既不具有多功能性,也没有充分利用非影像学方法 [1, 10, 13]。这些模型往往忽视了不同模态和任务之间信息交换的潜力,否则可以提高整体性能。
在医学背景下,分割任务通常需要像素级预测在图像中,而分类任务涉及对整个图像的整体分类。在这种情况下,分割可以从分类任务中获取图像 Level 的语义信息,有助于准确划分病灶区域。相反,分割任务可以提供详细的像素级信息,帮助分类任务更好地理解图像中的细微差别和边界。认识到这种相互依赖关系可以显著提高分割的精确性和预测的可靠性,最终在临床实践中提高患者的预后。鉴于这种相互依赖的关系,一些医学网络已经开始了多任务尝试[16, 25]。然而,对于脑区域(尤其是ICH)的多任务学习仍处于初级阶段,有时甚至不存在。因此,存在一个可以同时解决ICH分割和预测分类的多任务网络的实际需求,认识到这些任务之间的固有相互依赖关系,并利用这种依赖关系。
另一个重要挑战是将丰富多样的医疗信息整合到模型中。仅依赖影像数据在医疗任务复杂多样性的背景下可能是不够的,这些任务需要多种信息。特别是在生物医学任务中,特别是涉及大脑的任务,通常会引入非影像模态数据来指导模型,输入额外的领域知识、诊断信息和患者人口统计信息。最近的方法[1, 10, 13]尝试通过简单的 ConCat 将影像特征与额外医疗数据相结合,导致跨模态特征交互有限。此外,进化策略试图将表格数据[9],特定领域的知识[18]和文本报告[22]整合,以更深入地理解图像和非图像数据。然而,这些方法仍存在进一步优化的潜力,特别是在建立跨模态特征的内部依赖关系方面。认识到SAM(Segment Anything Model)[6]在集成分割辅助信息方面的优势,以及CLIP(Contrastive Language-Image Pre-training)[15]在文本和图像跨模态融合方面的优势,作者提出将这两个模型进行合作,以弥合当前在合并不同模态方面的差距。
根据这些观察,作者创新性地提出了一种SAM-CLIP跨模态交互机制,该机制结合了额外的医学信息来指导分割和跨模态特征提取。据作者所知,作者的ICH-SCNet代表了首次尝试开发同时处理分割和预后分类任务的多任务模型,特别是在ICH的背景下。
unset
unsetII Methodologyunset
unset
如图1(a)所示,作者的方法从三个降采样层开始,这些层产生四个尺度的图像特征,即{I^0, I^1, I^2, I^3}。由于SAM中的图像编码器使用了标准的视觉Transformer(ViT),因此有必要对{I^1, I^2, I^3}应用双线性插值以实现适当的缩放。这些插值后的图像特征,以及临床文本信息、提取的框和粗糙 Mask 作为分割 Prompt ,然后被输入到四个不同的SAM-CLIP跨模态交互模块。每个模块处理信息,并生成相应尺度的有效 Mask {VM^0, VM^1, VM^2, VM^3}。
随后,作者的模型采用多任务特征融合(MTFF)模块将多尺度图像特征集成,这些特征通过有效 Mask 进行增强,并通过组桥结构进行融合。这种集成结果导致了特征输出()的计算,该输出随后作为DenseNet-121分类器的输入,以及表示最终分割结果的分割输出()。此外,作者的方法还包括一种专门用于优化每个任务性能的多任务损失函数,同时考虑任务之间的固有联系和关联。这种损失函数在确保模型训练过程中有效捕获和利用分类与分割之间的依赖关系方面发挥关键作用。
SAM-CLIP Cross-Modal Interaction Module
如图1(b)所示,作者最初使用CLIP图像编码器()和CLIP文本编码器()分别处理图像输入()和文本输入()。作者引入了一种特殊的注意力机制以进行自适应加权。对图像特征应用池化层和卷积层,形成 Query (),同时对文本特征应用两个不同的卷积层,生成键()和值()。使用注意力机制促进跨模态交互,通过包含和正规化层输出的残差连接进行增强。的计算如下:
使用上一步骤生成的粗糙 Mask ,作者使用SAM对其进行细化,受提供的边界框和 Mask Prompt 的引导,以生成有效 Mask 。边界框 Prompt 和粗糙 Mask Prompt 首先合成边界框()和一组随机选择的点(),然后由SAM Prompt 编码器()对其进行处理。最后,受 Prompt 约束的SAM-CLIP有效 Mask 由SAM Mask 编码器()生成,该编码器对原始图像的粗糙分割进行细化。因此,可以表示为:
在调查了该模块的各种配置后,作者决定使用预训练的, , 和 (未修改的冻住模型),并将其作为基础。然后,作者使用ICH数据集微调并训练包含在灰色虚线框内的注意力组件。通过这种方法,作者可以获得最佳性能。
MTFF Module
受到 EGE-UNet [17] 中群体桥结构的影响,作者利用群体聚合桥(GAB)将每个阶段的图像特征 、对应的valid mask 以及前一个阶段的输出进行合并。每个阶段的合并特征作为下一个阶段的输入。通过像素级加法合并这些合并特征并应用卷积层,作者可以在每个阶段生成一个预测mask。这些预测与各自的分割标签进行比较,以计算损失函数,如第II-C节所述。在最后一个阶段,作者推导出分割预测和多尺度融合特征,分别表示为分割输出()和特征输出()。
GAB结构设计包含三个输入:图像特征、有效 Mask 和低级特征。最初,这些输入按顺序依次组合在一个组内,形成四个这样的组。然后,作者使用扩张卷积[21]对每个组应用扩张速率{1,3,5,7}和核大小为3,对应于组。最后,将四个组的输出连接在一起,以实现不同尺度特征之间的交互,然后添加一个卷积层以融合它们。
Loss Function
作者精心设计了一个损失函数,以促进 ICH-SCNet 的优化。这个综合损失函数包括分割任务和分类任务的个别损失,以及一个多任务 Aware 的损失,以建立和利用任务之间的关联。
分割损失。 对于每个尺度 Level ,作者计算Dice相似系数(DSC)和Jaccard指数(Jaccard),如第III-A节所述,以评估预测 Mask 和真实 Mask 之间的一致性。整体分割损失是这些指标在四个尺度上的加权总和,权重分别为,从上到下依次对应尺度从0到3。考虑到需要不同尺度的 Mask ,作者实现了深度监督[24]。分割损失可以表示如下:
在作者的工作中,将不同分割损失尺度的权重γi设置为0.1,0.75,0.5,0.25(从i=0到3),其中DSC和Jaccard是III-A部分定义的分割指标,是分割预测,s是真实值。
分类损失。 在预测分类中,作者采用加权交叉熵损失来量化预测结果与真实标签之间的距离。从数学上讲,分类损失 如下所示:
其中 表示指示函数, 表示预测概率, 是预测的标签。术语 指的是从整个数据集中两个类别的逆频率中派生出的特定类权重,从而减轻潜在的样本不平衡的影响。
多任务感知损失。 仅依赖或是不够的,因为这种方法可能导致优化过程过分偏袒一个任务,从而损害另一个任务[25]。在作者的方法中,作者将特征输出通过一个softmax层,得到像素级概率值,表示为。然后,作者使用Jensen-Shannon(JS)散度来量化和分割输出之间的差异。这种散度表示为,用于确保和实现分割和分类任务之间的期望一致性。散度可以表示如下:
代表 Kullback-Leibler(KL)散度, 是批处理中的训练样本数量。
总损失。 ICH-SCNet的总损失可以表示如下:
其中α和β是用于协调和贡献的加权超参数。这些超参数通过实验确定,分别设置为0.2的α和0.8的β,以确保分割和分类目标之间的适当平衡。
unset
unsetIII Experimentsunset
unset
Experimental Setup
作者的研究利用了合作医院提供的专有ICH数据集,该数据集包含了294名患者和总共1,907个有效CT切片的数据。该数据集包括865个表示良好预后的切片和1,042个 Prompt 预后不良的切片。数据集中的每个患者记录包括一个关联的CT图像、医学文本和预测标签,该预测标签使用Glasgow Outcome Scale (GOS) [11]进行评估。GOS评分≥4表示良好预后,而评分<4表示预后不良。此外,该数据集还提供了出血区域的分割真相、边界框标注和近似 Mask 。每个案例的医学文本包含关键信息,如患者的年龄、性别、住院时间、发病到CT扫描的时间、Glasgow Coma Scale评分[20]、治疗方法和出血的位置和体积。
实现细节 在作者的实验设置中,作者使用了预训练的ViT-L模型的最后 Transformer 层作为CLIP编码器,而ViT-H预训练模型被用于SAM。在训练阶段,作者采用了AdamW优化器[7],初始学习率设置为,批处理大小为32。训练进行了25个周期,只关注可以训练的部分。计算实验在高性能服务器上进行,配备了4个NVIDIA A100 GPU,确保了大量的处理能力。此外,所有实验都使用五倍交叉验证进行,以充分利用作者的数据集并确保强大的评估。
Experimental Results
多任务网络的有效性 如表1所示,比较分析发现,在单独进行分割和分类任务时,该网络的表现不如作者的多任务框架。值得注意的是,与单任务设置相比,多任务设置对分类任务的影响更大。具体而言,分割指标DSC提高了1.32%,而分类Acc在比较多任务与单任务场景时实现了5.61%的显著增长。
消融研究 。表2展示了一个消融研究,旨在确定作者模型中的关键组成部分的贡献,特别是关注SAM-CLIP跨模态交互模块和MTFF模块。作者的调查涉及用SAM或CLIP替换SAM-CLIP模块,并直接将所有特征 ConCat 以对比MTFF模块。在实验中,作者首先用独立的SAM或CLIP模块替换SAM-CLIP交互模块,同时保持多尺度结构,从而相应地减少了输入模态。接下来,作者用直接 ConCat 结构替换MTFF模块,以验证其有效性。
研究结果表明,SAM与CLIP的协同集成显著提升了性能,与SAM或CLIP独立运行相比,Acc增加了4.51%,DSC增加了0.65。这表明SAM擅长通过捕获低级视觉细节提供准确的 Baseline 分割,并得益于其广泛的分割和泛化能力。另一方面,CLIP通过融合文本和图像的多模态信息,提高了模型的表示能力,从而在整张图像上捕获高阶语义信息。此外,对MTFF模块的消融导致性能显著下降,准确性下降1.98%,DSC下降3.06%,从而证明了MTFF模块对于有效多尺度特征融合的重要性。这证实了MTFF块在协调不同尺度和模态的特征方面发挥关键作用,这对于实现作者在多任务模型中的优越性能至关重要。
与SOTA方法相比。作者进一步评估了ICH-SCNet在ICH分割和预后结果分类领域的各种SOTA方法。首先,作者将作者的网络与五个分类模型进行了比较,包括两个单模态方法(No.1-2)和三个跨模态方法,这些方法还包含额外的医学信息(No.3-5)。对于分割,作者的比较包括两个专门针对ICH的网络(No.6-7)和三个通用医学分割网络(No.8-10)。由于针对ICH的分割和预后分类的多任务方法很少,作者还与两个通用医学多任务网络(No.11-12)进行了比较。
表3呈现了各种最先进方法论的比较结果。作者提出的ICH-SCNet在模型性能方面取得了显著改进,这一点可以从四个分割指标和四个分类指标的评估结果中得到证实。在分类方面,作者的方法在三个指标上领先,并且在Pre中的TOP-GPM只有轻微降低。与仅依赖成像的多任务分类网络相比,ICH-SCNet具有显著优势。即使与其他跨模态方法相对比,多任务信息共享带来的优势仍然得到保持。
在分割任务中,作者的方法全面优于其他竞争方法。即使与两个基于SAM的方法相比,ICH-SCNet 在所有四个指标上都取得了优越的性能。这两个通用多任务方法在竞争性方面表现有限,这可以归因于它们在有效任务协调机制方面的缺陷。总体而言,作者的ICH-SCNet在分类精度上提高了1.27%,在召回率上提高了0.43%,在AUC上提高了0.82%。对于分割,改进了3.14%的DSSC,3.81%的Jaccard,1.43%的95HD和3.75%的PRO。
为了生动地说明分割效果,作者进行了可视化实验,结果如图2所示。在简单的分割场景中,如图(a)所示,所有方法都达到了满意的分割精度。然而,对于更复杂的图像,ICH-SCNet具有优越的竞争力和分割精度。例如,临床挑战性场景如多出血点(c)、(e)、小出血量(b)和模糊边界(d)都突显了作者的方法的优势。
unset
unsetIV Conclusionunset
unset
本文提出了一种新颖的多任务网络,用于ICH分割和预后结果分类,通过采用SAM-CLIP跨模态交互机制实现。该网络巧妙地将多尺度影像、相关医学文本以及指定多任务损失函数相结合,充分利用分割辅助数据。通过在我国内部数据集上的严格而全面的实验评估,证明了本模型的有效性。
关于约束,未来的研究将努力提高网络的可训练性,同时减少参数数量和计算复杂性。解决缺失模态的负面影响也是作者努力克服的关键问题。此外,作者认为这个框架在应对更广泛的医疗多任务挑战方面具有前景。
[0]. ICH-SCNet: Intracerebral Hemorrhage Segmentation and Prognosis Classification Network Using CLIP-guided SAM mechanism.
点击上方卡片,关注 「AI视界引擎」 公众号