点击下方卡片,关注
「集智书童」
公众号
导读
计算机断层扫描(CT)是诊断的关键成像方式,但其临床应用受到高辐射暴露和长时间周转时间的限制,限制了其在大规模筛查中的应用。尽管胸部X光摄影(CXR)更易获取且更安全,但现有的CXR基础模型主要关注于在CXR上易于识别的疾病检测。
最近,一些研究探索了在模拟CXR上训练疾病分类模型,但它们仍然局限于从CT中识别单一疾病类型。CT基础模型也出现了,在CT中显著提高了病理检测能力。然而,将CT衍生的标签泛化应用于CXR仍然是一个难以实现的目标。在本研究中,作者提出了X2CT-CLIP,这是一个三模态知识迁移学习框架,它弥合了CT和CXR之间的模态差距,同时减少了模型训练的计算负担。
X2CT-CLIP首次实现了使用CXR进行多异常分类,通过在潜在空间中精心设计的三模态对齐机制,将3D CT体积和相关放射学报告中的知识迁移到CXR编码器。在三个多标签CT数据集上的广泛评估表明,X2CT-CLIP在跨模态检索、少样本适应和外部验证方面优于最先进的 Baseline 方法。这些结果突出了CXR的潜力,通过CT知识丰富后,作为一种可行的有效替代方案,用于资源有限环境中的疾病检测。
1 引言
胸部X光检查(CXR)在诊断和管理各种疾病中至关重要,包括心血管疾病、肺部疾病和许多癌症。虽然计算机断层扫描(CT)是疾病检测和风险评估的有力工具,但它也存在明显的缺点,限制了其在常规筛查中的应用,包括图像获取和解读的周转时间较长,以及更高的成本和电离辐射剂量,这可能带来健康风险。相比之下,胸部X光检查(CXR)更易于获取且成本效益更高。特别是,它发出的辐射量显著较低,使其成为许多临床环境中患者更安全、更实用的替代方案。鉴于这些临床优势,本研究探讨了仅利用CXR预测传统上仅在CT中可识别的疾病的可行性,旨在减少对CT的依赖,同时实现更早的检测、改善患者预后和优化医疗资源。
对比语言-图像预训练(CLIP)[19]的发展展示了对比学习(CL)在大型图像-文本对上的有效性,使得在多样化的下游任务中实现了鲁棒的泛化。CLIP的成功促使了CXR领域内多个工作的开发,包括GLoRIA [12]、MedCLIP [22]和CXR-CLIP [27]。所有这些工作都涉及到在潜在空间中对CXR和临床文本知识的对齐。CLIP还激发了在医学影像领域超越两种模态的多模态CL的研究。MEDBind [5]引入了三模态对比学习,以统一CXR、心电图和文本,通过其边缘模态对比损失增强了跨模态绑定。在2D医学影像中对比学习的成功基础上,最近的研究将这些技术扩展到3D CT的基础模型开发中。这些模型,如FM-CT [28]和CT-CLIP [8],利用大规模的文本配对CT数据集和CL来开发可泛化的嵌入,实现了CT上的多异常分类。这些模型强调了多模态CL在各个领域的多功能性。
CT Level 疾病分类模型仍存在两个关键局限。首先,尽管存在CT基础模型,但其应用需要获取CT图像,这会受到上述获取和辐射的缺点影响。其次,尽管已经对CXR基础模型进行了广泛研究,以预测广泛的CXR诊断疾病,但尚无模型尝试从CXR预测多种CT诊断条件。与此密切相关的工作包括[16]和BI-Mamba [25]。具体来说,[16]利用模拟CXR来提升肺癌分类模型的表现,而[25]采用状态空间模型[7]从模拟CXR预测CT图像中的心血管疾病(CVD)。遗憾的是,这两种方法都局限于单一类型的CT病理,凸显了需要一种仅基于CXR捕获多种CT Level 疾病知识的基础模型,从而能够在临床环境中开发出更可扩展和有效的筛查工具。
贡献:作者提出了X2CT-CLIP,这是第一个将胸部X光片到CT(X2CT)的模态差距进行桥接的CL框架,以在潜在空间中对齐CXR与其对应的CT和CT报告,从而实现从CXR检测多种传统CT诊断异常。X2CT-CLIP利用了CT报告和从CT-CLIP [8]中提取的3D CT体积特征,通过跨模态知识迁移来丰富CXR编码器,同时减少模型训练中对计算资源的需求。作者在三个多标签(多异常)CT数据集上评估了X2CT-CLIP,包括CT-RATE [8]、RadChest-CT [3]和从MIMIC [13]中精心制作的MIMIC-CT数据集。作者的结果表明,X2CT-CLIP在跨模态检索、少样本适应和外部验证方面优于最先进的 Baseline ,突显了其在减少对CT成像的依赖性以进行常规疾病筛查以及在医学影像中实现2D到3D数据对齐的更广泛潜力。
2 方法
本节首先描述了为作者的X2CT-CLIP构建CT、CT报告和CXR三元组的过程。随后,作者详细介绍了在X2CT-CLIP中对CXR编码器进行预训练的方法,同时降低硬件需求。
2.1 创建CT、CT报告和CXR三元组
具有胸部X光片、CT图像及其标签配对的数据库尚未公开。然而,近期在3D点云领域的进展表明,在数据受限的环境中运行的模式可以通过整合具有相同语义意义的其他模态的知识来显著提升其识别能力[23, 24]。
受此优点启发,作者在 CTRATE 数据集 [8] 中创建了从真实 CT 图像生成的模拟 CXR 图像用于模型训练。CT 扫描捕捉身体横截面切片,计算每个 Voxel 辐射衰减的 Hounsfield 单位,这使得通过适当的计算处理从 CT 数据生成模拟 CXR 图像成为可能 [16,25]。作者创建了模拟 CXR 数据集,以与 CT-RATE [8] 中的已知 CT 图像和报告相匹配。作者从 CT-RATE 中取每个 CT 图像,并使用 [26] 模拟相应的 CXR 前后位视图。作者生成了 50188 个三元组
,分别对应 CT 图像、CT 报告和 CXR,以在 X2CT-CLIP 框架中预训练作者的 CXR 编码器。
2.2 CT、CT报告和CXR的潜在空间统一
通过在包含13种疾病CT-Report对的CT-RATE数据集上进行预训练,CT-CLIP学习到了在CT图像中具有通用语义特征,这些特征在下游任务中表现出优异的性能。利用CTCLIP,作者提出将CT体积和CT报告的特征表示与CXR图像对齐到一个统一的潜在空间中。如图1-右所示,通过冻结CT-CLIP的权重并微调CXR编码器,将CXR特征空间整合到CT和CT报告的预对齐表示空间中。这允许无缝地整合CXR特征,同时保留CT-CLIP的预训练知识。
为了实现这一点,作者采用三模态对比学习,在共享的潜在空间中对特定模态编码器的特征嵌入进行对齐。作者利用CT-CLIP中预对齐的CT编码器
和CT报告编码器
(其中
是一个3D视觉Transformer,3DViT [9],而
是一个CXR-BERT [1])并从头开始训练一个CXR编码器
(ResNet [10]或Swin [14])。给定三元组
,相应的特征表示分别获得为
,
,和
。模型通过优化定义在公式1中的InfoNCE [17]损失来强制不同模态对之间的特征相似性:
其中
是任意距离函数,
,而
是塑造分布的温度。此目标鼓励语义对应的实例在潜在空间中保持邻近,同时与其他实例保持距离,确保 CXR 编码器学会正确连接 CT 的潜在表示以及由 CT-CLIP 提取的相应的文本报告。最后,作者定义 X2CT-CLIP 的学习目标如下,以在不同对之间引入对比损失:
使用不同的权重因子
和
。作者将
,并将 Eq. 2 中的
设置为 0(如图1-Left 所示),冻结 CTCLIP 的参数,仅训练 CXR 编码器
,以保留潜在空间结构并保留 CT-CLIP 中嵌入的知识。这种方法还具有显著降低 CXR 编码器预训练期间计算资源需求的附加优势。
2.3 实施细节
作者遵循与CT-CLIP [8]相同的预处理流程对CT体积进行处理,然后再将其投影到CXR图像上。图像输入大小和CXR编码器的潜在特征维度分别设置为224和512。最后,作者使用提出的目标函数(式2)以学习率
,批大小360,
,在Pytorch框架 [18]中使用AdamW [15]优化器训练CXR编码器50个epoch。作者的三模态CL框架对CXR模型架构具有不可知性,所有预训练和实验都在单个40GB NVIDIA A100 GPU上完成。
3 实验与结果
3.1 多标签数据集用于验证
作者总结了用于预训练和验证的三个多标签数据集,如表1所示。如上所述,CT-RATE与模拟的CXR图像一起创建。对于RadChest-CT [3],作者遵循第2.1节中描述的相同程序,从CT扫描中模拟CXR图像。为了验证X2CT-CLIP在具有相应CT报告的真实CXR图像上的性能,作者从MIMIC和MIMIC-CXR [13]中精心挑选了一个子集的CXR图像,这些图像通过hadm_id与它们的相应出院记录和放射学报告相匹配,称为MIMIC-CT;然后作者遵循[6]的方法,使用LLaMA-8B-Instruct [4]从这些报告中提取CT标签。
作者进行了top-k跨模态检索、零样本(ZS)和少样本(FS)多标签预测任务。所有验证均在测试分割上进行。对于CT-RATE中的FS自适应任务,作者从训练分割中进行采样,并在其测试子集上进行评估。对于RadChest-CT,作者专注于CT扫描标签,其余标签留待未来工作。然后,作者从测试分割中采样一个子集以微调分类器,并对剩余实例进行FS自适应任务的验证。由于MIMIC-CT规模有限,不足以进行FS多标签预测任务,因此将其排除在FS自适应之外。
作者还考察了在CT-RATE上通过线性 Prob 训练得到的FS分类器的泛化能力,通过在RadChest-CT和MIMIC-CT上进行外部验证来评估。作者确定了CT-RATE与RadChestCT以及CT-RATE与MIMIC-CT之间的重叠标签用于评估。然后,作者从CT-RATE的训练分割中采样实例来微调线性分类器,并在MIMIC-CT和RadChest-CT的测试分割上评估其性能。
3.2 实验概述
X2CT-CLIP在基于CXR的基础模型[12,22,27]上进行了广泛验证,这些模型利用ResNet[10]、Swin Transformer[14]和DenseNet[11]作为视觉 Backbone 。作者还包括与BI-Mamba[25]的比较,该模型专门训练用于通过模拟CXR识别CT级病理。作者使用受试者工作特征曲线下面积(AUC)和精确率召回率AUC(PR)指标,在多标签分类任务上评估了ZS、FS和外部验证。使用双尾DeLong测试[2]确定AUC差异的统计显著性,计算使用[21],
。作者使用top-k召回率(
)来评估跨模态检索性能。
3.3 Top-K 跨模态检索任务
表2展示了在所有三个数据集中,通过CXR Query 的CT体积和CT报告检索结果。令人惊讶的是,使用作者的X2CTCLIP预训练的模型在召回率指标上始终优于CT-CLIP教师模型,这可能是CXR编码器学习到的潜在空间比原始预对齐的CT编码器更好的一个潜在指标。作者假设式(1)中的推拉属性有助于CXR嵌入在CT-CLIP潜在空间中找到更好的位置,从而更有效地与CT体积和CT报告特征对齐。此外,基于CXR的基础模型在跨模态检索的Rk指标上表现不佳。因此,与现有 Baseline 相比,作者的知识迁移机制在潜在空间中展示了优越的三模态对齐能力。
3.4 使用CXR的CT多标签分类任务
零样本评估:作者在表3中展示了ZS在三个数据集上的性能。与CT-CLIP文本编码器不兼容的 Baseline 被省略。使用X2CT-CLIP预训练的 Backbone 网络在潜在空间中比CT-CLIP和其他CXR基础模型展现了改进的三模态对齐。这种改进在模拟和真实CXR输入中均保持不变。
通过线性检测进行少样本适应:作者对RadChest-CT和CT-RATE数据集进行了多标签分类的FS适应,通过在每个数据集的20%和50%上进行线性检测。如表4a所示,X2CT-CLIP在所有设置下都优于BI-Mamba和CXR基础模型,实现了CT-RATE和RadChest-CT的最高AUC(p<0.05)和PR分数。这些结果说明了作者的CT到CXR知识迁移策略在利用有限的CXR数据实现稳健的CT Level 疾病预测方面的有效性。
外部验证:不同于传统的FS设置,为了衡量X2CT-CLIP的鲁棒性,作者还对预训练的CXR编码器在高度尺寸受限的数据设置下进行了外部验证,通过使用CT-RATE中5%和10%的Train split微调分类器,并在其他数据集上进行推理。如表4b所示,作者的预训练模型在模拟和真实CXR设置中均表现出更好的整体性能,通过持续获得比其他模型更高的AUC分数(
)。在PR指标上的更大改进幅度也表明,作者的学习策略可能有效地减少了假阳性和假阴性预测,从而在多异常检测中识别高风险患者,同时保持误报可控。
学习目标消融研究:作者通过在CT-RATE的测试集上评估,分析了将CT报告(
)和CT体积纳入作者的损失函数(式2)的影响。表5显示,虽然移除文本或CT体积知识可能在top-
召回率指标上对其各自任务有所益处,但与作者的目标(最后一行)相比,这导致多标签检测任务在AUC上损失了约1.5%,在PR上损失了约2%。这强调了在利用CXR进行CT扫描多异常稳健识别时,整合两种模态的必要性。
4 结论
本研究针对从CXR预测CT多异常性的挑战,提出了X2CT-CLIP,这是第一个连接CXR和CT模态间差距的三模态对比学习框架。通过将CXR与预对齐的CT和CT报告表示对齐,X2CT-CLIP在所有验证任务中均优于现有模型,同时在模型训练中所需的硬件资源要低得多。
这些结果证明了使用CXR进行CT Level 疾病预测的可行性,为临床筛查提供了一种可扩展且高效的替代方案,尤其是在数据受限的环境中。
参考
[1]. X2CT-CLIP: Enable Multi-Abnormality Detection in Computed Tomography from Chest Radiography via Tri-Modal Contrastive Learning
扫码加入👉
「集智书童」
交流群
(备注:
方向
学校/公司+
昵称
)