ST-Align:基于百万位点预训练,远超 基准性能 !

大模型向量数据库数据中台

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

空间转录组学(ST)提供了全切片尺度上单个病变区域的超分辨率病理图像和完整的转录组表达谱。这一设置使其成为开发多模态基础模型的理想数据来源。

尽管最近的研究尝试通过基于病变区域的可训练基因编码器微调视觉编码器,但由于缺乏更广泛的切片视角和空间内在关系,它们在捕捉ST特定洞察的有效性上存在局限。在这里,作者引入了ST-Align,这是第一款专门针对ST设计的基础模型,通过纳入空间上下文,有效地将图像与基因对齐。

作者设计了一个新颖的预训练框架,采用三目标对齐策略,使得(1)图像与基因对齐可以跨多个尺度进行,捕捉到病变和生态位 Level 的上下文,具有全面的视角,以及(2)多模态洞察的跨 Level 对齐,连接局部细胞特性和更广泛的组织结构。

此外,ST-Align采用针对不同ST场景的专用编码器,随后是一个基于注意力的融合网络(ABFN),有效地将领域共享知识与病理和基因组数据提供的ST特定洞察相结合。作者在130万病变生态位对齐上预训练ST-Align,并在六个数据集上的两个下游任务中评估其性能,展示了出色的零样本和少样本能力。

ST-Align强调了降低ST成本的可能性,并提供了有关人类组织中关键成分区分的宝贵见解。

1 Introduction

在现代医疗保健领域,探索空间微环境中同质或异质细胞成分的异同至关重要。传统上,使用伊红-复染色(H&E)染色整张切片图像(WSIs)和批量基因表达谱(GEPs)广泛研究组织。然而,批量GEPs并未提供与WSIs高分辨率相应的足够遗传背景,阻碍了研究行人探索具有独特遗传特征的微环境。

ST是一种结合高分辨率成像和高通量测序的新型技术[5, 42]。在ST中,芯片上放置了成千上万个半径为55 的点,每个点的大小为6.5 6.5 。这种设计有助于捕捉相应的H&E图像和GEPs,并在空间背景下确保组织形态和分子特征之间进行精细对齐,这突显了ST作为配对病理图像和基因的理想来源。如图1所示,这一特点在多个子区域中得到了体现。

picture.image

最近的研究努力主要集中在收集这些新颖且有价值的ST以推动该领域的发展。此外,受到视觉语言模型[9, 35]的成功启发,研究行人对原始CLIP框架进行了优化,并从ST中获取特征,探索图像-基因多模态模型的构建。然而,使用CLIP或PLIP来建模ST立即带来了一些挑战,包括:

(1)忽视斑点与相应更广泛的生态位之间的固有空间关系,导致ST建模有限,失去有价值的信息;

(2)预训练的视觉编码器难以适应不同尺度的ST图像,而从头训练的基因编码器可能表现出有限的一般化能力。

在本研究中,作者设计了一种预训练范式,并提出首个图像-基因基础模型 ST-Align,用于研究ST(结构-功能)图像-基因关系,跨越多个空间尺度,并拓宽ST建模的上下文。

(1)作者同时关注 Patch 和局部环境,采用三目标对齐策略,实现全面的图像-基因对齐和ST内结构特性的更广泛感知。具体来说,对齐目标包括三个部分: Patch 水平上的图像-基因对齐,局部环境水平上的图像-基因对齐,以及来自 Patch 和局部环境的集成多模态特征的进一步对齐。

(2)作者为ST中的不同上下文设计了专门的编码器,并采用基于注意力的融合网络(ABFN)将视觉和基因特征融合。这种方法不仅增强了适应不同大小图像和基因的能力,而且还融合了以前建立的预训练模型的通用领域知识以及ST特定见解。

为了开发ST-Align,作者收集了130万张图像-基因对,每对都包含相应的斑点级和生态级信息,用于预训练模型并在两个下游任务上评估其性能:空间聚类识别和跨六个野外数据集的基因预测。

总之,作者的贡献包括:

(1)作者引入了一种新颖的预训练范式,采用三目标对齐策略,在130万图像-基因对上训练ST-Align。据作者所知,ST-Align是ST的第一种图像-基因基础模型,拓宽了ST应用的范围。

(2)作者设计了专门的编码器来捕捉ST中的独特上下文特征,然后是一个ABFN模块,将多模态数据融合,集成域共享知识和来自视觉和遗传特征的ST特定洞察。

(3)在六个基准数据集上进行的一系列下游实验,包括生态级空间聚类和斑点级基因表达预测,展示了ST-Align的泛化能力。

2 Related Work

Multimodal Foundation Model

多种病理图像文本对齐数据集的出现,为医学领域的多模态基础模型的构建提供了基础资源。OpenPath数据集提供了一个全面的资源,包括32种病理学亚专业的116,504图像文本对,有助于微调PLIP基础模型,以提高诊断、知识共享和病理教育 。Quilt-1M是另一个重要的数据来源,它提供了超过100万个配对的样本,这些样本被用于微调预训练的CLIP模型,展示了其在各种亚病理学和跨模态检索任务上的性能 [18]。

最近,使用各种病理图像和生物医学文本开发了一个视觉语言基础模型CONCH,通过任务无关的预训练,整合了超过1170万个图像-标题对,实现了14种不同基准任务上的最先进(SOTA)性能 [25]。PathAsst和PathCLIP在来自公共来源的超过207,000个高质量病理图像文本对上进行训练,有助于病理图像解释的进步,以及诊断和治疗过程的改进 [35]。总之,这些多模态数据集为理解病理图像中的信息提供了外部洞察,从而有助于改进各种下游任务的表现,包括诊断和临床报告合成。

Foundation Models for WSI and GEP

病理性基础模型:近年来,关于WSI(Whole Slide Image)的基础模型在病理学领域取得了显著进展。之前的病理学基础模型结合了自监督学习和Swin Transformer,并在TCGA(The Cancer Genome Atlas)数据集上进行训练,该数据集包含超过1万种WSI [43]。现有的SOTA方法是基于超过100万WSI(来自不同来源)和丰富的生物医学文本和其他模态,并采用了新的对比学习策略和高效的注意力机制,在15个以上的下游任务中实现了令人印象的性能[7, 38, 44]。

遗传基础模型: 在转录组学领域,现有的基础方法主要关注单细胞转录组数据,并应用重构损失来指导模型学习内在的基因表达模式[13, 10, 51]。还可以进一步将其拓展到涉及其他模态,以扩展生物学视野[3, 23, 46, 57]。总体而言,这些模型在解决多模态下游任务以及带来新的内在生物学见解方面表现出色。

Image-Gene Paired Datasets

之前的图像-基因数据集是基于相同患者的一对一 WSI 和来自同一患者的批量转录组基因表达聚类(GEP)。具体而言,批量 GEP 是一个包含单个患者样本的 19,000 个蛋白质编码基因的向量,对应于一个十亿像素的 WSI。ST 的兴起推动了专注于组织细粒度转录组分析的各种数据集的发展。ST 允许研究行人在单个位置获得配对的组织病理图像和转录组,每个图像的直径为 55 微米,横跨组织切片上的数千个点。

最近的数据库包括 CROST [41]、SODB [53]、STOmicsDB [50]、Aquila [58] 和 Spatial Transcriptomics Museum [28]。这些数据库主要关注收集正常、疾病和癌症的 ST 数据,为组织样本中的基因表达的空间分布提供有价值的见解。此外,HEST-1k [19] 和 STimage-1K4M [4] 提供了配对的图像和基因表达数据,特别适合用于在病理区域内弥合视觉信息和基因表达的鸿沟。

Downstream Tasks in ST

表示学习与聚类

在生物信息学中,学习有用的表示是一项重要任务。这个过程涉及紧凑的WSI(局部敏感哈希)和GEP(全局敏感哈希),捕捉底层生物过程的内在特征。结果可以应用于区分空间聚类,即根据嵌入层中捕获的共享特征将组织区域分组 [15, 16, 26]。聚类是一种基本任务,允许研究行人探索组织异质性并识别代表不同细胞功能或疾病状态的独特的空间 niche。

基因表达增强与预测在ST中,另一个关键任务是学习病理图像与基因表达之间的关系,从而直接从图像中预测基因表达。这种方法有可能减少 costly 和耗时的文库准备和测序需求 [54]。此外,通过高分辨率成像技术改进测序质量和提高基因表达增强(GEP)的分辨率,可以提供组织样本内空间模式的更详细理解 [2, 33, 45]。这有助于在异质空间环境中分析基因表达空间分布的更准确。

3 Methods

在这里,作者提出了ST-Align,这是首个专为ST设计的具有创新预训练范式的图像-基因基础模型。模型架构如图2所示。首先,在3.1节中,作者将ST表示为多级空间结构。接下来,在3.2节中,作者详细介绍了针对ST的专用图像和基因编码器。然后,在3.3节中,作者提出了用于融合视觉和遗传特征的注意力基础融合网络(ABFN)。最后,在3.4节中,作者介绍了ST-Align预训练的配对目标。

picture.image

Muti-level Spatial Structure of ST

识别到ST的空间异质性,作者将其表示为一个多级空间结构,包括斑点级和生境级。斑点反映微小信息在一个小区域内,而生境则代表了一个由多个相邻斑点组成的功能较大的区域。给定一个组织学切片 ,作者不仅根据空间转录组测序点的坐标 (其中 )将其划分到 斑点级 Patch ,而且还根据KNN算法(见第2节)基于欧几里得距离(公式(1))将测序点聚类为划分 生境级 Patch (其中 )。

picture.image

其中,和分别表示两个排序点;表示二维空间,和分别表示LTH维度中和的坐标值。

给定一组由空间转录组测序得到的基因表达,对应于组织切片。每个测序点的斑点 Level 基因表达值,其中,可以获得每个测序点的。对于生态位 Level 的基因表达,作者计算生态位集群内所有测序点基因表达值的平均值(Eq. (2)),可以定义为,其中。

picture.image

其中n表示排序点的索引,S表示位于亚种群簇内的点集。

ST Encoder

图像编码: 需要强调的是,ST粒度的图像尺寸相对较小,仅为28x28像素,这给传统的视觉基础模型有效提取有意义信息带来了挑战。为了解决这个问题,作者采用了一种定制的自适应编码器来从这些微小的 Patch 图像中提取特征。在这里,作者选择ResNet-50 [14]作为编码器,称为AE-Img,并采用从头训练的方法。AE-img的任务是从一组 Patch 级 Patch 中捕获给定粒度的精细特征,输出定义如下:

picture.image

是嵌入后的向量, 表示 AE-Img 编码器的参数。

对于特定领域的图像,作者将其预处理到224x224像素的分辨率,然后使用预训练的病理图像编码器。给定一系列特定领域的图像 , UNI模型的输出可以定义为:

picture.image

对于相同的WSI,,和一一对应,而是嵌入。

已有基因编码的遗传基础模型通常基于单细胞转录组数据进行训练。然而,单个斑点的遗传数据在单细胞转录组(ST)中通常代表2到10个细胞,从而导致与单细胞遗传数据分布进一步分化。

picture.image

为了应对这个问题,作者利用一个预训练模型在位置层面捕捉信息,同时设计一个自适应编码器来模拟基因表达在生态位层面,称为AE-Gene。此外,scGPT [10],一个在3300万个细胞存储库上进行预训练的生成型预训练 Transformer ,被用来从一组给定的位置基因中提取特征,如公式(6)所示。

picture.image

代表 scGPT 模型的预训练参数, 是基因 Level 的嵌入。

关于AE-Gene,作者选择Transformer Encoder [40]作为可训练模块来学习具有专业特征的基因。

picture.image

是嵌入向量, 表示 Transformer 的参数。

Attention-Based Fusion Network

在使用图像和基因编码器提取特征后,作者采用交叉注意力机制促进图像特征与基因特征之间的交互,从而增强图像特征与基因上下文的关系。这种交互的表述如下:

picture.image

其中 转换为 ,且 是可学习的嵌入矩阵。

同样,作者通过结合图像上下文来增强基因特征:

picture.image

其中,,且 是可学习的嵌入矩阵。

最后,作者将两个增强的特征向量进行融合,得到多模态表示。这种交互的公式如下:

picture.image

其中,和,表示连接操作,。

Alignment Objectives

多级图像-基因对齐: 作者通过一个对称的跨模态对比学习目标来对齐幻灯片和表达编码器的嵌入空间。对于一个斑点级图像嵌入 ,给定一个集合 ,其中 是包含一个阳性样本和 个样本的斑点级基因表达嵌入的子集,作者优化:

picture.image

其中 和 分别作为 Query 样本, 和 是与 Query 对应的正样本, 和 是负样本,而 是用于调节相似度得分分布的温度系数。

对于专注于图像和基因表达的嵌入,作者采用相同的优化目标来对齐它们,称为目标函数。

定位小范围与大范围特征对齐: 超越传统的跨模态对齐,作者提出了一种方法,将定位小范围和大范围的特征嵌入进行对齐,从而有效地增加了定位小范围的特征表示的接受范围,并提高了捕捉病理图像的结构特征的能力。

在多模态融合后, 和 分别表示 Patch Level 和间隙 Level 的特征嵌入。

作者使用总损失函数来优化上述目标:

picture.image

在这里, 和 是超参数,用于平衡每种损失类型的贡献。

4 Experiments and results

Dataset and Implementation

斑点视图数据收集:所有图像-基因对数据来源于公开数据集STimage-1K4M [4],该数据集涵盖11种组织类型,并使用三种不同的ST技术进行测序。为确保斑点图像的一致缩放,作者只保留了来自人类组织的数据,并使用10x Visium技术进行测序。此外,作者过滤掉了少于50个斑点的WSIs,最终得到一个包含573个WSIs和130万斑点的数据集。

niche 视角的数据收集:对于数据集中的每个单独斑点,作者收集了其对应的 niche,定义为提供更大尺度背景的三个最近邻斑点。为了近似 niche Level 的转录组基因组表达,作者平均了这三个相邻斑点的表达值,以模拟 niche Level 的整体转录组学。因此,作者为数据集中的 1.3 万个斑点及其对应的 niche 构建了配对病理和遗传数据。

实现: 对于AE-Gene,作者使用了6层Transformer编码器,每个编码器包含8个自注意力机制头,并将dropout率设置为0.1。在训练过程中,学习率初始化为,使用余弦调度器和线性 Warm up 进行逐步调整。作者使用了AdamW优化器,权重衰减范围从0.04到0.4,遵循余弦衰减时间表。优化器参数包括和。模型训练在3台NVIDIA A800 GPU上进行,设备间的同步 BatchNorm 以确保一致的特征缩放。

Baselines and Metrics

作者将 Baseline 分为三类:(1)病理图像的单模态基础,(2)转录组学单模态基础,(3)多模态对比学习框架。

病理学 Baseline : 所有病理学基础 Baseline (P.)作为冻干编码器,用于嵌入单个ST斑点的病理图像,然后用于下游任务。 Baseline 包括CTransPath[43],UNI[7],Prov-GigaPath[49],Hibou[29],它们都针对大规模WSIs进行训练。此外,CONCH[25]是一种在配对历史图像和医学报告文本上进行训练的视觉语言基础模型。

转录组基础 Baseline : 将转录组基础 Baseline (G.)应用于每个ST位点,以提取转录组特征,类似于病理学 Baseline 。 Baseline 包括scFoundation[13]和scGPT[10],它们是在大规模单细胞RNA测序数据上预训练的最新基础模型。作者还包括了Scanpy[47],这是转录组数据分析最常用的工具包。

多模态 Baseline : 同时,作者还预训练了流行的多模态对比学习框架,如CLIP[31]和PLIP[17],作为 Baseline 。遵循STimage-1K4M[4]中的方法,作者使用一个全连接(FC)层将原始基因表达谱压缩为32维嵌入。同时,使用了一个预训练的图像编码器,然后是一个将图像投影为32维表示的全连接(FC)层。作者从_openai/clip-vit-base-patch32_中加载了CLIP的预训练参数(ViT-B/32),对于PLIP,作者从_vind/clip_在Hugging Face上的ViT-L/14中加载了预训练参数。超参数的选择与CLIP训练中使用的参数相同。

评估指标: 通过调整随机指数(ARI,数值越大越好)来评估ST-Align和其他基础模型在两个下游任务中的性能,该指数衡量基于嵌入的真正区域和簇之间的相似性。同时,通过均方误差(MSE,数值越小越好)来表示预测基因表达和真实表达水平之间的偏差,该指标针对所有斑点进行评估。

Spatial Clustering Identification

ST常用于探索组织切片内的空间区域。在这里,作者在[27]中的六个独立的人类大脑切片上评估了ST-Align和 Baseline 模型在识别空间区域方面的性能。表1显示,ST-Align在整体性能上表现最好,在零样本设置中超越了(1)单模态基础模型和(2)多模态 Baseline 模型。

picture.image

ST-Align与单模态的对比:如表1所示,ST-Align在所有测试切片上都优于所有单模态基础 Baseline 。遗传基础模型比病理模型提高了+15.49%,表明仅依赖病理图像而不考虑遗传信息是不够准确的空间域识别。值得注意的是,ST-Align分别比病理和遗传基础模型提高了+23.22%和+7.73%。尽管CLIP和PLIP与遗传基础模型表现相当,但它们的性能受到仅使用简单的MLP进行基因建模的限制。这些结果突显了将遗传和形态特征集成以区分生物结构的巨大优势。

ST-Align与多模态比较:与流行的多模态框架CLIP和PLIP相比,ST-Align分别实现了+8.35%和+9.13%更高的ARI得分。这些结果证明了ST-Align在利用ABFN和两阶段对比学习方法建模ST数据方面的有效性。

Spot Gene Expression Prediction

预测单点基因表达可以潜在地减少昂贵且耗时的文库准备和测序的需求。在本实验中,作者使用了ST-Align和其他 Baseline 模型(不包括遗传基础模型)的图像编码器,与MLP合作,在处理了80%的点后,用于预测剩余点的基因表达值。九个基因的预测结果,分为三组,如表3所示。

picture.image

单模态与多模态: 与单模态方法相比,在其他ST数据集上预训练的多模态模型在整体上取得了更好的结果。多模态模型在预测Layer Marker Genes和Laminar Genes方面分别取得了+9.26%和+12.64%的性能提升,但在预测Non-Laminar Genes时出现了-21.99%的下降,而ST-Align在Non-Laminar Genes上取得了+6.97%的改进。与Layer Marker和Laminar Genes不同,Non-Laminar Genes并不具有结构特定性。ST-Align与 Baseline 之间的观察到的对比性能强调了在预训练阶段结合遗传特征的重要性。

相较于其他多模态方法,ST-Align在预测层 Token 基因、层状基因和非层状基因方面分别实现了3.16%、4.51%和23.74%的性能提升,其中非层状基因的增益最大。这些结果突显了ABFN、AEs和空间感知模块的必要性。总的来说,ST-Align是一种有效的方法,可用于多模态联合分析和基因表达预测。

Ablation Study

作者对ST-Align中的模块进行了评估,通过在两个下游任务上进行一系列消融实验,结果如表2所示。

AEs和ABFN: ST-Align利用AEs和ABFN有效地捕捉和融合领域特定知识和ST特定信息。首先,作者消融了AEs,导致两个任务上的性能分别降低了8.06%和6.61%。为了进一步调查ST-Align对建模ST数据的战略,作者将ABFN+AE组合替换为单模态嵌入的直接 ConCat ,这使得第一个下游任务上的性能降低了5.14%。这些结果强调了AEs和ABFN在建模和集成ST特定病理图像和遗传数据方面的有效性。

斑点-凹槽对比学习: 作者进一步消融了斑点-凹槽对比损失 , 它指导斑点与相应凹槽之间的对齐。结果表明,将 集成到 ST-Align 中,在两个任务上的性能分别提高了 +17.76% 和 +1.64%。将 ABFN 与 ABFNAE 进行比较,作者在空间识别任务中观察到性能的提高,但在基因预测任务中出现了减少。这一发现表明, 可能增强了 ST-Align 模型细粒度和粗粒度数据之间空间关系的建模能力,而 ABFNAE 更擅长捕捉 ST 数据内的固有特征。

Visualization

为了说明多模态策略在识别空间聚类方面的有效性,作者在零样本设置下观察了ST-Align、CLIP和PLIP的预测聚类标签。如图3所示,切片151509中,L1和L2层连续,但结构上存在微小的差异,CLIP和PLIP无法准确区分,而ST-Align则成功地区分了它们。此外,在切片151673中,ST-Align相较于CLIP和PLIP更有效地划分了白质(WM)和L6层的边界。

picture.image

5 Conclusions

在本文中,作者介绍了 “空间转录组对齐”(ST-Align)模型,它是首个用于空间转录组(ST)的多模态基础模型。“空间转录组对齐” 模型是在 130 万个位点上进行预训练的,这些位点配有来自 573 个人体组织切片的相应细分数据,涵盖了正常、患病以及癌变状态。

总体而言,在空间域识别和基因表达预测这两项下游任务中,“空间转录组对齐” 模型的表现显著优于所有的基准模型。这些结果凸显了定制模块在有效建模空间转录组数据中独特的病理图像及遗传特征方面的潜力。

未来的工作包括实施更严格的数据质量控制,以及进行拓展以纳入更多数据和其他模态,从而增强模型的通用性。此外,在诸如区分与临床表型相关的细分领域等更多应用中对空间转录组进行探索,展现出颇具前景的研究方向。

参考文献

[0]. ST-Align: A Multimodal Foundation Model for Image-Gene Alignment in Spatial Transcriptomics.

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论