DeFusion: 用于多模态预测的高效解耦融合网络 !

大模型机器学习算法

点击下方卡片,关注 「AI视界引擎」 公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

时间胚胎图像和父母生育能力表指标对于体外受精-胚胎移植(IVF-ET)的妊娠预测都非常有价值。然而,当前的机器学习模型无法充分利用这两种模态之间的互补信息来提高妊娠预测的性能。

在本文中,作者提出了一种称为DeFusion的解耦融合网络,以有效地整合IVF-ET妊娠预测的多模态信息。

具体来说,作者提出了一种解耦融合模块,该模块将来自不同模态的信息解耦为相关和不相关信息,从而实现更精细的融合。

作者使用时空位置编码融合时间胚胎图像,并用表 Transformer 提取生育能力表指标信息。为了评估作者模型的有效性,作者使用了一个包含来自南方医科大学4046个案例的新数据集。实验表明,作者的模型优于现有方法。同时,在眼科疾病预测数据集上的表现反映了该模型良好的泛化能力。

作者的代码和数据集可在 https://github.com/Ou-Young-1999/DFNet上获取。

引言

近期的研究表明,高达12%-15%的夫妇被诊断为不孕症(Hornstein,2016)。试管婴儿胚胎移植(IVF-ET)是治疗不孕症最有效的技术之一。如图1所示,在IVF-ET过程中,医疗实验室技术行人通过刺激母亲的子宫促进排卵,获取多个卵母细胞,并在实验室环境中产生多个受精卵(Hanevik和Hessen,2022)。经过3-5天的培养后,实验室技术行人根据胚胎形态的视觉评估选择最佳的胚胎,并将其移植回母亲的子宫以供进一步发育。因此,选择高质量的胚胎是导致IVF-ET有希望的妊娠结果的关键步骤。

picture.image

在临床实践中,体外受精-胚胎移植(IVF-ET)的妊娠成功率仅为30%-40%(Gleicher等,2019年)。原因之一是,在移植后,最佳胚胎可能无法存活,因为人类对胚胎形态的评价高度主观且一致性较低。此外,胚胎形态并不总是与胚胎的真实发育活力相关。许多研究表明,形态良好的胚胎并未存活,而形态较差的胚胎却存活了下来(del Carmen Nogales等,2021年)。实际上,不仅胚胎形态影响妊娠成功率,父母的生育指标,如父母年龄、子宫内膜厚度、精子质量等,也会产生影响。

在计算机辅助IVF-ET领域,现有研究主要集中于胚胎形态分级。如图1所示,作者可以在IVF-ET的第3步和第4步之间获得胚胎发育的显微镜图像。为了执行胚胎形态分级任务,(Wu等人,2021年)和(Liu等人,2023a)应用基于静态胚胎图像的卷积神经网络(CNN);(Wang等人,2024年)和(Lukyanenko等人,2021年)分别应用基于时间推移显微镜(TLM)图像的transformer和双流神经网络。此外,(Cheng等人,2024年)融合多焦点图像以预测囊胚的结局。这些方法的表现优于实验室技术行人,因为胚胎分级完全基于形态信息,不同等级之间的显著形态特征对机器来说容易区分。然而,正如前一段所述,形态分级是间接的,与IVF-ET的妊娠结局的相关性较低。因此,更多研究倾向于直接预测妊娠结局。

近年来,基于人工智能的评估模型在直接预测怀孕方面取得了令人鼓舞的成功。(Dehghan等人,2024年)采用传统的机器学习方法,结合在步骤5之前获得的生育表指标进行怀孕预测。此外,第五天胚胎的静态图像和TLM图像也被用于分别预测怀孕结果(Kim等人,2024年;Berntsen等人,2022年)。更重要的是,(Liu等人,2022年)(MMBE)融合了第五天的静态胚胎图像和生育表指标,以实现更好的怀孕预测性能。现有基于图像的方法的主要局限性在于,它们仅适用于第五天的胚胎移植。然而,在现实中,许多生殖中心进行的是第三天的胚胎移植。尽管第三天的胚胎不如第五天发育成熟,但第三天的胚胎图像仍能为怀孕预测提供具有临床意义的 信息(Neblett等人,2021年)。另一方面,由于现实中存在一些技术限制,多模态融合图2:DeFusion的框架。在解耦训练过程中,不同模态的特征从无序变为有序。

picture.image

刘等人(2022年)的方法仅适用于最后一天的画面。

为了解决上述局限性,作者提出了一种名为DeFusion的解耦融合网络,以有效地整合前三天胚胎发育的时序图像和父母生育表指标,用于IVF-ET妊娠预测。

主要贡献总结如下:

  1. DeFusion首次将胚胎发育前三天的时序图像和父母生育表指标整合用于妊娠预测。
  2. 作者提出了一种空间-时间位置编码,用于融合时序胚胎图像。此外,作者应用表 Transformer 从生育指标中提取表信息。
  3. 作者提出了一种新颖的解耦融合网络,通过将不同模态的信息解耦到模态相关和不相关特征中,以更精细地融合多模态信息。

2.1 方法

本研究采用了一种基于深度学习的图像识别方法。该方法首先通过卷积神经网络(CNN)提取图像特征,然后利用长短期记忆网络(LSTM)对时间序列数据进行建模,以实现动态环境的预测。在特征提取阶段,作者引入了数据增强技术以增加模型的鲁棒性。在预测阶段,模型通过优化损失函数来最小化预测误差,并通过交叉验证来评估模型的泛化能力。此外,为了提高模型的效率,作者采用了批处理和GPU加速技术。

在医学多模态融合领域,通过补充不同模态的独特特征并增强其共同特征来获得最终的融合特征。然而,同一模态和不同模态之间的特征关系复杂,并非简单的线性关系。因此,难以被模型捕捉。受到(Dong等,2023年)(Li等,2023a)中解耦操作的启发,作者采用解耦融合策略,明确地将不同模态的特征解耦为独特和共同特征,将模态特征从无序转变为有序,简化了特征之间的关系,并更好地建模模态之间的复杂交互。因此,作者提出了解耦融合模块,如图2所示,这是一个简单而有效的多模态融合模块。模型的输入信息包括时间灰度胚胎图像和生育指标表。胚胎图像表示为,其中代表不同的天数,H和W分别表示图像的高度和宽度。指标表表示为,其中表示指标的数量。

图3:时间融合网络(图像提取器)的细节。

picture.image

2.1.1 图像提取器

为了融合前三天胚胎图像以预测妊娠,作者设计了一个时间图像融合网络(图像提取器)。该网络包含三个部分,如图3所示:一个旨在提取图像特征的 Backbone 网络;一个时空位置编码(STPE),用于获取单张图像内的空间信息和不同图像之间的时间信息;以及一个结合STPE以融合时间图像特征的Transformer(Dosovitskiy等,2021年)。首先,作者使用 Backbone 网络从第一天到第三天提取胚胎图像特征。然后,作者将图像特征 Reshape 为 Token 并添加位置信息。通过卷积层将图像特征编码为空间位置编码:。通过使用卷积操作捕捉局部空间特征,作者可以获得单张图像内的空间位置信息(Chu等,2021年)。通过池化层和一系列递归层将图像特征编码为时间位置编码:,。通过递归操作捕捉时间依赖性,作者可以获得不同图像之间的时间位置信息(Hochreiter和Schmidhuber,1997年)。为了对齐图像特征,需要复制以得到。通过位置编码注意力将和集成。

属于实数集,维度为。最终的如下所示:

在获取STPE后,将通过对图像特征 Reshape 获得的 Token 集成到Transformer编码器中,可以有效地融合孕期预测的时序胚胎图像。

2.2. 表提取器

受表ransformer(黄等,2020)(表提取器)的启发,作者通过Transformer(Vaswani等,2017)提取生育表指标表信息。为了使表信息适应Transformer,作者将表嵌入指定为线性层,以提升表特征到。随后,作者构建了一系列带有多头自注意力(MHSA)的Transformer层,以提取表信息:

在此,LN代表层归一化,MLP指线性层。

2.3. 解耦融合模块

作者采用图像特征提取器和表特征提取器来提取时间图像特征和表特征,分别用 和 表示它们的输出。为了在更细的粒度上融合不同模态的信息,如图2所示,作者提出了一种解耦融合模块,该模块将不同模态的特征分解为相关(公共)特征和无关(独特)特征。通过共享 提取模态间的相关特征 和 ,并通过 和 提取无关特征 和 。作者可以使用交叉重建方法(Ji等人,2021;Liu等人,2023b)来解耦不同模态的特征。交叉重建损失如下:

L1范数表示为,特征维度为。作者通过融合解耦后的公共和独特特征得到最终的孕期预测结果:。最后,作者应用交叉熵损失来最小化预测结果与真实标签之间的差异。分类损失如下:

代表真实标签, 是批大小。整体损失函数如下:

3.1 实验

3.1. 数据集

本研究使用的第一份数据集来自南方医科大学,包含4046个有效的胚胎移植案例。每个案例都包括图像数据和表数据。图像数据是胚胎发育前三天内的显微镜图像。表数据包括22个父母生育指标。每个样本的标签为阳性或阴性,表示是否成功孕育胎儿心脏。作者对数据集进行了5折交叉验证。

第二个数据集来源于北京大学国际眼科疾病智能识别竞赛(ODIR,2019),原始任务是通过对图像进行单模态分类来识别眼病。为了使数据集适用于多种模态,作者提取了3500个眼病预测的图像模态和表模态信息。其中,图像模态包括眼图像,表模态包括从关键词转换而来的8个指标。作者已将此数据集作为新的多模态数据集向公众开放。作者对数据集进行了四折交叉验证。

3.2 评估指标与实验设置

在实验中,作者使用准确率、ROC曲线下面积(AUC)和F1分数来评估性能。AUC是一个综合性的指标,用于评估预测的准确性。F1分数是一个考虑模型预测的精确率和召回率的指数。作者使用PyTorch在Nvidia GeForce RTX 2080ti图形处理单元(GPU)上实现作者的方法。此外,由于图像类别 Token 和表类别 Token 需要共享一个编码器,作者使用线性层对它们进行对齐。图像提取器的学习率是10的负6次方,而表提取器模型的学习率是10的负4次方。DeFusion模型的学习率是10的负5次方。上述模型都使用Adam(Kingma和Ba,2014)优化器。与第3节类似,H=224,W=224,N=22,且λ=1。

3.3 基准方法

作者与表1所示的 Baseline 方法进行了比较,作者的模型在所有评估指标上均取得了优异的性能。首先,针对表模态,作者将支持向量机(SVM,Dehghan等人,2024)和Adaboost(Dehghan等人,2024)作为基于父母表生育指标的单一模态模型进行了比较。作者还比较了表et(Arik和Pfister,2021),这是一个专门为表分类任务设计的神经网络模型。作者使用的表ransformer方法表现最佳。其次,针对图像模态,通过与基于Add、LSTM(Hochreiter和Schmidhuber,1997)和不同位置编码(正弦-余弦和可学习)的Transformer(Vaswani等人,2017)的时间图像融合模型进行比较,作者的STPE在基于Transformer的时间图像融合策略中实现了最佳性能。第三,针对图像和表模态,作者比较了附录A和B中最近引入的多种模态 Baseline 方法。作为一种新的类别融合方法,作者的方法实现了最佳结果。

picture.image

解耦融合网络:孕期预测的比较和消融实验结果

3.4. 消融研究

作者通过消融实验来评估模型中每个模块的贡献,具体结果见表1。首先,作者对时空位置编码(STPE)进行消融,包括空间位置编码(SPE)、时间位置编码(TPE)和位置编码注意力(PEAttention),分别 Token 为无SPE、无TPE、无PEAttention和无STPE。

此外,通过比较ResNet(He等,2016)和ViT(使用ViT)(Dosovitskiy等,2021)的性能,作者选择ResNet作为图像的 Backbone 网络。同样地,通过无解耦模块来评估解耦模块的贡献。另外,通过比较表et(Arik和Pfister,2021)(使用表et)和表ransformer,作者选择表ransformer作为表提取器。

3.5. 泛化能力

泛化能力是人工智能模型在处理未见过的数据时表现出的能力。在机器学习中,一个模型的泛化能力是其性能的关键指标,因为它反映了模型从训练数据中学习到的知识是否能够应用于新的、未被直接接触过的情境。高泛化能力的模型能够在各种不同的任务和环境下保持稳定的表现,而低泛化能力的模型则可能只能在其训练数据所对应的特定情况下表现良好。研究提高泛化能力的方法对于推动人工智能技术的发展具有重要意义。

尽管提出的DeFusion模型旨在进行怀孕预测,但其背后的原理是通用的,可以应用于其他多模态医学图像分析任务。作者将DeFusion扩展应用于ODIR数据集上的多模态眼病预测。最终的预测结果展示在表2中。尽管作者的模型并未达到最高的准确率,但在AUC指标上表现最佳,这表明作者的模型在整体性能上更为出色。

picture.image

图4:(a)测试数据集的解耦特征在t-SNE空间中的可视化。(b)解耦特征的互相关系数矩阵。

picture.image

3.6. 可视化

在人工智能领域,可视化是一个关键的辅助工具,它能够将复杂的算法和数据结构以直观的方式呈现出来。通过可视化,研究行人和开发者能够更好地理解模型的内部运作机制,从而优化算法性能,发现潜在的问题,并提升用户体验。在可视化技术中,常见的包括数据可视化、模型可视化以及交互式可视化等。

如图4所示,作者从解耦测试集中输出了t-SNE(van der Maaten和Hinton,2008)的结果和平均皮尔逊相关系数(PCC)矩阵(Sverko等,2022)的(与图像相关的)、f(tab-related)、(与图像无关的)和(与表无关的)。PCC的取值范围在0到1之间,数值越大表示相关性越强。经过t-SNE降维后,和的点之间的重叠以及和之间的高PCC值表明,模型成功捕捉到了两种模态之间相关且重叠的信息。相反,和被很好地分隔开,表明它捕捉到了两种模态之间独立且互补的信息。这些证明了解耦模块的有效性。

  1. 结论

本文提出了一种名为DeFusion的解耦融合网络,旨在整合时间胚胎图像的多模态信息和父母生育指标表,以用于IVF-ET妊娠预测。

该模型卓越的性能表明,作者的模型能够为胚胎移植的选择提供有价值的辅助。

通过可视化和泛化实验,已证实解耦融合模块的有效性。

未来,作者将优化解耦模块并将其扩展到更多数据集。

参考

[1]. DeFusion: An Effective Decoupling Fusion Network for Multi-Modal Pregnancy Prediction .

点击上方卡片,关注 「AI视界引擎」 公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论