跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !

向量数据库大模型NoSQL数据库

备注好友:

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

医学视觉语言模型(MVLMs)由于能够提供自然语言接口来解释复杂医疗数据而引起了广泛关注。它们的应用领域非常广泛,有可能通过更高效地分析大型数据集来提高个体患者的诊断准确性和决策。

MVLMs将自然语言处理与医学影像相结合,以实现对医疗影像及其对应文本信息的全面和情境理解。

与在多样化、非专业化的数据集上训练的通用视觉语言模型不同,MVLMs专门为医学领域而设计,能够自动提取和解释医疗影像和文本报告中的关键信息,以支持临床决策

MVLMs在临床应用中非常流行,包括自动化医疗报告生成、医疗视觉问答、医学多模态分割、诊断和预后以及医疗影像文本检索。

在这里,作者提供对MVLMs的全面概述,以及它们应用于各种医疗任务的详细分析。

作者对各种视觉语言模型架构进行了深入分析,重点关注它们在跨模态整合/利用医疗视觉和文本特征方面的独特策略。作者还检查了用于这些任务的数据集,并比较了不同模型基于标准化评价指标的表现。

此外,作者突出了潜在的挑战,并总结了未来的研究趋势和方向。

论文和代码的完整集合可在 https://github.com/MVLMs 处找到。

1 Introduction

近年来,尤其是多模态数据(multimodal data)的指数级增长,使得医疗视觉语言模型(MVLMs)的需求日益迫切,这些模型将计算机视觉和自然语言处理相结合,利用数据的互补特征来改进医疗实践中的规划、预测、诊断和治疗。MVLMs通常通过图像编码器学习视觉特征,通过文本编码器学习文本特征,然后使用针对单个任务的特定生成器或分类器进行跟进。

它们可以训练具有强大的数据理解和生成能力,这些能力可以用于各种医疗应用[1]。例如,它们可以分析图像和文本数据,然后生成诊断报告[2, 3],提供诊断建议[4, 5, 6, 7],或者实现医疗图像和文本数据的快速检索,以促进临床研究和案例分析,如图1所示。MVLMs可以减轻医生的工作负担,提高诊断和治疗的准确性,因此已成为医学图像分析领域的一个重要话题。最近该领域的增长可视化如图2所示。

picture.image

picture.image

医学领域的多模态语言模型(MVLMs)专门用于处理复杂的医学数据,如医学影像和电子病历等,这些数据都需要了解特定的医学术语、微妙的视觉模式和与临床相关的知识。由于其输出可以直接影响患者护理,因此对MVLMs的要求更高,需要高精度和可靠性。然而,在医学领域开发大型视觉语言模型存在几个挑战。首先,由于隐私问题和有限的可访问性,收集医学数据具有困难。严格的法规通常限制医疗数据共享,限制了用于训练的大型、标注数据集的可用性。其次,医学数据高度异构,涉及各种成像模式(如X射线、MRI和CT)和不同的文档风格,这使得开发可以有效泛化的模型变得复杂。此外,确保高质量的数据标注和模型验证也存在关键需求,因为不准确性可能会导致与临床相关或安全的后果。第三,许多MVLM应用程序需要解决不平衡数据集的挑战,其中某些特定条件和患者人口统计数据可能过于突出。有效处理这些挑战对于开发不仅准确、可靠,而且可以在临床环境中应用的模型至关重要。最后,与通用视觉语言模型不同,MVLMs需要高度的 interpretability 和可信度,因为其输出用于支持关键的临床决策。这需要针对医学领域独特需求的严格验证和性能。

作者的目标是提供一个专门的调查,系统地评估关于MVLMs(多模态可学习模型)的现有研究状态。作者全面概述了现有方法,确定了关键挑战,并针对医学背景提出了未来研究方向。作者的目标是促进跨学科合作,通过将AI研究行人、临床医生和医疗保健专业行人聚集在一起,开发创新解决方案,以增强临床实践。为了解决这一需求,作者对包括以下各种医学多模态任务中的MVLMs进行了系统调查:

  1. 医疗报告生成(MRG):该任务旨在通过准确定位特征、提取信息并生成精确文本,为X光片生成医疗报告。
  2. 医疗视觉问答(VQA):系统预计能准确回答有关医学图像的问题。
  3. 医疗多模态诊断与预后:结合图像的各种模态,如症状描述和医学历史,以确定疾病严重程度、评估结果或分割医学图像。
  4. 文本指导医学图像分割(MIS):该任务将文本数据(如症状描述和医学历史)与图像的多种模态相结合,以确定疾病严重程度、评估结果或分割医学图像。
  5. 医疗图像-文本检索(ITR):该任务关注开发能够高效检索相关图像或文本的系统,以支持临床应用,如诊断和教育。

为了在多个医学应用领域提供全面的概述,关键驱动力在于实现对整个领域所采用技术的整体分析和比较。相比之下,以前的研究更侧重于医学视觉语言学习领域内的特定任务或方法。例如,关于MRG 的研究主要回顾了使用多模态数据生成放射科报告的深度学习方法,但未涉及MRG领域的应用。同样,关于医学 VQA 的研究分析了回答医学图像相关问题的模型,但未扩展到其他关键任务。此外,关于多模态学习的调查专注于将图像和非图像数据融合用于疾病诊断和预后,但其在涵盖更广泛的视觉语言任务,如医学VQA方面存在局限性,需要同时理解和生成。此外,特定方法论的调查可以深入研究单个模型或方法,但仍然局限于各自领域。例如,[25]提供了CLIP模型在医学影像应用方面的全面回顾,但主要关注这一特定方法。[26]深入探讨了医学图像分割的深度学习方法,提供了对这一特定任务的理解,但并未覆盖最近的语言基础分割方法。总的来说,尽管这些调查在特定领域提供了有价值的见解,但它们仍然局限于特定任务或特定方法,并未扩展到医学AI中的视觉语言模型的更广泛范围。

该研究的的主要贡献如下:

  1. 与现有关注医疗视觉语言领域特定方面或任务的调查不同,作者提供了一份覆盖过去5年该领域关键任务的全景和最新的综述。这种广泛的范围使作者能够识别出这些任务的整体趋势和相互联系,为该领域提供了一种更全面的视角。
  2. 对于每个任务,作者深入探讨了其在医疗保健中的重要性,它所面临的挑战,已有的方法,用于评估的现有数据集,实验结果,以及未来的研究方向。通过提供深入的见解和视角,本文可以帮助读者更好地理解该领域的现状和未来的研究方向。

2 Medical Report Generation

Task Description

医疗报告生成[27, 28]旨在根据医学图像创建详细描述,这是医疗保健中一个关键而复杂的任务。准确解释图像对于诊断和治疗至关重要,需要医疗专业人士投入大量时间和精力。使用人工智能自动化这个过程可以减少工作量,提高效率,并有助于解决专业医生短缺的问题。如图3所示,当前的方法主要使用图像描述生成技术来提取和解码图像特征以生成报告。

picture.image

Visual Features from Images

医学影像揭示了患者的病理变化,提供了关于疾病类型、位置、范围和严重程度的关键信息,这些信息构成了临床诊断的基础,有助于医生做出准确的诊断。给定一个放射科图像X,通过图像编码器

(如VGG [29],ResNet [30]或Transformer [31])提取一系列视觉特征

。从数学上讲,这个过程可以表示为:

其中,

表示第i个patch嵌入/token,

表示其总数。

2.2.1 Feature Extraction

许多神经网络在医学图像分析中广泛应用,用于提取关键视觉特征。例如,DCNet [32] 使用了 VGG16 [29],ResNet152V2 [30],和 DenseNet201 [33],这些网络都采用了层次化的特征提取层,以关注关键的视觉模式。 MedSkip [34] 将一个经过修改的 HRNet 与跳接连接和注意力模块相结合,使得网络在文本生成过程中能够选择性地优先考虑重要特征,同时忽略无用的信息。同样,SGT [35] 构建了一个异构场景图,以捕捉手术场景中仪器和 tissue 之间的关键交互,从而实现高效的地方信息处理,并最小化表示中的冗余数据。

2.2.2 Feature Enhancement

视觉特征可分为全局特征和局部特征。全局特征描述整个图像,而局部特征关注特定区域。在撰写临床报告时,医生会同时考虑全局和局部特征进行全面判断。一个理想的MRG模型应模拟这个过程,找到有机地将这两种特征相结合的方式。然而,图像中非病理区域的主导地位往往导致偏差,仅关注全局特征的模型可能会忽视局部异常。因此,准确捕捉和描述异常对于有效的MRG至关重要。

近年来,各种强调特定图像区域的方法得到了研究。对比注意力(CA)模型[36]通过比较当前图像与健康对照,识别出异常区域,突出异常的视觉特征。类增量域自适应[37]使用多层 Transformer 基础模型,将ResNet18增强以处理输入图像。多任务设计[38, 39, 40, 41]已被证明在增强特征表示方面有效。一些方法通过分类[41]或分割[41]等任务直接识别出异常区域。其他方法,例如MRM[40],在预训练过程中使用任务如 Mask 预测来增强信息提取。

Cross-Modal Alignment

在MRG(Multi-R observation Graphical Model)中的跨模态学习模型,这些模型涉及视觉和文本信息,将这些模态对齐可以增强图像特征向文本报告的转换。一种常见的做法是使用共享特征空间,其中视觉和文本数据被映射到同一空间。在这个空间中,图像和文本可以直接比较和匹配。例如,基于注意的方法[42, 43, 44, 45, 46]可以自动学习图像和文本之间的关键关联,而生成对抗网络(GANs[47])通过生成器和判别器实现对齐。基于度量学习的方法[48, 49]通过对比学习或排名损失将图像区域与异常的文本描述进行对齐。

Generating Report

解码器根据给出的视觉特征,基于概率生成报告:

其中,

表示生成的报告,

指解码器。在解码器部分,使用了三种不同的架构来生成医学报告,如图4 所示。

picture.image

2.4.1 Autoregressive Architecture

最简单的解码方法是使用循环神经网络(RNN)如LSTM [50, 51]或GRU [32]逐字生成结果,如图4(a)所示。一些研究已经将注意力机制融入了这个基础中 [52]。另一种常见的自回归生成方法是Transformer架构,如[53, 54, 55]。与LSTM不同,Transformer [31]引入了自注意力机制来解决长期记忆损失,即在处理较长输入时保留信息的前期部分具有困难。自注意力机制使Transformer可以直接访问和权重大小输入序列的所有部分,无论距离,确保在长序列中更好地保留相关信息。例如,[56]进一步修改了注意力机制以适应从图像编码器接收的特征。这些工作中的某些是为了跨模态增强或对齐。而其他工作则旨在接收辅助信息[56, 58, 60]中提取的特征。这里的辅助信息,无论是通用的还是特定的医学知识,都为原始特征提供了额外的补充描述。这样的修改后的模型允许更好地关注从特定信息或知识中处理得到的视觉或文本特征。

2.4.2 Hierarchical Architecture

在MRG中,正常和异常区域的描述通常有很大差异,需要详细描述多个图像区域。为了解决这个问题,许多工作使用了层次解码器。如图4(b)所示,这些包括一个句子解码器来生成主题向量,以及一个词解码器,根据这些向量逐个创建句子。这种方法确保每个句子有效地传达特定信息,提高报告的可解释性,并减轻了单个解码器对长句的局限性。例如,在[61]中,句子解码器首先生成一个句子,后续句子使用前一个句子的嵌入。

Template-based Architecture

医学领域使用标准化的格式和标准,以确保报告的一致性和可比性。这种标准化简化了理解和交流,允许这些报告中的模式增强和细化诊断描述,并激发新的报告生成方法。

为了使模型能够学习特定的陈述,必须事先提供大量的模板数据。这些数据可以直接来自原始报告,也可以是经过手动处理和检查的句子。如图4(c)所示,基于模板的报告生成方法可分为检索和混合检索-生成两大类。在仅检索的方法中,一些研究直接从数据库中选择句子[64]或对其进行修改以提高准确性[65, 66]。其他研究[67, 68]使用数据库句子作为模板,用异常信息填充以生成最终报告。例如,MedWriter[66]采用了一个视觉-语言检索模块来查找与图像最相关的报告,并采用了一个语言-语言检索模块来根据生成的描述检索相关的句子。语言解码器然后将图像特征与检索到的报告和句子特征相结合,生成有意义的医疗报告。

LLM-based Architecture

诸如LLaMA [69, 70], GPT系列[71, 72]和PaLM [73],这些在大量文本上进行训练的LLM(语言模型),在自然语言理解和生成方面具有强大的能力。它们可以根据用户提供的结构化或非结构化数据生成高质量的文字报告,从而极大地减少了手动编制的时间和精力。传统的模板生成方法在某种程度上实现了自动化报告编写,但当面对复杂和多变的内容时,往往难以应对。LLM的的出现为解决这个问题提供了一种新的解决方案,即通过根据上下文自动生成语法和逻辑文本,而无需进行复杂的模板设计。因此,LLM正在逐渐被用于MRG(多源信息融合)。

LLMs输入的数据通常需要进行预处理和格式化以适应文本 Prompt ,以确保LLMs能够理解,如图4(d)所示。关键方面是设计适当的 Prompt 来引导LLMs的生成过程。例如,PromptMRG [78]选择将分类分支的诊断结果转换为自由格式的报告,由LLMs生成。[79]使用多模态对齐嵌入和LLMs来检索给定图像的相关放射学文本,并基于检索到的文本生成报告。其他人如[80]在识别解剖区域后,生成针对结构化报告的关键视觉元素的句子。这样,预训练的LLMs可以根据解剖区域生成结构化报告。

2.5 Domain Knowledge

尽管近年来MRG取得了显著进展,但医疗数据的可用性仍然有限。为了解决这个问题,许多研究已经将额外的领域知识整合进来,例如医学术语和知识图谱。医学术语描述概念、疾病、解剖结构以及治疗方法,在医疗报告中提供具体信息。知识图谱是语义网络,展示了实体之间的关系,其中结构关系代表不同的医学术语。这些图可以基于医学知识预先构建,也可以基于视觉特征进行预测性构建。如图5所示,模型以各种方式使用领域知识,主要是在(a)跨模态融合和(b)文本生成部分。

picture.image

Knowledge-based Cross-modal Fusion

医学术语或知识图谱的引入可以帮助模型选择性地关注特定的视觉特征,从而促进跨模态对齐。对齐过程可以分为两大类。一些研究在融合之前分别编码图像特征和知识,然后将其传递给解码器。而其他研究则将它们一起编码,使用注意力机制过滤重要的视觉特征或获取报告生成的知识表示。例如,[58]使用了一个知识增强的多头注意力机制来结合结构知识和视觉特征。 [57]使用了一个后验知识探索器来识别具有疾病关键词的不正常区域,并使用一个先验知识探索器来利用疾病知识图。此外,AlignTransformer模型[88]在不需要额外知识输入的情况下,从输入图像中预测疾病标签。

Knowledge-based Text Generation

在报告生成过程中,领域知识有助于模型做出准确的判断和结论。医学术语有助于识别疾病属性,而知识图谱指导诊断的描述。一些模型直接将知识与视觉特征相结合,例如,[89]在文本生成过程中使用注意力机制将纵向和图像嵌入相结合。其他人在生成之前处理领域知识。例如,KiUT[91]使用注入式知识蒸馏器从视觉、上下文和临床知识中提取有价值的信息。一些方法(92、93)首先预测关键词,并根据用户反馈或专家更正进行更新。

2.6 Datasets and Results

对于公共数据集,最常用的是IU X光片[94],包括7,470张正面和侧面胸部X光片以及3,955份报告。数据集MIMIC-CXR [95]和PadChest [96]分别包含377,110和160,868张图像,在一定程度上缓解了数据量不足的问题。此外,一些数据集已被用于图像分类作为报告生成的预训练、中间或辅助任务。这类分类数据集并不为每张图像提供报告,而是提供一组在图像中存在或缺失的临床状态或异常。例如,CheXpert数据集 [97],包含224,316张图像,CheXpert分类器在自然语言报告中 Token 14个状态或异常,如存在、不存在或无法确定。由于页面限制,数据集、评价指标和实验结果等详细内容请参见补充材料A.1。

Limitations and Insights

作为一项有前景的研究领域,MRG 仍然面临一些重大的局限性,包括 1) 数据多样性不足和数据集大小有限,2) 缺乏可靠的生成过程,3) 评估指标和专家评估不足,以及 4) 仅以英语为中心的生成。

首先,用于MRG研究的数据集缺乏多样性和规模不足。大多数研究关注胸X光图像及其相关报告,导致具有高度相似的异常区域和固定疾病类型和描述的数据集。这限制了模型满足多样化临床需求的能力,并降低了它们的泛化能力。目前,其他类型的数据和身体部位的研究还相对较少。扩展研究,包括各种模态和身体区域,如[98]所示,可能会导致更通用和多功能的模型的出现。

其次,确保多模态数据之间的语义对齐并非易事。在训练过程中,模型通常会从视觉、文本以及各种类型的知识中学习。然而,很难检查领域知识(如医学关键词)是否正确地匹配了其他模态数据(如图像)。语言模型(LLM)具有强大的语言理解能力,可以提供单词、句子结构、上下文依赖以及其他信息之间的语义关系深度理解 [77, 78, 80]。然而,如何将LLM应用在MRG系统仍然是一个开放性问题。

在结果检查方面,自动评估通常使用传统的NLP指标。然而,像BLEU [99]和CIDEr [100]这样的NLP指标并不是专门针对医学领域的,不能考虑到领域特定的现象。此外,由于工作量,MRG研究很难进行专家评估,但这些评估对于将模型集成到临床环境中至关重要。因此,开发自动和医学特定的评估指标是未来研究的关键方向。

最后,虽然英语在视觉语言数据集中被广泛使用,但并不是全球大多数人口的本族语言。单语言数据的研究导致了性能有限,并且在医学应用中可能对非英语使用者社区产生偏见。由于词汇、语法和文化差异,在不同语言中缩小开发是具有挑战性的。准确表示医学术语和临床信息至关重要。尽管多语言建模通常依赖于机器翻译[101],但它可能会受到语义歧义和术语翻译不准确的影响。未来的研究应关注提高医学领域机器翻译的准确性,并探索直接统一跨语言语义表示的方法,这将提高多语言医学报告生成的效率和质量,如[102]。

3 Medical VQA

Task Descriptions

医疗视觉问答(VQA)旨在根据医学图像提供准确的问题答案。这个过程具有挑战性,需要分析视觉和文本信息。大多数架构遵循通用VQA使用的框架。如图6所示,它通常包括图像编码器、问题编码器、多模态特征融合方法和答案预测模块。具体而言,给定一个图像X和一个问题Q,模型产生一个答案

,其中L是答案的长度。问答设置可以是开放的或封闭的。封闭的设置有有限的答案选择,可以将其视为分类任务。开放的设置更具挑战性,需要更广泛的理解和自由形式的回答。

picture.image

Enhanced Image Encoding

尽管预训练-微调范式提高了视觉语言模型的准确性,但有限的医学数据和标注限制了在医学VQA数据集上的预训练。已有几项研究[103, 104, 105]利用在ImageNet上预训练的模型进行视觉特征编码,证明其有效。有效提高预训练方法以高效处理数据编码是医学VQA研究的关键焦点。当前的研究主要考虑对比学习[48, 106],元学习[107, 108],以及多任务学习[107, 109]。

3.2.1 Contrastive Learning

对比学习增强了图像和文本之间的语义关系理解,从而提高了准确回答问题的能力。MUMC [110] 和 M2I2 [111] 使用了一种预训练-微调范式,结合自监督框架,其中包括对比损失、 Mask 语言建模和图像-文本匹配。他们使用图像描述数据集来学习单模态和多模态特征表示。类似地,CPRD [106] 采用对比学习方法处理无标注图像,以创建一个通用的视觉特征编码器,无需辅助任务和额外 Token 。RepsNet [48] 专门设计用于在编码过程中对比图像和文本。

3.2.2 Meta-learning

直接将自然领域模型应用于医学领域,由于数据方差大且数据稀缺,往往会导致过拟合。为解决这一问题,研究行人采用元学习方法,以便更好地利用原始医学数据。VQAMix [111] 通过图像和问题的跨模态MixUp减轻数据限制。MMQ [112] 为Model-Agnostic Meta-Learning (MAML)训练生成元标注。它生成了具有强大特征的元模型,用于医学VQA任务,并通过自动标注处理噪声标签,无需额外数据。

3.2.3 Multi-task Learning

多任务学习可以通过在多个相关任务上联合学习来提高模型的泛化能力,这在视觉问答(VQA)任务中已被证明是有效的[107, 109, 113]。例如,[109]是一个包括问答和定位的多任务模型。与答案相关的实例级定位任务可以帮助学习者在手术场景中面对各种相似的仪器和操作时处理困惑。

Enhanced Question Encoding

问题编码器将文本数据转换为向量/嵌入,捕获语义信息。广泛用于问题编码器的模型包括LSTM、Bi-LSTM、GRU和Transformers,如BERT [114]和BioBERT [115]。基于Transformer的预训练模型以及BERT基础的预训练模型,尤其是具有自监督 Mask 语言建模[110, 111, 116]的Transformer-based和BERT-based模型,在医学领域取得了有效成果。跳思向量[117]也是可行的,通过动态词汇学习语义和上下文表示。对于输入,一种分层VQA框架[118]将当前问题与历史问题和答案集成,以确保一致性。尽管图像编码器已经看到了更多的创新,为医学领域开发文本编码器可以增强医学VQA系统的理解和准确性。

Fusion Methods

融合方法将编码器提取的视觉和文本特征相结合,建模它们之间的语义关联。作为VQA(视觉问答)的关键部分,高效的融合方法利用多个特征的互补优势进行准确的问题回答。常见的融合方法包括注意力机制和多模态池化。

3.4.1 Attention Mechanism

注意力机制在诸如分类、检测和分割等任务中得到广泛应用,通过关注关键局部信息并将其结合以形成整体印象,模仿人类的观察方式。它允许模型为输入部分分配不同的权重,提取出进行准确判断所需的关键信息,从而提高目标识别和分类的准确性。

在VQA问题中,堆叠注意力网络(SAN)[119]和双线性注意力网络(BAN)[120]是常用的注意力方法,类似于[121, 122]中的模型。SAN使用问题特征作为 Query ,对与答案相关的图像区域进行排名,通过多个注意力层对关键区域进行过滤以识别相关区域。BAN将共注意力扩展到双线性注意力,使用双线性交互图和低秩双线性池联合表示问题和图像特征。在预训练阶段,通常使用多头注意力机制,如Transformer类似的模型结构,例如[110, 111, 116]。例如,MF

-MVQA [123]使用CNN编码器从医学图像中获取多阶段特征图,然后逐步添加到每个Transformer层。这种方法利用注意力机制获取多尺度信息,避免不同阶段视觉特征的混淆。

Multimodal Pooling

视觉与文本特征的多模态池化是融合视觉和文本特征的关键技术,通常使用 ConCat 、求和或逐元素乘积等方法。例如,Q2ATransformer [124] 和 hi-VQA [118] 通过 ConCat 图像和问题特征的方式将图像和问题特征融合在一起,这种简单的方法有效地降低了信息损失。然而,这些基本操作可能无法捕捉到模态之间的复杂关系,高维输入向量可能会使点积在计算上变得昂贵。

一些研究提出了更有效的双线性池化方法,以提供视觉和文本特征的丰富多模态表示。多模态紧凑双线性(MCB)池化[125]将特征映射到高维向量,并在频域中执行乘法卷积。然而,MCB的高维性质可能限制其适用性。为了解决这个问题,多模态低秩双线性(MLB)算法[126]使用哈达马积利用降低双线性池化的秩。QC-MLB[127]使用MLB模块 Query 具有书写问题的图像,通过多视图自注意力机制强调问题特征。此外,MedFuseNet[128]采用两个注意力模块,允许来自不同模态的特征相互交互两次,该网络通过多模态因子分解双线性(MFB)池化[129]将关注的图像和问题特征相结合。

Closed-ended vs. Open-ended

在所审查的论文中,大多数模型使用分类器来输出答案,而少数模型将问题回答视为文本生成任务(参见图7中的差异)。这些方法的有效性取决于 GT 答案的长度。在较小的答案空间内,分类更简单且具有优势,但它在处理较长、开放式问题或复杂答案(如详细病灶描述)时表现挣扎。与此同时,生成方法通常会产生不存在的答案,导致准确性降低。

picture.image

一些方法[128, 130]使用切换策略,将封闭式问题的分类与开放式问题的生成相结合。这种方法需要复杂的模型,但对于不同类型的问题提供准确的结果。例如,[124]通过将分类和生成相结合来统一处理两种问题类型。它在解码过程中使用可学习的候选答案嵌入来 Query 每个答案类别,并通过注意力机制与融合特征进行交互,从而有效地减少了答案搜索空间。这种过程还具有基于生成的开放式框架的优势。

一些研究提出了在结合分类和生成之外的创新方法,以准确生成答案。[131]使用映射网络将图像特征转换为可学习 Token ,这些视觉前缀与问题特征一起作为语言模型的输入。这些视觉前缀通过有效地传达医学图像信息,指导语言模型生成准确答案。 [121]集成了一个问题条件推理(QCR)模块来捕获问题注意力信息,从而增强推理能力,以及一个类型条件推理(TCR)模块来学习问题类型的差异。

Datasets and Results

医疗视觉语言测验中最广泛使用的数据集包括VQA-Med [132, 133, 134],VQA-RAD [135],PathVQA [136]和SLAKE [137]。每个数据集都包含按照特定类别分组的一对图像。数据集、评估指标和实验结果的详细信息已在附录A.2中给出。

Limitations and Insights

当前的医学VQA模型仍然存在几个局限性,包括高质量数据的不足,缺乏支持多轮对话的支持,对问题分析的文本编码无效,数据集之间的泛化能力有限,以及需要提高解释性和可信度。

首先,低质量数据是主要的限制因素。作者发现现有的医学VQA模型在有效辅助医疗系统方面存在不足。主要问题是数据质量和范围有限,常常包括医生和患者通常不会问的问题,例如“图像中包含左肺吗?”这类实际应用性不强的问题。相反,他们更关心疾病的存在和进展。具有低临床相关性的这种数据并不能帮助模型做出准确的疾病判断。

医学VQA模型的结构大致标准化,重点在于创新图像编码器。相比之下,提出新方法用于编码文本特征或提取问题信息的研究较少。现有模型可处理的问题种类有限,这表明医学VQA中的文本编码可能并非最优。

此外,医疗VQA模型的泛化能力需要提高。许多模型针对特定数据集进行定制,不能轻易应用于其他医疗数据集,因此在面临未知情况时,会导致次优的准确性。大型语言模型的发展为提高问题编码器提供了潜在可能性。随着NLP和医学知识图谱[23]的进步,未来的模型可以更深入地理解医学文本,并提高问题分析能力。

医学VQA模型缺乏支持多轮对话的能力,这是现实医疗互动中的一个关键方面,患者和医生会进行动态、持续的对话。目前,这些模型仅能处理单个问题和回答,没有跟踪上下文或对话连贯性。这一限制了它们的实际应用,因为有效的医疗咨询通常需要多轮对话才能完全了解症状或澄清诊断。即使在自然领域[138]中,多轮对话的视觉对话也很少被探索。

最后,提高医疗VQA系统的可解释性和可信度对未来的研究至关重要。确保模型的答案易于理解并准确地定位,将会在医学专家之间建立信任,并鼓励其在临床上得到应用。一些研究[108, 139]在回答问题时,将病理区域进行本地化和 Token ,并采用多任务策略来验证答案的准确性,这是有前景的,但在医学VQA方面的研究还比较少。

4 Medical Multimodal Diagnosis and Prognosis

Task Description

医学多模态诊断通过分析临床表现、检测结果和医学影像,识别出疾病的类型、病因、严重程度以及治疗选择,需要基于症状进行全面的判断。医学多模态预测可预知疾病进展、治疗效果、并发症风险以及患者预后。

与单一模式诊断和预测相比,医学多模态诊断和预测(整合报告、标签和其他文本信息)能提供更全面的洞察,从而实现更精确的诊断。通过来自各种模态的数据,作者可以更好地了解患者的健康状况。

Methods

许多研究已经成功地使用单模态方法在医学诊断或预后方面取得了成功[140, 141]。然而,有效融合多模态数据并不是一件容易的事情,因为不同的临床模态包含不同的信息,并且具有不同的数据格式。作者在图8中展示了涉及的数据类型和医学多模态诊断和预后的过程。

picture.image

常用的图像具有不同的维数,例如2D和3D。文本数据通常包括医学报告、疾病标签和诊断记录。图像较大且密集,而文本数据较稀疏且低维。例如,2D病理图像提供肿瘤的显微镜形态学,而3D CT或MRI影像学图像提供宏观和空间信息[4]。因此,这些异质数据格式需要模型采用不同的处理和特征提取方法。

4.2.1 Multimodal Fusion

在医学多模态诊断和预测中,文本信息为诸如病历、症状和治疗方案等各个方面提供详细的描述。而图像则展示直观的视觉信息,如病变和结构。目前,常用的融合方法依赖于交叉注意力机制。

医学多模态诊断和预测模型中常常引入的主要短文本类别是文本 Prompt 和疾病标签[142, 143]。例如,[143]采用词袋模型将输入图像转换为词或块。然后,自注意力机制被用来以层次的方式编码词间和块间关系。

常用的文本信息包括医学报告和诊断记录[144, 145, 146, 147, 148]。这些模型充分利用了这些模态之间的上下文关系。例如,[144]通过将来自电子健康记录(EHR)的先前患者信息与相关X光扫描整合,建立了一个统一的功能表示。一些其他研究[6, 7]也探索了基于多模态交互信息的多项医疗任务之间的内在关系。他们充分利用任务之间的互补信息,结合多模态和多任务的力量来提高模型性能。

4.2.2 Image-Text Contrastive Learning

超越融合不同模态的信息,大量研究关注比较图像和文本,通常通过对比学习[149, 150, 151, 152, 153]。例如,[149]使用联合嵌入损失将图像与文本关联起来。 [150]引入对比函数,将属性特征与区域特征沿损失函数进行对齐,以实现区域特征的属性分类。

一些研究通过使用像CLIP和ChatGPT这样的模型来增强图像文本对比学习[152, 154, 155]。例如,[154]介绍了一种基于CLIP的零样本医学图像分类框架,结合ChatGPT来增强对比学习。该模型从LLMs中获取额外的线索和知识,例如疾病症状,以改善医学图像和文本描述之间的对齐。此外, Prompt 词如“Q: 根据已发表的文献,照片中用于区分{诊断类别}的有用医学视觉特征是什么?”有助于模型更好地关注医学相关的视觉特征。

4.2.3 Diagnosis and Prognosis Strategies

具体的翻译结果如下:

[156] 医疗多模态诊断和预后的确切方法取决于疾病的类型。例如,[12]提出了一种融合多视角集成学习方法并采用投票机制来提高模型效率的多视图集成学习方法。具体来说,它将来自3视图数据集的三种诊断结果集成在一起,这些数据集包括甲状腺结节超声图像、从U-Net[157]中提取的医学特征以及由Max-Relevance和Min-Redundancy (mRMR)选择的相关特征。

一些研究也支持利用图形进行医学多模态诊断和预后。[158]构建了一个基于胸部X光图像及其标签的多模态知识图。然后,多标签分类被重新表述为这个知识图中的链接预测问题。[5]提出了一种多中心注意力图。图中的每个节点代表一个主体。该图提供有关不同数据源、训练样本的疾病状态、性别和设备类型信息,有助于探索这些因素对图卷积网络(GCN)的影响。

Limitations and Insights

研究行人试图通过更好的特征融合方法将图像和文本相结合,以提高诊断和预测能力,但当前模型仍存在这些挑战。首先,验证所选特征融合策略是否适合当前医学任务并非易事。目前,常见的特征融合方法包括 ConCat 、加权求和、注意力机制等,但很难确定哪种方法对于特定任务和数据集更为适合。其次,图像和文本数据之间的不平衡和错位可能导致某些特征融合方法过分依赖一种模式,忽视其他模式,从而产生冗余特征,降低表示能力。此外,医学多模态数据通常稀缺,尤其是罕见疾病,不同数据类型之间存在不平衡,使模型难以学习和泛化,从而导致某些情况下准确性不足。

未来在多模态医学诊断和预后中,研究的重点仍将继续围绕如何更有效地融合不同模态的医疗数据。首先,可以在特征提取、注意力机制和跨模态信息传递等方面提出新技术[142, 143]。其次,有效而高效地利用有限数据是另一个实际且必要的问题。为了减轻数据稀缺带来的限制,可以继续研究数据增强方法,以充分利用现有数据资源并挖掘更多数据资源。最后,可解释性是多模态医学诊断和预后中的另一个紧迫问题。透明度不足已被认为是将深度学习方法在临床实践中应用的主要障碍[161]。

5 Text-guided Medical Image Segmentation

Task Description

医学图像分割[162]旨在将医学图像中的结构或组织进行分割。图像分割任务主要分为语义分割和实例分割。语义分割是对图像的像素分类。给定输入图像X具有K个像素,图像分割的目标是为每个像素Xi分配标签Yi。实例分割需要识别属于同一类别不同目标实例,进一步发展语义分割。图像细结构分割使得可以对组织体积进行定量分析[163],帮助临床医生进行诊断和预后[164, 165],并制定治疗计划[166, 167]。

随着视觉语言模型和语言模型在医学领域的广泛应用,医学图像分割模型开始引入文本信息,用于多模态融合、跨模态对齐或监督训练。如图9所示,这种文本引导的医学图像分割过程如下:

picture.image

Methods

当前分割方法要么利用跨模态相似性,要么深度地将语言模态进行融合以进行分割。首先,前者的方法 [162, 168] 利用像素特征和目标类文本描述之间的语义兼容性来提取像素级的标签。值得注意的是,TPRO [168] 使用 BERT 将组织亚型的文本描述作为知识特征进行嵌入,这些知识特征直接通过知识注意力模块与图像特征进行整合。此外,它利用 CLIP 生成的精细像素级图像特征和目标类文本表示之间的相似性图来生成分割图。图10 说明了 TRPO 的架构。最近的方法 [162] 进一步使用 SAM [169] 对图像文本相似性图进行处理以优化分割输出。

picture.image

其次,许多研究(例如[170, 171])将图像和文本特征融合,以增强局部表示来进行语义分割。CLIP-Universal Segmentation [170] 通过多层感知机(MLP)将文本和图像语义融合,实现通用语义分割。类似地,SegICL [171] 将文本纳入上下文学习框架以实现通用语义分割。LViT [172] 采用两种模态之间的U型融合,如图11所示。 [173] 设计了一个包含文本先验 Prompt 的前置 Prompt 编码器(PPE),以生成多模态特征。然后,多尺度特征融合模块(MSFF)将PPE的特征与生成多模态多尺度特征。最后,UpAttention模块通过融合图像和文本特征来优化预测结果。将单尺度特征转换为多尺度表示不仅有效地解决了自然和医学数据之间的语义鸿沟,还提高了预测 Mask 的准确性。

picture.image

第三,另一种范式提出使用文本信息来构建监督训练目标[174]。最近的一种方法[175]引入了文本指导对比学习,以增强视觉特征的语义。RecLMIS[176]采用条件 Mask 重建,从图像预测被 Mask 的文本,反之亦然。

Limitations and Insights

当前基于文本引导的医学图像分割模型仍存在一些局限性。首先,大多数分割模型基于通用类别的文本,尚未考虑患者之间的差异。未来研究可以考虑进一步优化从患者病历中提取的文本。其次,不同模态的图像特征差异很大。例如,CT和MRI图像之间的视觉特征和像素分布存在显著差异。在不同的模态图像中,同一个医学实体可能被描述为不同的方式。目前,这些图像的可用文本往往相同。可以进一步探索针对不同类型图像的更具体的文本描述。第三,分割效率需要进一步提高。由于引入了语言模型(LLMs)和扩散模型[177, 178],分割速度相对较慢。因此,未来研究可以通过参数剪枝和量化,或高效的LLMs来提高分割模型的速度。

6 Medical Image-Text Retrieval

Task descriptions

诊断复杂病例或进行鉴别诊断,其中需要区分相似的视觉线索,对临床医生提出了挑战,通常需要查阅各种资源,这既费时又扰乱工作流程[179]。为了解决这个问题,近年来自动医学跨模态检索方法的进步旨在简化大规模、复杂数据库的搜索过程。

传统医学检索方法主要关注图像检索,但缺乏与文本信息的整合,导致效果不佳,尤其是在多标签医学数据中,文本对于精确分类至关重要。为了提高检索精确度,近年来的一些方法引入了描述性文本,通过学习图像和文本的共同表示来实现更精确的图像检索和跨模态检索,从而使语义相似的实例更加接近。

Methods

如图12所示,图像文本检索包括两个阶段。在初始训练阶段,模态编码器被训练,将来自不同模态的数据映射到共同的特征空间。然后,在检索阶段,发生一个离线的索引阶段,其中训练好的编码器提取表示并将其存储在一个共享的特征数据库中。在线搜索阶段, Query 数据实时得到其表示,并基于各自表示的相似度分数进行数据检索和排序[184]。具体而言,双编码器在医学图像文本检索中得到了广泛应用。在这种设计中,每个模态通过其各自的模态特定编码器进行编码。然而,为了处理具有缺失模态的样本,MMDL[181]放弃了使用模态特定编码器。相反,它采用编码器之间的共享参数策略,以实现模态不变性。特别地,表示学习对于在图像文本检索中弥合不同模态至关重要。它通过捕获图像和文本数据的互补信息,同时最小化冗余,将它们映射到共同的特征空间。目前针对表示的学习可以分为两类(见表6.2):(1)二进制表示学习,和(2)实值表示学习。

picture.image

6.2.1 Binary Representation Learning

二进制值表示学习也称为跨模态散列学习,其中来自不同模态的编码被映射到共享的哈密顿空间。散列方法中的表示可以表示为

,其中

是任何模态的实例,

是类别或聚类的数量[182]。在检索任务中,数据库通常存储大量特征,这需要大量的计算资源进行相似度计算。

因此,深度哈希方法使用二进制编码通过XOR操作而不是计算余弦相似度来检索相似的实例。在XOR操作中,相同的位产生结果0,不同的位产生结果1。因此,汉明距离是XOR结果的总和。这种属性提高了在此背景下哈希方法在计算和存储方面的效率[192]。

医学跨模态散列检索方法在学习跨模态散列代码方面采取了不同的方法。SECMR [180] 使用有监督训练,结合类别或成对标签,通过利用层次疾病标签关联来施加语义约束。同样地,[185] 利用由类别散列网络生成的类别散列代码来监督多模态散列,并通过使用 union 散列网络在学习它们散列代码之间的相关性来弥合模态之间的语义鸿沟。DMACH [182] 专注于通过结合全局特征(通过全局平均池化提取)与细粒度局部特征(通过循环注意力机制捕获),并将这些映射到共同的哈密顿空间来实现跨模态实例检索。

6.2.2 Real-valued Representation Learning

散列方法可以提高检索效率,但与实际值表示相比,由于简化的二进制特征表示,导致准确性降低 [192]。因此,一些工作同时使用图像和文本模态的真实值表示。

MMDL [181] 利用选择性卷积描述符聚合(SCDA)将图像输入识别为异常区域,并将图像和文本投影到具有三元损失的共享空间。同样地,[179] 采用 Gated Multimodal Unit(GMU)和三元损失进行通用空间学习,支持多模态图像-文本 Query ,并提高检索性能。为了进一步提高跨模态检索,一些方法使用多级学习框架,如 [183],该框架利用跨模态和内模态关联来实现更精确的检索结果。

近年来,许多研究致力于将预训练模型应用于医学领域。184]将CLIP [193]应用于医学领域,利用对比学习将图像和文本表示在共享空间中对齐。X-TRA [188]也基于CLIP,通过添加分类任务来提高基于内容特征提取,使用FAISS [194]索引的数据进行多模态检索。MCR [190]采用多个预训练任务(图像文本对比学习(ITC)、遮挡图像建模(MIM)和遮挡语言建模(MLM))并使用遮挡输入来增强任务整合和减少信息干扰,从而优化预训练效率。

某些方法针对特定医学领域进行了定制。例如,[186]通过将其描述为涉及过去报告的检索问题,解决了心电图疾病诊断的复杂性。在该方法中,ECG信号被预处理成视觉格式,并将其视为图像,然后与相应的报告共同进行训练,以建立视觉语言对齐。这种对齐通过三个不同的预训练目标实现:ITC,图像文本匹配(ITM)和跨模态MLM。

3D应用

MedFinder [191]超越了传统的2D医学图像检索,针对3D图像实现了跨模态检索。它通过一个3D ViT处理两个增强的3D图像,并将它们的表现形式应用到均方误差(MSE)损失中。文本流使用了一个预训练的BiomedCLIP编码器,在文本表示和来自增强图像的融合图像表示之间应用了ITC损失。3D-MIR [8]提供了一种多模态检索方法,可覆盖四个解剖学结构:肝、结肠、胰腺和肺。它支持各种 Query 类型,包括2D切片、3D体积和多模态 Query (图像-文本嵌入)。研究发现,基于3D体积的检索在宽泛分类方面更有效,而基于切片的检索在捕捉细粒度细节方面表现更好。

Limitation and Insights

医学影像文本检索任务仍然面临几个局限性,这些局限性阻碍了它们的有效性。在特征提取阶段,捕捉微细特征在医学领域仍然是一个重大的挑战。医学图像和报告中的全局语义在不同的患者之间通常存在相似性,而微妙的视觉异常和特定疾病名称则提供了更好的判别潜力。因此,关注提取微细特征并利用这些详细特征在检索过程中提高准确性和相关性至关重要。此外,迫切需要计算效率高的检索方法,能够管理大规模数据集和复杂 Query ,而不会牺牲性能。FAISS[194]是一个重要的进步,因为它提供了一个强大的库,用于在密集向量上执行相似性搜索和聚类,具有高效性。然而,仍需开发能够无缝集成到现有临床工作流程的更先进技术。此外,许多工作仍处于概念验证阶段,在实际临床环境中的验证有限。这种缺乏广泛实际测试限制了它们的实际应用和鲁棒性,强调了需要进一步临床验证以确保它们满足实际临床使用的需求。

7 Challenges and Potential Future Directions

Medical Data

数据有限性。 医疗数据比自然数据更稀缺。它们必须从真实的医疗案例中获取,这些案例是私有的,由患者所有。获取医疗数据的伦理、法律和隐私程序使得训练准确医疗视觉语言模型更具挑战性。此外,这些有限的数据集只覆盖了医学领域的很小一部分。在处理罕见疾病时,可用的数据不足,导致无法训练准确医疗视觉语言模型。随着数据生成方法的增长,例如扩散模型[195, 196],生成多模态医疗数据[197]已成为克服数据稀缺性挑战的有前途的途径。

然而,将这些模型有效地应用于医学领域仍然是一个开放性问题。

非配对图像文本数据。 数据收集过程中可能会出现医学图像与文本之间的不匹配,这可能源于各种问题,包括标注错误、成像与报告生成的异步时间、以及多种成像类型或身体部位之间的混淆。数据转换或存储过程中也可能出现数据丢失或损坏,这为开发健壮的医学视觉语言模型增添了另一层复杂性。

医学数据 对比 自然数据。 (1) 医学图像具有高分辨率,但模型需要关注的结构或异常通常非常微小,甚至可能只有几个像素。此外,它们往往包含大量的医学信息,比如一个CT扫描图像可能会显示脑部微小的结构或肿瘤的细微变化。这些图像上的局部结构通常具有重要的生物和临床意义,因此需要高度关注。相比之下,自然图像包含各种尺度的物体,从微观的到宏观覆盖。医学图像的特定性在构建医学模型方面构成挑战。它们往往受到噪声和干扰模式的困扰,这使得识别诊断信息更加困难。

(2) 医学数据的模态(如X光、MRI、CT扫描、病理切片和报告)更加复杂。每种模态捕捉患者病情的不同方面,这些模态的使用和处理方式可以不同,在整合多模态信息时会形成一个空白。例如,将CT扫描数据与文本诊断报告相结合需要处理图像特定和语言特定的特征。

(3) 医学数据来源于各种来源,包括不同的医院、成像设备和医疗实践。这种多样性导致数据质量、格式和风格的差异,这可能导致在训练模型时引入不一致性。例如,一个机构的放射学图像在分辨率、对比度和噪声水平上可能与另一个机构有所不同。

Medical Vision-Language Alignment

医学视觉语言模型依赖于将文本数据(如临床报告和医学文献)与图像数据(如医学影像和病理切片)对齐以实现跨模态学习。然而,医学文本和图像之间的语义差异,例如疾病描述与图像特征之间的复杂映射,提出了挑战。医学文本也具有独特的复杂性,包含诊断结果、术语和患者详细信息等多种信息,需要高级的语言处理。此外,医学语言高度专业化,使用特定领域的术语、缩略语和独特的语法。准确地对齐视觉特征对于构建有效的医学视觉语言模型至关重要,但并不容易。

Evaluation Metrics

现有的自然语言评估指标在直接应用于医学任务时受到限制,因为医学概念的复杂性和需要主观专家评估,这耗时较长。在评估医学视觉语言模型时,由于需要理解模态之间的交互以及同时评估多个任务(如疾病诊断、图像分析和文本理解),使其更加复杂。此外,医学数据的不平衡性(某些疾病罕见)也带来了挑战。评估指标必须反映出模型在临床实践中的实用性和性能,重点关注准确性、完整性和与临床现实的符合度,而不仅仅是语法正确或流畅。此外,指标还必须考虑到专家之间的主观差异,以确保评估准确地反映了实际临床实践。

Efficiency and Clinical Implementation

为了在临床实践中应用医学视觉语言模型,它们需要在性能和计算效率之间取得平衡。例如,实时图像到报告生成的(近似)对于在繁忙的临床环境中减少工作量并提高决策速度至关重要。模型需要提供准确的结果,同时还需要在计算上轻量级,以确保它们能够顺利地集成到现有的临床工作流程中,而这些工作流程通常具有有限的处理资源。此外,可伸缩性和易用性对于促进在各种医疗保健设置中的广泛实施至关重要。开发具有最小延迟和资源要求的有效模型是实现其成功临床应用的关键。

Reliability and Interpretability

在医疗应用中,可靠性与可解释性对于确保视觉语言模型的信任和安全至关重要。临床医生必须能够依赖模型的输出进行准确诊断和治疗决策。这需要模型不仅具有高度的准确性,还应具有可解释性,即为其决策提供明确的推理过程,以便医务行人理解结论是如何得出的。可解释性提高了模型的透明度,使临床医生能够将模型的输出与医学知识进行核实。确保可靠性和可解释性对于促进医疗保健提供者之间的信任以及促进模型在临床实践中的整合至关重要。

8 Conclusion

总之,作者的调查介绍了医学中的新兴领域——视觉语言,展示了视觉语言建模在医疗任务中的优势和现有成就,并强调了其显著提高医疗服务各种方面的潜力。作者在医学领域选择了医疗报告生成、医疗视觉问答、医疗多模态诊断和预后、医疗图像分割和医疗图像文本检索作为代表研究。

作者分别介绍了每个任务的大致流程,并深入分析了这些任务面临的挑战和困难。通过调查近年来大量的研究和论文,作者以清晰简洁的形式对所有这些最近的模型设计进行了分类和总结。

最后,作者也指出了当前模型的缺陷,并确定了未来的研究方向。

通过分析关键任务,作者见证了在视觉和文本信息对齐与融合技术方面的改进和创新。虽然在视觉语言建模方面取得了显著的进步,以帮助医学决策过程,但多种未来方向具有潜力,应进一步探索。第一个方向是进一步克服数据稀缺性带来的限制。通过生成更广泛的数据集或更高效的数据增强方法,模型可以使用更丰富和多样化的数据资源进行正则化。

其次,未来的研究可以继续开发可以有效融合不同数据模态以提高MVLMs的性能和应用范围的方法和技术。随着LLM的发展,MVLMs理解文本的能力将进一步提高。

最后一个方向是提高模型的泛化性能和可解释性。它不仅应适用于不同的医学领域和各种实际应用场景,还应解释方法和模型结果,帮助医学 practitioners 和临床研究行人更好地理解模型的决策过程和结果。

参考文献

[0]. A Survey of Medical Vision-and-Language Applications.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论