备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
最近,视觉语言模型(VLMs)如CLIP在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将VLMs应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。
这在生物医学图像中尤为明显,因为与自然图像不同,生物医学图像通常具有有限的标注数据集、不直观的图像对比和细微的视觉特征。为了解决这些问题,最近的一些 Prompt 学习技术,如上下文优化(CoOp)旨在应对这些挑战,但普遍性仍有限。
同时,对生物医学图像分析的 Prompt 学习探索仍然非常有限。
在本工作中,作者提出了一种名为BiomedCoOp的新颖 Prompt 学习框架,该框架可以有效地将BiomedCLIP应用于准确且高度泛化的少量生物医学图像分类。作者的方法通过利用大型语言模型(LMs)的平均 Prompt 集成和基于统计学的 Prompt 选择策略进行语义一致性以及知识蒸馏,实现了有效的 Prompt 上下文学习。
作者在9种医学数据集(涵盖10个器官)和11个类别上进行了全面验证,与现有的最先进方法进行了对比,结果显示在准确性和泛化性方面都取得了显著的改进。
1 Introduction
视觉语言模型(VLMs)的最新突破为利用多种模态数据在各种应用中开辟了新的可能性。与传统监督学习(关注闭合集合视觉概念)不同,像对比语言图像预训练(CLIP)[37]这样的模型,通过对比预训练将视觉和文本信息对齐,借助自然语言监督,可以探索开放集合视觉概念。然而,这些模型的成功往往依赖于指导其预测的文本 Prompt 的质量,而大规模VLMs的全模型微调则是不切实际的。为了缓解这些问题,优化视觉语言模型中的文本 Prompt [25, 50, 51]的学习成为了一种关键的技术,在不进行大量微调的情况下提高性能。值得注意的是,Context Optimization(CoOp)[51]为CLIP开创了这种方法,将文本 Prompt 视为可学习的上下文向量,并保留预训练模型权重。同时,其他方法[16, 47, 19]则关注于通过 Adapter [18]和线性 Prob [37]实现轻量级的少样本适应,以提供参数高效的模型适应解决方案。
与自然图像不同,生物医学图像包括广泛的对比度和成像模式,这取决于成像设备和参数。这些图像(如MRI和超声)通常具有独特的视觉外观,比典型照片更具挑战性。此外,与生理和病理变化相关的图像特征(如颜色、纹理、形状和解剖学背景)更为精细和复杂,且在不同成像模式之间可能存在差异。最后,由于隐私问题和临床专业知识的严格要求,高质量的标注生物医学图像数据集在开发临床深度学习模型时较为稀缺。尽管变分自编码器(VLMs)及其相关 Prompt 学习技术在自然图像数据集和基准测试中取得了成功,但其在生物医学成像领域(如诊断)的应用,由于存在独特的挑战,目前尚处于未被充分探索的阶段。
由于生物医学图像领域知识的独特性, prompt 学习的视觉语言模型的基础可能需要针对性的预训练才能达到最佳效果。如 BiomedCLIP [48] 这样的生物医学专用 VLMs(在互联网资源上预训练了 150 万对生物医学图像-文本配对),更适合生物医学任务[49]。尽管最近的一些工作 [3, 6, 15] 通过使用自然图像训练的 CLIP Backbone 网络对生物医学图像分类进行 prompt 学习进行了研究,但他们的探索仍局限于具有较大数据集的任务(如胸片和皮肤病学),这些数据集可能并不适用于其他临床任务。值得注意的是,这些方法要么使用完整的训练数据集 [3, 15],要么通过额外的基础模型(如 MedSAM [33])进行域控制 prompt 学习,从而降低了它们的计算效率。此外,在现有的 prompt 学习方法中,还需要进一步提高准确性和泛化能力,以适应未见过的类别。因此,探索基于生物医学专用 VLMs(如 BiomedCLIP)的更高效、更可靠的新的 prompt 学习技术,并在生物医学图像的多样化的基准数据集上进行大规模验证,具有很高的实用价值和迫切性。
在这项工作中,作者提出了一种创新性的 Prompt 学习框架,名为BiomedCoOp,该框架基于CoOp [51],以促进CLIP类似VLMs(如BiomedCLIP)在少样本生物医学图像分类中的有效适应。作者的方法不仅专注于文本 Prompt 优化的有效策略,而且主要依赖大型语言模型(LLMs),从而不仅减少了计算开销,而且保留了预训练模型的基础知识。具体而言,由于成像模式(例如,超声与MRI)之间的巨大差异,作者假设在生物医学领域应用的少样本学习策略将有助于解决数据限制,同时应对人类设计的 Prompt 模板在上下文学习中的局限性。此外,LLMs可以帮助减轻人类设计的 Prompt 模板在上下文学习中的局限性。
作者的四个关键贡献包括:
- 作者提出了一种新颖的 Prompt 学习方法,通过从大型语言模型(例如GPT-4)派生出 Prompt 子集并采用有效的知识蒸馏策略,来增强上下文向量学习中的语义一致性。
- 为了应对LLM在上下文学习过程中产生的异常 Prompt 挑战,这可能导致过度专业化并阻碍泛化,作者采用了一种基于统计的剪枝策略,以降低“遗忘”重要生物医学模式的风险,同时保持对多种疾病表现形式的敏感性。
- 作者首次采用BiomedCLIP [48]进行 Prompt 学习,并在下游临床任务中展示了相对于通用知识CLIP的优势。
- 作者对提出的方法在现有CLIP Prompt 学习技术进行了全面的评估,使用11个不同的生物医学图像分类数据集,跨越9种模态和10个器官,在少样本和从基础到新的一般化基准测试中。作者的结果突显了BiomedCoOp在各种医学条件和成像模态的广泛适用性和鲁棒性。
2 Related Work
Vision-Language Models
视觉语言模型如CLIP [37]和ALIGN [21]将多模态学习与自监督的视觉和文本表示相结合,在共享特征空间中实现了显著的性能,包括零样本分类和跨模态检索。在生物医学领域的最新扩展包括BioViL [4],PubMedCLIP [14]和BiomedCLIP [48],它们使用数百万生物医学图像-文本对将视觉语言模型适应到生物医学数据。然而,尽管这些模型有效,但仍然需要额外的任务特定适应,以捕捉临床应用中至关重要的细微差别,如疾病特定 nuances [42, 49]。这些限制突显了需要进一步针对目标临床任务进行领域特定适应的方法的需求。
Prompt Learning
Prompt 学习作为一种强大的替代传统模型微调方法,正在成为视觉语言模型的有力选择,例如Coop [51]和CoCoOp [50]将文本 Prompt 视为主要的可学习组件,引导VLMs执行特定任务。在生物医学应用中, Prompt 学习已经展示出初步潜力,可以在不改变预训练权重的情况下实现少样本适应 [13]。近年来,自然视觉领域的方法如MaPLe [24]同时适应了CLIP的视觉和语言组件,而PromptSRC [26]则应用了自我调节技术以提高 Prompt 的泛化能力,而不会牺牲先验知识。补充这些方法,KgCoOp [43]和ProGrad [53]分别使用知识和梯度指导来优化文本 Prompt ,以提高模型泛化能力。此外,ProText [27]从LLM生成的文本数据中进行深度 Prompt 学习,可以实现跨数据集和跨类别的转移,而无需需要 Token 图像。然而,这些方法可能不适合生物医学应用,因为存在先前的挑战,特别是在解剖学和病理特征描述方面存在跨模态差异。最近,包括ViP [15]和XCoOp [3]在内的一些生物医学特定方法,通过集成疾病特定的术语和上下文 Token ,增强了VLMs在临床任务中的适应性。
域控制 Prompt 学习(DCPL)[6]进一步通过集成域特定的偏见,使视觉和语言分支都具有适应性,特别是在诸如遥感和医学影像等专用领域,自然领域 Prompt 存在缺陷。尽管有一些针对生物医学任务的定制解决方案,但这些方法通常需要对视觉和语言组件进行更重的适应,并需要临床专家的干预,从而可能限制其性能、实现简便性和对更广泛任务的泛化能力。正如Khattak等人[27]所建议的,在LLM中建立可学习上下文和知识之间的强健映射,可以有利于VLMs的性能和适应性。最近,如GPT-4在诊断报告中实现了人类 Level 的性能和稳定性升级[17, 30],结合最新的LLM(如GPT-4),以及生物医学特定的VLMs(如BiomedCLIP),可能提供一种更便捷的方式,将生物医学领域的专业知识集成到VLMs中,以实现数据高效的 Prompt 学习解决方案,适合各种临床需求。然而,这仍然需要探索,作者打算利用这些进步来改进作者的方法。
Few-shot Adaptation of VLMs
少样本自适应技术使得视觉语言模型可以在极少 Token 数据的情况下实现任务专业化,以平衡泛化和特定域的专属性。除了基于少样本的 Prompt 学习外, Adapter 方法如CLIP-Adapter [16]和Tip-Adapter [47] 引入了轻量级模块,在保持零样本能力的同时调整视觉特征。具体而言,CLIP-Adapter 通过紧凑的 MLP 修改视觉嵌入。Tip-Adapter 使用基于相似度的机制,直接将支持集的视觉特征混合到模型的预测器中,以在极少数据的情况下增强准确性,但需要仔细调整。增强的线性检测方法,如 LP++ [19],通过混合视觉和文本特征并使用数据驱动的隐式学习率实现竞争少样本性能,而无需广泛的超参数优化。最后,CLAP [38] 通过使用适应性惩罚来保持适应性接近原始零样本原型,从而进一步限制适应性。这些方法通常在 VLMs 的最后几层调整视觉嵌入,专注于调整模型特征。相比之下,针对优化文本 Prompt 输入的 Prompt 学习方法可能在计算效率和未见类别的适应性方面更具优势,特别是在生物医学成像领域。
3 Methodology
如图1所示,作者提出了一个名为BiomedCoOp的框架。通过利用BiomedCLIP Backbone 网络来编码丰富的图像和文本特征,作者的方法提出了两个主要组件,以实现有效 Prompt 上下文学习的联合。具体而言,_Semantic Consistency by Contextual Mapping_(SCCM)组件通过最小化它们到特定类别 Prompt 的距离,将文本嵌入与普通生物医学知识对齐。作者设计了一个 Knowledge Distillation with Selective Prompting (KDSP)组件,通过基于统计的 Prompt 选择来优化上下文映射。统一的学习目标将交叉熵损失、 SCCM 的均方误差(MSE)损失和 KDSP 的Kullback-Leibler(KL)散度损失相结合,以确保准确和鲁棒的模型表示。
Contrastive Language-Image Pre-training
CLIP利用一个视觉编码器
和一个文本编码器
来处理一批预处理的图像
和文本
作为输入。在这里,
是单个批次的图像/文本对的数量,
和
分别表示图像的高度和宽度,而
是分词后文本输入的最大序列长度。具体来说,视觉和文本编码器网络分别产生相应的特征向量
=
和
=
,其中
,
,
是类别数量,
是嵌入维度。最后,通过对比学习目标,基于相似度分数在潜在空间中将对多模态特征向量对齐。预训练的 CLIP 模型具有丰富的多模态表示,具有零样本分类的能力。对于
个可能类别,新的图像可以通过计算其与一组
个不同文本 Prompt 的相似度来分类,其中“a photo of a” 表示文本模板的预定义上下文,而 [CLASS] 是类别名称 Token 。
值得注意的是,在Coop中,上下文(例如“a photo of a”)是可学习的并优化根据一个分类目标。具体而言,零样本推理是通过比较不同文本 Prompt 的每个文本特征
与图像嵌入
得到预测概率:
其中,
表示可学习的温度参数,
表示余弦相似度。图像的类别由以下方法确定:
LLM Prompt Ensembling
虽然 Prompt 集合并(prompt ensembling)表明通过引入多种文本表示(text representations)[46]可以促进 Prompt 学习,但之前在自然视觉任务[32]中采用的人为设计的 Prompt 模板在生物医学领域中可能面临获取相关临床知识和描述多样性不足的障碍。值得注意的是,最近的研究[17, 30]表明GPT-4([1])在与临床案例报告相关任务上的性能得到了验证。
因此,作者决定利用GPT-4进行具有不同文本描述的类特定病变和异常的诊断扫描LLM生成 Prompt 集合并。这种方法确保了BiomedCoOp中学习的 Prompt 上下文结构反映了所需的领域知识,有助于有效地捕获关键语义特征。具体而言,对于数据集中的C个不同类别,作者生成文本 Prompt
,其中每个类别从文本 Query
中获取
个不同的输出:“为[CLASS]在[MODALITY]中发现的[CASE]生成N个文本描述的视觉区分特征。”
对于生物医学图像,作者在Q中特别提到了成像模式,因为某些类别可能在不同的模式下重叠。然后,将LLM生成的
编码为
=
。对于SCCM组件,每个类别的所有
个文本嵌入通过取平均值进行集成,得到
:
Selective Prompting via Outlier Exclusion
在KDSP组件中,作者进一步通过考虑LLM生成的 Prompt 的概率分布来优化学习的上下文。过具体的 Prompt 可能导致模型在特定的疾病状态上过度拟合,而不适用的低分 Prompt 与相关生物医学特征不匹配,可能损害准确性。因此,作者提出了一种选择性 Prompt 集成和异常修剪的方法。通过移除这些异常值, Prompt 的分布得到优化,确保选择的文本 Prompt 分布反映更广泛的生物医学见解,帮助模型在保留BiomedCLIP模型灵活性的同时避免“遗忘”关键的一般知识。这使得模型在生物医学图像中处理不同疾病表现时的典型和异常特征保持敏感。
给定一组B张图像,每张图像代表一种疾病的个案,作者首先使用视觉编码器
对这些图像进行编码,得到图像特征
。对于
中的每个图像嵌入,作者计算其与相应 Prompt 嵌入
的相似度。这种相似度度量,通常为余弦相似度,有助于识别出与图像特定特征最相关的 Prompt 。作者为每个 Prompt 计算分数
,方法是取所有图像嵌入中最大相似度对数平均值:
其中,
是一个应用于对数its的缩放因子。
为了检测和处理偏离总体分布的异常 Prompt ,作者应用了一种使用中位数绝对偏差(MAD)测试统计量的异常检测方法。具体而言,作者计算 Prompt 分数
的中位数
和绝对中位数偏差
:
对于给定的 Prompt ,作者计算修改后的
- 分数:
作者只选择与修改后的
- 分数绝对值小于选择阈值
的
个 Prompt 。遵循类似于公式(3)的方法,作者根据选择得到一个平均 Prompt 编码
。 ### Overall Learning Objective 作者的少样本 Prompt 学习框架的整体学习目标包括分类准确性的交叉熵损失以及来自_Semantic Consistency by Contextual Mapping_和_Knowledge Distillation with Selective Prompting_组件的上下文映射相关损失。
以下是这些损失的详细说明: 首先,作者通过优化每个类别下的总体学习目标,来学习 Prompt (
)。这个目标包括图像文本对logits的交叉熵损失,定义为:
其中
是第
类别的真实标签,
是给定图像
和编码可学习的文本 Prompt
时,第
类别的预测概率。
第二,由于所有类的学习上下文是统一的,作者在SCCM组件中尽可能减小
和
之间的差异,以确保正确地学习生物医学知识:
最后,为了使来自图像嵌入的logits与可学习上下文 Prompt (学生logits)以及来自图像嵌入的具有选择性LLM生成文本嵌入的logits(教师logits)的分布对齐,作者在KDSP组件中最小化这两个分布之间的KL散度:
教师分布为
的对数似然比
的对数似然比,以及
的对数似然比,而学生分布为
的对数似然比
的对数似然比,以及
的对数似然比。
KL散度项,
限制模型远离实际医学扫描的表示性嵌入。通过最小化这个KL散度,作者指导模型保持在与医学扫描内容紧密相关的有意义的嵌入空间。这种对齐有助于确保学习的嵌入保留了生物医学图像的必要信息,防止模型陷入无关的语义空间。
整体学习目标被定义为:
λ1,和λ2是损失平衡权重。
4 Experiments and Results
Experimental Setup
作者评估了作者的BiomedCoOp框架在多个用于测试各种少样本图像分类任务中的准确性和泛化能力的多项基准生物医学成像数据集上的有效性。
为了评估模型在有限监督下的性能,作者进行了少量示例实验,每类标签的示例数不同(
= 1, 2, 4, 8, 和 16 个示例)。这对于评估模型从稀疏数据中学习有效性的能力至关重要,这在生物医学应用中是一种常见情况,同时保留任务特定和通用领域的知识。
从基础到新类泛化: 为了评估作者技术模型的泛化能力,每个数据集都被分为基础和新型类别。模型在基础类别上使用16个样本进行训练,然后在其上进行评估,同时也在基础和新型类别上进行评估。这种设置测试了模型在同一数据集内泛化到未见过的类别的能力,展示了其识别新型疾病表现的能力,而无需进行额外的微调。
作者在11个不同的医学影像数据集上进行实验,涵盖10个不同的器官和9种成像模式:计算机断层扫描(CT,如Kidney CT [20]),皮肤镜检查(如DermaMNIST [10, 40]),内窥镜检查(如Kvasir [35]),眼底摄影(如RETINA [31, 36]),病理学(如LC25000 [5],CHMNIST [22]),磁共振成像(如BTMRI [34]),光学相干断层扫描(如OCTMNIST [23]),超声(如BUSI [2]),以及X射线(如COVID-QU-Ex [39],KneeXray [7])。这个选择包括复杂的 dataset,如脑 MRI 和超声,以确保模型在广泛的生物医学影像环境下的性能得到充分评估。实验的详细数据划分和任务包括在_Supplementary Materials_中。
实现细节: 作者采用了BiomedCLIP,使用ViT-B/16作为backbone,平均结果来自三个运行。对于少样本学习,训练设置为100个周期;对于基于基础的新的基准测试,训练设置为50个周期。作者将可学习的上下文设置为与"一张照片"对应的嵌入向量,并使用了50个LLM Prompt ,学习率为0.0025,批量大小为4,并在所有数据集上使用SGD优化器。作者使用验证集(详细值报告在_附录材料_中)来选择最优的
,
和
值。所有实验都在单个NVIDIA A100 GPU(40GB RAM)上运行。
Few-shot Evaluation
作者将BiomedCoOp与四种文本 Prompt 学习方法(CoOp、CoCoOp、ProGrad、KgCoOp)、三种CLIP基于的 Adapter 方法(CLIP-Adapter、Tip-Adapter、Tip-Adapter-F)和两种线性检测方法(标准线性检测、LP++)进行了比较。在本研究中,作者关注的是仅优化文本 Prompt 的学习技术,排除同时学习文本和图像 Prompt 的方法(如MaPLe、DCPL)。此外,作者将比较限制在浅层 Prompt 学习技术,而不是需要额外参数的深层 Prompt 方法。此外,作者还测试了零样本和LLM Prompt 的零样本BiomedCLIP配置。所有模型都使用BiomedCLIP作为基础模型,并调整到其最佳设置。如表1所示,BiomedCoOp始终优于这些 Baseline ,尤其是在低样本设置中,它超过了第二好的方法ProGrad的5.2%和4.6%在1-和2-shot场景中。这种改进归因于BiomedCoOp使用特定于类的、选择性集成的LLM Prompt ,增强了对于不同生物医学条件的泛化性和敏感性,即使标签数据很少。随着样本数的增加,BiomedCoOp继续领先,证明了其在不同数据可用性场景下的鲁棒性。BiomedCoOp在所有K-shot设置上的持续性能支持其在 Prompt 基础的生物医学适应的有效性,确保了可靠的跨数据集精度提升。
Base-to-Novel Generalization
作者通过在基类和 novel 类之间的准确率来评估 BiomedCoOp 的基础到新颖泛化能力,使用了调和平均值(HM)进行平衡泛化。_请注意,由于 BUSI 数据集的类多样性不足,因此未进行实验。_表2中报告的结果表明,BiomedCoOp 始终优于其他方法,在具有挑战性的数据集如 CTXidney 和 Kvasir 上,其准确率比其他方法高出5-10%。这表明 BiomedCoOp 在医学领域中具有强大的泛化能力,因为疾病模式在不断演变。此外,其 LLM 增强的 Prompt 进一步有助于保留基础知识,同时有效适应新颖类别,减少遗忘。
Ablation Experiments
Effect of Different Components
表3展示了BiomedCoOp组件的关键贡献。没有进行集成或使用BiomedCoOp组件的 Baseline BiomedCLIP模型在准确性上有限,尤其是对于新类。仅添加SCCM可以显著提高适应性,通过嵌入上下文医学信息,提高低样本性能。KDSP单独使用,通过过滤低质量和特定案例的 Prompt ,在新类中提高了准确性。然而,使用仅包含CLIP的设置的KDSP会阻碍泛化,因为模型缺乏处理异常值所需的领域知识(灰色高亮)。SCCM和KDSP的组合使用产生了最佳结果(绿色高亮),在少量数据和基到新任务中,平衡了泛化和适应性,特别是证实了这两个组件在处理有限数据生物医学场景中的关键作用。
4.4.2 Effect of Number of LLM Prompts
Prompt 多样性与LLM生成的 Prompt 数量之间的关系可能会影响上下文映射的质量。为了研究这一点,表4展示了在少样本设置(K = 0, 1, 2, 4, 8和16次)下,BiomedCoOp性能随着LLM生成的 Prompt 数量增加的影响。在较低的样本 Level (K = 0和1)中, Prompt 数量较高显著提高了准确率,当 Prompt 从10增加到50时,提高了5-6%。这表明,在有限的 Token 数据下, Prompt 多样性对于泛化至关重要。在中间样本设置(K = 2和4)中,随着 Prompt 数量的增加,性能继续改善,但速度较慢,随着 Token 信息的可用性增加,边际收益逐渐降低。在较高的样本 Level (8和16)中,准确率稳定,额外 Prompt 带来的微小改进。正如其他研究[45]所显示的, Prompt 多样性通过提供多样的语义线索来指导模型向生物医学关键特征的方向发展,从而增强模型性能。每个 Prompt 都引入了一个独特的上下文视角,使模型能够构建一个更强大、更灵活的医学概念理解。这种多样性有助于模型关注共享的、关键的特征,从而提高其识别细微变化和有效泛化的能力,尤其是在低数据场景中。
4.4.3 Effect of Different CLIP-based Models
为了更好地理解 Backbone CLIP模型对所提出的BiomedCoOp方法的影响,作者使用四种CLIP模型进行了性能测试,包括CLIP(ViT-B/16)、PubMedCLIP(ViT-B/32)、PMCCLIP(RN50)和BiomedCLIP(ViT-B/16)。图2中的 Pillar 图比较了BiomedCoOp变体的少样本分类准确率与这些CLIP Backbone 。值得注意的是,BiomedCLIP在所有设置下都实现了最高的准确率,展示了其有效地捕捉医学领域特定特征的能力。随着样本数增加,所有模型都有所提高,其中BiomedCLIP在16个样本时达到72.42%的准确率,明显优于其他模型。CLIP和PMC-CLIP的结果相似,而PubMedCLIP保持竞争力,但仍然落后于BiomedCLIP。这些结果证实了作者选择BiomedCLIP作为VLM Backbone 的重要性,并突出了改善少样本生物医学图像分类性能所需的专业化生物医学VLMs的重要性。
4.4.4 Visual Interpretability
在本次实验中,gScoreCAM [8]被用来评估不同的文本 Prompt 如何影响生物医学图像的视觉显著性图。图3中的每一列代表了一种不同的 Prompt 类型: "手动 Prompt "(列b)使用一个[CLASS]的照片,这通常会使模型专注于全局特征(即扫描模式),而不是感兴趣的区域; " Prompt 组合"(列c)平均多个由LLM生成的 Prompt ,可能引入冲突信号,导致模型专注于背景;而CoOp,CoCoOp和BiomedCoOp(列d,e,f)使用带有[CLASS]标签的优化、学习到的上下文 Prompt 。在BUSI(乳腺癌超声)、COVID-QU-Ex(肺部X光)、脑肿瘤[9]和ISIC [11, 12, 41](皮肤病学)数据集上进行测试,BiomedCoOp(列f)始终与各模态的 GT 区域最佳对齐,准确突出临床相关区域,尤其是在复杂模态如MRI和超声中,尽管在皮肤病学方面由于与自然图像的相似性而导致显著改善,但仍存在较少的假阳性率和假阴性率。这种精确的局部化提高了可解释性,对于医疗应用特别有价值,其中解释性至关重要。这一观察进一步验证了作者提出的方法的效用。
5 Conclusion
作者提出的BiomedCoOp框架是对仅针对少数样本适应性进行 Prompt 学习的首个大规模探索,适用于跨多种生物医学数据集。
通过从LLM中提炼出特定领域的洞察,BiomedCoOp丰富了 Prompt 表示,并提高了模型在各种生物医学影像背景下的泛化能力。作者的方法将通用的生物医学知识与选择性 Prompt 精炼相结合,以提高分类准确性和泛化性。
本研究强调了将LLM生成的 Prompt 与BiomedCLIP集成实现准确、高效生物医学诊断的潜力,这是朝着更广泛地采用可适应的VLMs在临床应用中的基础性一步。
[0]. BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models.