基于BLIP模型微调与注意力可视化的医学图像描述生成研究 !

大模型向量数据库云通信

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

医学图像描述生成是一项具有挑战性的任务,需要为放射学图像生成临床准确且具有语义意义的描述。尽管BLIP、BLIP2、Gemini和ViT-GPT2等最新的视觉语言模型(VLMs)在自然图像数据集上表现出色,但将它们应用于专业医学领域时,往往会产生通用或不够精确的描述。在本项目中,作者探索了在ROCO数据集上微调BLIP模型以改进放射学描述生成的有效性。作者将微调后的BLIP与其零样本版本BLIP-2 base、BLIP-2 Instruct以及ViT-GPT2 transformer Baseline 进行了比较。

作者的结果表明,针对特定领域的微调显著提升了BLIP在定量和定性评估指标上的性能。

作者还可视化了解码器交叉注意力图以评估可解释性,并进行了消融研究以评估仅编码器微调和仅解码器微调的贡献。作者的研究发现突出了针对医学应用进行定向适配的重要性,并表明仅解码器微调(编码器冻结)提供了强大的性能 Baseline ,其训练时间比全模型微调低5%,而全模型微调总体上仍能获得最佳结果。

github.com/Med Img_Captioning

1 引言

自动图像描述已成为视觉语言模型(VLMs)中的关键任务,使系统能够用自然语言描述视觉内容。尽管BLIP [6]、CLIP [11]、BLIP-2[7]、Gemini 1.5 Flash和ViT-GPT2 [9]等先进模型在MS-COCO、Flickr30k等通用数据集上取得了优异性能,但在直接应用于医学影像等专门领域时往往表现不佳。放射学图像在内容和视觉结构上均与自然图像存在显著差异,其对应的描述通常包含专业术语、解剖学参考和临床发现,而通用模型并未经过训练以处理这些内容。

医学图像描述生成技术在自动化文档记录、辅助诊断和结构化报告生成等多个应用领域展现出巨大潜力。然而,大多数预训练模型在处理放射学数据时,倾向于生成过于泛化或事实性错误的描述。这一现象构成了一个关键挑战,特别是在对精确性和事实依据要求极高的临床环境中。

在本项目中,作者研究了在ROCO数据集上微调最先进的视觉语言模型BLIP是否能够提高放射学图像的描述相关性和准确性。作者将零样本BLIP模型与其微调后的版本以及其他 Baseline 模型进行比较,包括BLIP-2、BLIP-2 Instruct、Gemini 1.5 Flash和ViT-GPT2。此外,作者探索了注意力可视化,以了解模型预测如何与图像区域相关联,并进行了消融研究,以评估微调模型不同组件的影响。

作者的贡献如下:

  1. 作者在放射学图像上微调BLIP模型,并在多个评估指标上展示了性能提升。
  2. 作者对BLIP(基础版本和微调版本)与其他基于transformer的架构进行了比较分析,包括BLIP-2、BLIP-2 Instruct、Gemini 1.5 Flash和ViT-GPT2。作者通过可视化解码器交叉注意力图来解释模型的token到图像的映射关系。
  3. 作者进行了消融研究,以评估仅微调编码器、仅微调解码器以及同时微调编码器和解码器的影响。

2 相关工作

图像描述生成已从传统的循环模型发展到基于大规模Transformer架构的模型,这些架构利用多模态预训练。这一进展在医学领域尤为重要,因为模型不仅要生成语法正确的文本,还要传达准确的临床语义。

2.1 经典方法:CNNLSTM

早期的字幕生成模型[15, 16]采用卷积神经网络(CNN)进行图像特征提取,随后使用长短期记忆网络(LSTM)生成序列文本。尽管这些方法在视觉语言建模领域奠定了基础工作,但它们在捕捉长距离依赖关系方面存在局限,且在局部注意力之外缺乏上下文基础。

2.2 基于Transformer的架构

随着Transformer的出现,ViTGPT2 [9]、BLIP-2、BLIP-2 Instruct和Gemini 1.5 Flash等模型用视觉Transformer(ViT)编码器和GPT风格的自动回归解码器替代了传统的循环组件。这些模型在MS-COCO、Flickr30k和LAION等大规模数据集上训练,在通用图像描述方面表现出色。然而,由于词汇、风格和图像分布上的不匹配,它们在放射学等特定领域的有效性往往下降。

BLIP(Bootstrapped Language-Image Pretraining)框架[6]通过将对比学习、图像文本匹配和生成目标统一于单一架构,实现了显著进展。BLIP支持判别性任务和生成性任务,并在零样本和少样本设置中展现出优异性能。近期针对医学影像的改进[2, 13]进一步证明了该框架在放射学应用中的潜力。

2.3 医疗字幕数据集和领域挑战

ROCO数据集[4]及其更新的版本ROCOv2[3]提供了与从开放获取出版物中提取的图像说明配对的放射学图像。在此领域中常用的其他数据集包括IU胸部X光片[14]和MIMIC-CXR,尽管后者更侧重于放射学报告生成而非描述性图像说明。

尽管这些数据集已经可用,放射学描述仍然存在特定领域的挑战[8],包括幻觉性发现、模糊的解剖学参考以及稀有模态的有限数据。近期的研究如MedBLIP[2]、LLaVA-Med和视觉聚类 grounding[5]旨在提高医疗环境中的视觉语言对齐。此外,ImageCLEF Medical Caption 竞赛[1, 10, 12]反映了人们对基准测试和评估领域自适应描述系统的兴趣日益增长。

2.4 评估与可解释性

近期研究强调标准化字幕评估指标的重要性,如SPICE、CIDEr、BERTScore(包括原始BERT和Bio ClinicalBERT)以及与Bio ClinicalBERT的余弦相似度。此外,基于注意力的可视化已成为模型可解释性研究的关键工具。这些评估策略在医学领域尤为有价值,因为事实准确性和语义一致性比表面层面的流畅性更为重要。然而,正如Liu等人[8]的系统综述所指出的,大多数用于医学图像字幕生成的深度学习模型在泛化能力和可解释性方面仍面临挑战。为解决这一问题,作者通过临床正确性评估表来补充传统指标,该评估表基于模态、侧向性、解剖学特异性和诊断准确性来评估字幕,这有助于进一步识别模型是否在安全关键应用(如放射学)中产生幻觉性结果或错误识别临床结构。

3 方法论

3.1 数据集准备

作者使用ROCO数据集[4, 3],该数据集由医学影像与从开放获取生物医学出版物中提取的图表说明配对组成。作者专注于与常见模态(如胸部X光片、核磁共振成像、计算机断层扫描和超声波)相关的图像子集。每张图像都配有一段简短的自然语言描述。所有图像均调整为384×384大小,以匹配BLIP及其他基于transformer的模型的输入要求。说明文本使用相应的模型分词器进行分词,并将数据集格式化为Hugging Face的'datasets'结构以实现兼容。

3.2 模型架构

作者实验了以下模型:

ViT-GPT2:基于Transformer的编码器解码器模型,使用'VisionEncoderDecoderModel'类构建,编码器为ViT,解码器为GPT-2[9]。BLIP(基础版):预训练的BLIP图像描述模型[6],在零样本模式下使用,无需特定任务微调。BLIP(微调版):使用ViT-B/16编码器和Transformer解码器的BLIP模型在ROCO数据集上使用交叉熵损失、教师强制、梯度累积、混合精度和线性学习率计划进行微调。

BLIP-2:一种结合了ViT编码器、Q-Former Adapter 以及冻结语言解码器(例如Flan-T5或OPT)的视觉语言模型,在零样本模式下使用[7]。BLIP-2 Instruct:BLIP-2的指令微调版本,针对多模态问答和指令跟随任务进行优化。Gemini 1.5 Flash:谷歌开发的一种最先进的视觉语言大模型,通过其视觉文本生成接口进行评估。

所有模型均在推理模式下使用相同的一组放射学图像进行评估,以比较领域对齐和标题质量。

3.3 微调设置

BLIP使用学习率为

的AdamW优化器和4步梯度累积进行微调。作者通过PyTorch的GradScaler使用混合精度训练。模型在1-3个epoch内进行训练,并根据验证损失进行早停。除非另有说明,作者微调完整模型,包括视觉编码器('ViT')和文本解码器(BERT')。所有模型均使用单个NVIDIA A100 GPU进行训练和评估。作者使用Hugging Face的transformers和datasets库进行训练、预训练权重和评估。

3.4 注意力可解释性

为了解释模型的预测结果,作者在推理过程中从BLIP的BERT解码器的最后一层提取解码器交叉注意力权重。在解码器模块上注册前向钩子以捕获注意力张量,这些张量在注意力头之间进行平均处理,并以热力图的形式进行可视化。

注意力图被调整大小以匹配原始图像的尺寸,并使用基于OpenCV的彩色图进行叠加。对于每个生成的token,作者渲染相应的 Heatmap ,从而能够对影响特定单词预测的图像区域进行定性分析。这种可视化提供了对视觉基础的理解,并有助于识别潜在的失效模式或注意力错位。

3.5 评估指标

为了评估生成字幕的质量和相关性,作者采用了一种结合词汇、语义和视觉语言对齐指标的评估方法:

CIDEr:衡量生成与参考字幕之间的n-gram重叠度。CIDEr强调共识,并 Reward 稀有且内容丰富的n-gram。

SPICE:通过比较场景图表示来衡量语义相似度,适用于评估标题中的目标-属性关系。

BERTScore:使用预训练语言模型的上下文嵌入计算生成文本和参考文本之间的相似度。作者使用原始BERT和特定领域的BioClinicalBERT模型报告BERTScore。

余弦相似度:使用平均池化的BioClinicalBERT嵌入来衡量生成与参考字幕之间的句子级语义对齐。

所有基于文本的指标均使用Hugging Face的evaluate库进行计算。对于基于Bio_ClinicalBERT的指标,作者使用Hugging Face的emilyalsentzer/Bio_ClinicalBERT预训练模型。

3.6 消融实验

为了更好地理解BLIP模型中不同组件的贡献,作者使用三种配置进行消融研究:

全量微调:在训练过程中,视觉编码器和文本解码器都会被更新。

仅解码器微调:仅更新BERT解码器;ViT编码器保持冻结。仅编码器微调:仅训练ViT编码器;解码器保持冻结。

本研究有助于区分改进(包括性能和效率)是由语言适应(解码器)驱动、视觉领域对齐(编码器)驱动,还是两者共同驱动。作者在结果部分分别报告了结果。

4 结果

4.1 实验设置

所有模型均在ROCO数据集的一个独立的验证子集上进行了评估,该子集包含多种放射学模态(例如,X射线、核磁共振成像、计算机断层扫描、超声波、超声成像)。为了确保公平性,所有模型均使用相同的图像和束搜索解码策略(束大小=4,最大长度=128)生成描述。

4.3 定性比较

尽管如此,微调后的BLIP经常引入临床不正确的细节——例如错误的侧向性、虚构的病理学或遗漏的关键发现——这些在医疗应用中可能造成危害。表2中的定性评估突显了改进的指标并不能保证临床正确性,强调了在高风险场景中需要医学感知架构或事后验证的必要性。

picture.image

侧向渗出或夸大严重程度。这表明改进的空间定位并不总是能保证临床准确性。因此,在医疗环境中部署视觉语言模型时,注意力图有助于可解释性,但必须与临床验证相结合。

4.4 注意力可视化

为了评估模型生成的token是否与相关图像区域对齐,作者在同一张胸部X光图像上可视化了多个BLIP变体的交叉注意力图(图1)。基础BLIP模型将注意力分散,并经常聚焦于无关区域,从而生成通用且临床不准确的描述。相比之下,微调模型(包括仅编码器微调和完全微调)在生成诸如“胸腔积液”等术语时,表现出对关键解剖区域(如肺部)的更局部化的注意力。有趣的是,虽然微调模型注意力更加精确,但它们仍然可能产生在真实情况下不存在的幻觉结果。例如,某些版本虽然聚焦于正确区域,但描述为单一

picture.image

4.5 消融实验

尽管全量微调在所有指标上取得了最高分数,但仅解码器微调表现具有竞争力,且所需训练时间更少。在作者的设置中,仅编码器训练完成一个epoch大约需要4小时59分钟,而全量微调则需要5小时15分钟,这实现了适度的但具有意义的计算节省,特别是在资源受限的环境下。

5 结论

本文研究了使用ROCO数据集对视觉语言模型进行微调在医学图像描述方面的有效性。作者证明了预训练的BLIP模型虽然在对通用领域有效,但在未经适配的情况下应用于放射学图像时,生成的描述往往泛化且缺乏临床相关性。通过对特定领域数据进行BLIP微调显著提升了词汇和语义的匹配度,并通过定量指标和生成描述及注意力图的定性分析得以验证。

作者的消融研究表明,仅编码器微调提供了有利的性能成本权衡,而在资源允许的情况下,全微调可取得最佳结果。然而,定性分析显示,即使经过微调的模型也可能出现幻觉、误识别解剖结构或遗漏关键发现,这突出了标准指标的局限性以及临床评估的必要性。

作者还探索了参数高效的微调(LoRA)以及通过LLaVA-Med实现多模态字幕生成。

尽管由于技术限制未能完全实现,但这些方向为llm-MedBLIP_2505提供了指导,并指出了未来工作的有前景领域。向前推进,将结构化医学知识与安全约束相结合,对于在临床环境中可靠部署至关重要。

参考

[1]. MedBLIP: Fine-tuning BLIP for Medical Image Captioning

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论