多模态大模型系列 | 19:微软提出LLM2CLIP,巧用LLM助力clip开启图文理解新篇章

大模型向量数据库机器学习
  • 引言
  • 简介
  • 方法
  • 实验结果
  • 总结
  1. 引言 =======

丹阳郭里送行舟,一别心知两地秋。

picture.image

CLIP是当今最重要的多模态基础模型之一,能将视觉和文本信息对齐到共享特征空间中。自然语言作为人类知识载体,为CLIP提供了丰富的监督信息,赋予了它强大的跨模态表示能力。随着大型语言模型(LLMs)的发展,越来越多的学者探讨如何利用LLMs提升多模态表示学习。LLMs强大的语言理解能力可以提升CLIP处理各类文本的能力,其开放世界知识也有助于扩展描述信息,提高学习效率。

今天要分享的这篇多模态论文(LLM2CLIP)来自微软。该论文已经被NeurIPS 2024 SSL Workshop接收,且部分模型已经上传到huggingface。

  1. 简介 =======

CLIP通过在大规模图文对数据上进行训练,将视觉与丰富的自然语言描述对齐,从而展现出卓越的跨模态能力。然而,CLIP的文本编码器在处理复杂长文本时存在局限。微软提出LLM2CLIP,利用大语言模型(LLMs)中蕴含的知识来增强CLIP的视觉表示学习。通过描述对比微调等策略,释放了LLMs内在的语义理解能力,显著提升了CLIP在长文本和跨语言任务中的性能,成为更加通用的多模态基础模型。

Q1: 这篇文章想要解决什么问题?

A1: 主要解决两个问题:

  1. 如何利用LLM的强大语言理解能力和开放世界知识来提升CLIP的视觉表示学习
  2. 如何克服LLM直接作为CLIP文本编码器时输出特征判别性差的问题

Q2: 这篇文章如何解决这些问题?

A2: 主要通过以下创新方法:

  1. 提出描述对比(Caption Contrastive)微调策略,显著提升LLM输出特征的判别能力
  2. 设计LLM2CLIP训练框架,通过冻结LLM梯度和引入适配器等方式,高效地将LLM整合到CLIP训练中

Q3: 文章所提出方法的效果如何?

A3: 取得了显著效果:

  1. 在长短文本检索任务上性能提升16.5%
  2. 仅用英文训练数据就达到了中文检索SOTA水平
  3. 整合到多模态模型(如LLaVA 1.5)时全面超越基线
  4. 训练成本与微调原始CLIP基本持平

Q4: 文章所提方法还有哪些不足? A4: 主要存在以下局限:

  • 需要特定数据来充分发挥LLM潜力
  • 为保持大批量训练而冻结LLM梯度可能限制了性能
  • 未在超大规模数据集上从头训练验证方法
  1. 方法 =======

LLM2CLIP的核心方法包含三个关键部分:

  1. 描述对比微调:
  • 使用CC3M数据集的原始描述和增强描述作为正样本对
  • 采用监督SimCSE损失使相似描述特征更近,不同描述特征更远
  • 将LLM注意力机制扩展为双向,并用MNTP初始化
  1. LLM2CLIP训练框架:
  • 冻结LLM梯度以保持其知识和降低计算开销
  • 引入可学习适配器层优化对齐
  • 预先提取文本特征降低训练成本
  1. 高效训练策略:
  • 使用LoRA进行轻量级微调
  • 批量预处理文本特征避免重复计算
  • 训练开销与原始CLIP相当

picture.image LLM2CLIP概述: 在对大语言模型(LLM)应用caption contrastive微调后,文本的可区分性得到提升,从而实现了更有效的CLIP训练。 利用大语言模型的开放世界知识和通用能力来更好地处理文字密集的caption,解决了预训练CLIP视觉编码器的先前局限性,并提供更丰富、更高维度的文本监督。

  1. 实验结果 =========

主要实验结果包括:

  1. 模型性能:
  • 在长文本检索上提升16.5%
  • 在中文检索任务上超越专门训练的中文模型
  • 整合到LLaVA后全面提升性能

picture.image

MS-COCO数据集中的每张图片都有五个人工标注的标题。选择前两个标题作为正样本,并在整个验证集中进行检索。通过使用描述检索准确率(CRA),评估了文本模型区分的描述能力,从而帮助我们确定哪个语言模型更适合用于CLIP。实验发现,Llama-3 8B的top-1准确率仅为18.4%,而标准的CLIP-ViT-L则达到了66.0%的top-1准确率。如图2所示,原始Llama-3检索到的top-1描述可能与查询描述完全无关,这显然阻碍了有效的CLIP学习。因此,直接使用大型语言模型(LLM)来指导CLIP的视觉编码器训练是非常有限的。

  1. 消融实验:
  • 验证了描述对比微调的必要性
  • 证明了更大的LLM带来更好的效果
  • 更大的训练数据集带来更好的效果
  • 展示了密集描述对性能的积极影响
  1. 总结 =======

微软提出了一种利用 LLM 辅助 CLIP 训练的新方法 LLM2CLIP。针对 LLM 输出特征判别性不足的挑战,引入了 描述对比微调 技术,有效解决了 LLM 参与多模态学习的障碍。LLM2CLIP 框架成功将 LLM 的文本理解和知识优势应用于 CLIP 训练,并在多种 CLIP 和 LLM 模型上验证了其有效性,显著提升了预训练模型的性能。此外,LLM2CLIP 能够处理长文本和复杂文本,并能将 LLM 的开放世界知识融入模型,展现出巨大的潜力。

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论