高质量多模态训练数据生成思路-SynthVLM

大模型向量数据库机器学习

针对高质量、精确对齐的图像 - 文本对稀缺,提出一种新的数据生成管道 SynthVLM ,用于生成图像 - caption 对:SynthVLM - 100K,并通过微调模型,SynthVLM-100K 上预训练的模型就超越了依赖 LLaVA - 558K 的基准方法,方法简单直接,下面看看。

picture.image

picture.image

方法

SynthVLM通过两个步骤构建高质量的图像-文本数据集:

picture.image

SynthVLM 数据合成方法的流水线如下:首先,筛选高质量的图像-标题对;接着,合成高质量数据,并依据 CLIP 得分进行后续筛选。

1、合成数据集构建
  • 数据来源 :为确保caption的多样性,结合了人工生成和模型生成的caption。人工生成的caption主要来自LAION、CC和SBU,模型生成的caption则利用BLIP2对DataComp数据集中的图像重新生成。
  • caption筛选 :为保证数据集质量,先去除低质量caption,如广告、重复描述和语法错误较多的内容。筛选过程借助ChatGPT,并结合N-grams、Perplexity等统计指标,仅保留高质量、信息丰富的caption用于训练。接着,计算这些caption及其相应原始图像的CLIPScore,选择得分前40%的图像-caption对,组成100万caption的候选集,此步骤有效减少了存储开销和处理时间。
  • 图像生成 :在筛选出100万高质量caption后,使用Stable Diffusion XL(SDXL)模型生成图像。SDXL能够高效生成高质量、高分辨率(1024x1024)的图像,有效解决了现有数据集图像分辨率低的问题,提升了训练数据的质量和实用性。
2、合成数据选择
  • 评估指标 :为更好地确保图像与文本描述的对齐,继续使用CLIPScore评估图像与文本的对齐程度。由于生成的图像分辨率为1024×1024,需调整为336×336以适配CLIP模型,这一过程可能导致图像质量损失,因此引入结构相似性指数(SSIM)来衡量图像质量。最终,通过加权求和的方式将CLIPScore和SSIMScore结合,如下:

picture.image

λ设为0.5以平衡两者的贡献。

  • 数据筛选 :对100万合成的图像-caption对计算CLIPScore和SSIMScore,选择得分最高的10万对,这些对代表了图像和caption之间最准确、有意义的匹配,从而构建出高质量、高度对齐的合成数据集。

picture.image

用于字幕过滤的指标与提示

实验性能

picture.image

picture.image

picture.image

参考文献:SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models,https://arxiv.org/pdf/2407.20756

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论