Meta领衔发布：一篇76页视觉-语言建模导论 - 文章 - 开发者社区

Meta 领衔、其他机构包括：蒙特利尔大学、多伦多大学、卡内基梅隆大学、麻省理工学院等等，作者有 41位 ，参考文献 300+ 篇，阵容强大！

视觉-语言模型（VLMs） 是一个研究领域，具有改变我们与技术互动方式的巨大潜力，但在构建这类模型方面存在许多挑战。Meta与学术界的一系列合作者一起发布了《视觉-语言建模导论》——希望这个新资源能帮助任何希望进入这个领域的人更好地理解视觉映射到语言背后的机制。涵盖了 VLMs的工作方式 、 如何训练它们 以及 评估方法 ——虽然它主要涉及图像到语言的映射，但也讨论了如何将 VLMs扩展到视频 中。

picture.image

VLM家族

。 对比训练（ Contrastive training ）是一种常用的策略 ，它使用正例和负例对。VLM被训练为预测正例对的相似表示，同时预测负例对的不同表示。遮蔽（ Masking ）是另一种可以利用来训练VLMs的策略，它通过重建给定未遮蔽文本字幕的缺失部分。同样，通过在字幕中遮蔽单词，可以训练VLM在给定未遮蔽图像的情况下重建这些单词。虽然这些方法大多利用中间表示或部分重建，但 生成型VLMs（G enerative ） 被训练为能够生成整个图像或非常长的字幕。鉴于这些模型的特性，它们通常是训练成本最高的。 基于预训练骨干（ Pretrained backbones ） 的VLMs经常利用开源LLMs（如Llama）学习图像编码器（也可以是预训练的）与LLM之间的映射。重要的是要强调这些范式并不是互斥的；许多方法依赖于对比、遮罩和生成标准的混合。

picture.image

训练VLM时需要考虑的重要事项 。数据

是训练VLM最重要的方面之一。拥有一个多样化和平衡的数据集对于学习能够涵盖足够概念的良好世界模型非常重要。同样重要的是去除在大规模数据集中经常出现的 重复项 ，这将节省大量计算时间并降低记忆的风险。此外， 修剪数据 也是一个重要组成部分，因为我们希望确保字幕确实与图像内容相关。最后， 提高字幕质量 对于提高VLM性能至关重要。确保VLM正确关联单词与特定概念的接地（ Grounding ）是另一个重要步骤。两种常见的接地方法分别利用边界框或负面字幕。最后， 对齐（Alignment） 是一个必要的步骤，以确保模型产生从人类角度预期的答案。

picture.image

评估VLM的不同方法 。 视觉问题回答（VQA） 一直是最常见的方法之一，尽管模型和真实答案通过精确字符串匹配进行比较，这可能会低估模型的性能。推理包括给VLM一个字幕列表，并让它从这个列表中选择最可能的一个。这一类别的两个流行的基准测试是Winoground和ARO。最近，可以使用密集的人工注释来评估模型将字幕映射到图像正确部分的能力。最后，可以使用像PUG这样的 合成数据 来生成不同配置的图像，以评估VLM对特定变化的鲁棒性。

picture.image


          
1 介绍
          
2 VLM家族 
          
2.1 基于变换器的VLM早期工作 
          
2.2 对比型VLMs   
          
2.2.1 CLIP    
          
2.3 带有遮蔽目标的VLMs   
          
2.3.1 FLAVA   
          
2.3.2 MaskVLM   
          
2.3.3 关于VLM目标的信息论观点   
          
2.4 生成型VLMs   
          
2.4.1 学习文本生成器的一个例子：CoCa   
          
2.4.2 多模态生成模型的一个例子：Chameleon和CM3leon 
          
2.4.3 使用生成型文本到图像模型进行下游视觉-语言任务 
          
2.5 来自预训练骨干的VLMs  
          
2.5.1 Frozen   
          
2.5.2 MiniGPT的例子   
          
2.5.3 使用预训练骨干的其他流行模型    
          
3 VLM训练指南 
          
3.1 训练数据    
          
3.1.1 通过合成数据改善训练数据   
          
3.1.2 使用数据增强    
          
3.1.3 交错数据策划    
          
3.1.4 评估多模态数据质量  
          
3.1.5 利用人类专业知识：数据注释的力量   
          
3.2 软件    
          
3.2.1 使用现有的公共软件仓库   
          
3.2.2 我需要多少GPU？
          
3.2.3 加速训练   
          
3.2.4 其他超参数的重要性  
          
3.3 使用哪个模型？
          
3.3.1 何时使用像CLIP这样的对比型模型？
          
3.3.2 何时使用遮罩？
          
3.3.3 何时使用生成型模型？
          
3.3.4 何时在预训练骨干上使用LLM？
          
3.4 改善基础   
          
3.4.1 使用边界框注释   
          
3.4.2 负面字幕   
          
3.5 改善对齐   
          
3.5.1 LLaVA的故事  
          
3.5.2 多模态上下文学习   
          
3.6 改善文本丰富的图像理解    
          
3.7 参数高效微调   
          
4 负责任的VLM评估方法 
          
4.1 基准化视觉-语言能力  
          
4.1.1 图像字幕   
          
4.1.2 文本到图像的一致性     
          
4.1.3 视觉问题回答  
          
4.1.4 以文本为中心的视觉问题回答 
          
4.1.5 零样本图像分类   
          
4.1.6 视觉-语言组合推理  
          
4.1.7 密集字幕和裁剪字幕匹配   
          
4.1.8 基于合成数据的视觉-语言评估  
          
4.2 基准化VM中的偏见和差异    
          
4.2.1 通过分类基准化偏见    
          
4.2.2 通过嵌入基准化偏见     
          
4.2.3 语言偏见可能会影响你的基准！
          
4.2.4 评估训练数据中特定概念对下游性能的影响 
          
4.3 基准化幻觉   
          
4.4 基准化记忆   
          
4.5 红队    
          
5 将VLM扩展到视频 
          
5.1 基于BERT的视频早期工作    
          
5.2 使用早期融合VLM启用文本生成  
          
5.3 使用预训练的LLM 
          
5.4 评估中的机会   
          
5.5 利用视频数据的挑战   
          
6 总结

picture.image

https://x.com/MindBranches/status/1795501373179498941


          
An Introduction to Vision-Language Modeling
          
https://arxiv.org/pdf/2405.17247