MM1:多模态大模型构建的方法、分析与见解

技术

        
          
https://arxiv.org/pdf/2403.09611.pdf  

      

picture.image

文章主要讨论了构建高性能的多模态大型语言模型(MLLMs)的方法、分析和见解。特别是,研究了不同架构组件和数据选择的重要性。

原文超长,41页,建议看原文 ,一些结论如下:

  1. 图像分辨率和图像编码器预训练目标的重要性 :实验发现,提高图像分辨率可以显著提升模型在各项指标上的表现。此外,使用CLIP作为预训练目标的图像编码器比使用重建损失(reconstructive loss)的编码器表现更好。
  2. 视觉-语言连接器的设计影响较小 :尽管不同的视觉-语言连接器(如平均池化、注意力池化和C-Abstractor)在预训练阶段显示出不同的性能,但在经过监督式微调(SFT)后,这些架构之间的性能差异变得不那么显著。
  3. 预训练数据类型的选择 :研究表明,交错的图像-文本数据和纯文本数据对于提高模型的少样本(few-shot)和零样本(zero-shot)性能至关重要。而图像描述(caption)数据则在提升零样本性能方面更为有效。
  4. 数据混合比例的影响
  • 交错的图像-文本数据(interleaved image-text data)对于提升模型在少样本(few-shot)和文本only任务上的性能至关重要。这种类型的数据自然地包含了多个图像和相关联的文本,与少样本测试输入相似,有助于模型理解和推理。
  • 图像描述数据(captioned images)在提升模型的零样本(zero-shot)性能方面起到了显著作用。这是因为图像描述数据通常包含与图像高度相关的短文本,使得模型能够在没有具体示例的情况下对图像内容进行推断
  • 确定了最佳的图像数据(包括图像描述和交错数据)与纯文本数据的混合比例。一个有效的混合比例是45%的交错图像-文本数据,45%的图像描述数据,以及10%的纯文本数据。这种混合比例能够在保持模型强大的文本理解能力的同时,优化其多模态性能。
  • 合成数据(如VeCap数据集)对模型性能的影响。虽然合成数据集相对较小,但它提供了高质量的图像-文本对,对于提升模型的少样本学习性能有积极作用。
  • 不同类型的数据对模型性能有不同的影响,而合理的数据混合比例可以在各种多模态任务中取得最佳性能
  • 为了进一步提升模型的性能,构建了一系列不同规模的多模态大型语言模型(MLLMs),参数量从3B到30B。这些模型不仅在规模上有所增加,而且在架构上也进行了创新,包括探索了Mixture-of-Experts, MoE模型。构建的模型在预训练阶段的各项指标上达到了最先进水平。这意味着这些模型在理解和生成图像-文本数据方面表现出色,能够有效地从大规模多模态数据中学习。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论