https://arxiv.org/pdf/2403.09611.pdf
文章主要讨论了构建高性能的多模态大型语言模型(MLLMs)的方法、分析和见解。特别是,研究了不同架构组件和数据选择的重要性。
原文超长,41页,建议看原文 ,一些结论如下:
- 图像分辨率和图像编码器预训练目标的重要性 :实验发现,提高图像分辨率可以显著提升模型在各项指标上的表现。此外,使用CLIP作为预训练目标的图像编码器比使用重建损失(reconstructive loss)的编码器表现更好。
- 视觉-语言连接器的设计影响较小 :尽管不同的视觉-语言连接器(如平均池化、注意力池化和C-Abstractor)在预训练阶段显示出不同的性能,但在经过监督式微调(SFT)后,这些架构之间的性能差异变得不那么显著。
- 预训练数据类型的选择 :研究表明,交错的图像-文本数据和纯文本数据对于提高模型的少样本(few-shot)和零样本(zero-shot)性能至关重要。而图像描述(caption)数据则在提升零样本性能方面更为有效。
- 数据混合比例的影响 :
- 交错的图像-文本数据(interleaved image-text data)对于提升模型在少样本(few-shot)和文本only任务上的性能至关重要。这种类型的数据自然地包含了多个图像和相关联的文本,与少样本测试输入相似,有助于模型理解和推理。
- 图像描述数据(captioned images)在提升模型的零样本(zero-shot)性能方面起到了显著作用。这是因为图像描述数据通常包含与图像高度相关的短文本,使得模型能够在没有具体示例的情况下对图像内容进行推断
- 确定了最佳的图像数据(包括图像描述和交错数据)与纯文本数据的混合比例。一个有效的混合比例是45%的交错图像-文本数据,45%的图像描述数据,以及10%的纯文本数据。这种混合比例能够在保持模型强大的文本理解能力的同时,优化其多模态性能。
- 合成数据(如VeCap数据集)对模型性能的影响。虽然合成数据集相对较小,但它提供了高质量的图像-文本对,对于提升模型的少样本学习性能有积极作用。
- 不同类型的数据对模型性能有不同的影响,而合理的数据混合比例可以在各种多模态任务中取得最佳性能
-
为了进一步提升模型的性能,构建了一系列不同规模的多模态大型语言模型(MLLMs),参数量从3B到30B。这些模型不仅在规模上有所增加,而且在架构上也进行了创新,包括探索了Mixture-of-Experts, MoE模型。构建的模型在预训练阶段的各项指标上达到了最先进水平。这意味着这些模型在理解和生成图像-文本数据方面表现出色,能够有效地从大规模多模态数据中学习。