MM1:多模态大模型构建的方法、分析与见解 - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2403.09611.pdf

picture.image

文章主要讨论了构建高性能的多模态大型语言模型（MLLMs）的方法、分析和见解。特别是，研究了不同架构组件和数据选择的重要性。

原文超长，41页，建议看原文 ，一些结论如下：

图像分辨率和图像编码器预训练目标的重要性 ：实验发现，提高图像分辨率可以显著提升模型在各项指标上的表现。此外，使用CLIP作为预训练目标的图像编码器比使用重建损失（reconstructive loss）的编码器表现更好。
视觉-语言连接器的设计影响较小 ：尽管不同的视觉-语言连接器（如平均池化、注意力池化和C-Abstractor）在预训练阶段显示出不同的性能，但在经过监督式微调（SFT）后，这些架构之间的性能差异变得不那么显著。
预训练数据类型的选择 ：研究表明，交错的图像-文本数据和纯文本数据对于提高模型的少样本（few-shot）和零样本（zero-shot）性能至关重要。而图像描述（caption）数据则在提升零样本性能方面更为有效。
数据混合比例的影响 ：

交错的图像-文本数据（interleaved image-text data）对于提升模型在少样本（few-shot）和文本only任务上的性能至关重要。这种类型的数据自然地包含了多个图像和相关联的文本，与少样本测试输入相似，有助于模型理解和推理。
图像描述数据（captioned images）在提升模型的零样本（zero-shot）性能方面起到了显著作用。这是因为图像描述数据通常包含与图像高度相关的短文本，使得模型能够在没有具体示例的情况下对图像内容进行推断
确定了最佳的图像数据（包括图像描述和交错数据）与纯文本数据的混合比例。一个有效的混合比例是45%的交错图像-文本数据，45%的图像描述数据，以及10%的纯文本数据。这种混合比例能够在保持模型强大的文本理解能力的同时，优化其多模态性能。
合成数据（如VeCap数据集）对模型性能的影响。虽然合成数据集相对较小，但它提供了高质量的图像-文本对，对于提升模型的少样本学习性能有积极作用。
不同类型的数据对模型性能有不同的影响，而合理的数据混合比例可以在各种多模态任务中取得最佳性能

为了进一步提升模型的性能，构建了一系列不同规模的多模态大型语言模型（MLLMs），参数量从3B到30B。这些模型不仅在规模上有所增加，而且在架构上也进行了创新，包括探索了Mixture-of-Experts, MoE模型。构建的模型在预训练阶段的各项指标上达到了最先进水平。这意味着这些模型在理解和生成图像-文本数据方面表现出色，能够有效地从大规模多模态数据中学习。