啥？小米又开源了多模态理解大模型 - 文章 - 开发者社区

大家好，我是刘聪NLP。

上个月，小米开源了自己的文本大模型，共包括4个&B级别的模型，Base，Base-Zero，SFT和RL，见啥？小米也开源大模型啦！。

今天又刷到小米开源了多模态理解大模型-MiMo-VL，依旧7B。

先看雷达图，我的Qwen2.5-VL被暴打了。

picture.image

在图片、视频、语言的通用问答和理解推理等多个任务上，大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B，并且在 GUI Grounding 任务上比肩专用模型，为Agent时代而来！

在多模态推理和纯文本推理上，MiMo-VL-7B甚至干掉了，Qwen2.5-VL-72B、QVQ-72B-Preview、GPT-4o。

picture.image

模型结构

整体架构如下图所示，有三个部分组成，视觉编码器ViT（由Qwen2.5-ViT初始化）、映射层-MLP、文本大模型-LLM（由MiMo-7B-Base初始化）。

picture.image

具体参数如下：

picture.image

预训练数据2.4T Tokens，包括通用图像注释数据、交错数据（来自网页、书籍和学术论文）、OCR数据、目标识别数据、视频数据、图形用户界面（GUI）交互数据、推理数据和纯文本数据等。

预训练经历4个阶段：

picture.image

阶段1：冻结ViT和LLM，使用图像-标题对数据对随机初始化的投影器进行训练，保证投影器有效地将视觉概念映射到语言模型的表示空间。
阶段2：解冻ViT，引入交错数据以进一步加强视觉-语言对齐，由于包含复杂、多样化的图像，进一步增强ViT的性能。
阶段3：所有参数都是可训练的。同时引入了更多样化的数据和任务，包括OCR、定位、视频和GUI数据，总计1.4T tokens。也使用了一定量的纯文本数据，保证MiMo-7B-Base的文本能力。
阶段4：通过增加长纯文本、高分辨率图像、长文档、扩展视频和长推理等数据，增强模型对长上下文能力，长度从8K扩展到32K，同时大幅增加了推理数据的比例，并引入了长形式推理模式。