大家好,我是刘聪NLP。
上个月,小米开源了自己的文本大模型,共包括4个&B级别的模型,Base,Base-Zero,SFT和RL,见啥?小米也开源大模型啦!。
今天又刷到小米开源了多模态理解大模型-MiMo-VL,依旧7B。
HF: https://huggingface.co/collections/XiaomiMiMo/mimo-vl-68382ccacc7c2875500cd212
Github: https://github.com/XiaomiMiMo/MiMo-VL
先看雷达图,我的Qwen2.5-VL被暴打了。
在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为Agent时代而来!
在多模态推理和纯文本推理上,MiMo-VL-7B甚至干掉了,Qwen2.5-VL-72B、QVQ-72B-Preview、GPT-4o。
模型结构
整体架构如下图所示,有三个部分组成,视觉编码器ViT(由Qwen2.5-ViT初始化)、映射层-MLP、文本大模型-LLM(由MiMo-7B-Base初始化)。
具体参数如下:
预训练阶段
预训练数据2.4T Tokens,包括通用图像注释数据、交错数据(来自网页、书籍和学术论文)、OCR数据、目标识别数据、视频数据、图形用户界面(GUI)交互数据、推理数据和纯文本数据等。
预训练经历4个阶段:
- 阶段1:冻结ViT和LLM,使用图像-标题对数据对随机初始化的投影器进行训练,保证投影器有效地将视觉概念映射到语言模型的表示空间。
- 阶段2:解冻ViT,引入交错数据以进一步加强视觉-语言对齐,由于包含复杂、多样化的图像,进一步增强ViT的性能。
- 阶段3:所有参数都是可训练的。同时引入了更多样化的数据和任务,包括OCR、定位、视频和GUI数据,总计1.4T tokens。也使用了一定量的纯文本数据,保证MiMo-7B-Base的文本能力。
- 阶段4:通过增加长纯文本、高分辨率图像、长文档、扩展视频和长推理等数据,增强模型对长上下文能力,长度从8K扩展到32K,同时大幅增加了推理数据的比例,并引入了长形式推理模式。
后训练
混合策略的强化学习,如上图所示,将基于规则的和基于模型的奖励作为统一服务整合到verl框架。
采用完全在线策略的GRPO作为强化学习算法,对于每个问题
,从策略
中采样一组回答
,最大化下面目标来更新策略:
其中,
是优势,通过同一组回答的奖励
计算得出:
在强化学习过程中,由于任务较多,涉及推理、感知、定位、多模态RLHF和纯文本RLHF等,每种任务都需要不同的奖励函数或专门的奖励模型,为此引入了奖励即服务(RaaS),奖励路由器根据任务类型动态选择适当的奖励函数,奖励模型作为独立服务部署,从而最小化延迟。
在训练过程中,没有纳入额外的奖励,例如格式奖励。
结果榜单
通用结果如下表,
推理结果如下表:
GUI结果如下图:
写在最后
模型已经下载,后面根据真实任务,测测MiMo-VL-7B到底如何,敬请期待!
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!