啥?小米又开源了多模态理解大模型

大模型向量数据库云安全

大家好,我是刘聪NLP。

上个月,小米开源了自己的文本大模型,共包括4个&B级别的模型,Base,Base-Zero,SFT和RL,见啥?小米也开源大模型啦!

今天又刷到小米开源了多模态理解大模型-MiMo-VL,依旧7B。

HF: https://huggingface.co/collections/XiaomiMiMo/mimo-vl-68382ccacc7c2875500cd212

Github: https://github.com/XiaomiMiMo/MiMo-VL

先看雷达图,我的Qwen2.5-VL被暴打了。

picture.image

在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为Agent时代而来!

在多模态推理和纯文本推理上,MiMo-VL-7B甚至干掉了,Qwen2.5-VL-72B、QVQ-72B-Preview、GPT-4o。

picture.image

模型结构

整体架构如下图所示,有三个部分组成,视觉编码器ViT(由Qwen2.5-ViT初始化)、映射层-MLP、文本大模型-LLM(由MiMo-7B-Base初始化)。

picture.image

具体参数如下:

picture.image

预训练阶段

预训练数据2.4T Tokens,包括通用图像注释数据、交错数据(来自网页、书籍和学术论文)、OCR数据、目标识别数据、视频数据、图形用户界面(GUI)交互数据、推理数据和纯文本数据等。

预训练经历4个阶段:

picture.image

  • 阶段1:冻结ViT和LLM,使用图像-标题对数据对随机初始化的投影器进行训练,保证投影器有效地将视觉概念映射到语言模型的表示空间。
  • 阶段2:解冻ViT,引入交错数据以进一步加强视觉-语言对齐,由于包含复杂、多样化的图像,进一步增强ViT的性能。
  • 阶段3:所有参数都是可训练的。同时引入了更多样化的数据和任务,包括OCR、定位、视频和GUI数据,总计1.4T tokens。也使用了一定量的纯文本数据,保证MiMo-7B-Base的文本能力。
  • 阶段4:通过增加长纯文本、高分辨率图像、长文档、扩展视频和长推理等数据,增强模型对长上下文能力,长度从8K扩展到32K,同时大幅增加了推理数据的比例,并引入了长形式推理模式。

后训练

picture.image

混合策略的强化学习,如上图所示,将基于规则的和基于模型的奖励作为统一服务整合到verl框架。

采用完全在线策略的GRPO作为强化学习算法,对于每个问题

,从策略

中采样一组回答

,最大化下面目标来更新策略:

picture.image

其中,

是优势,通过同一组回答的奖励

计算得出:

picture.image

在强化学习过程中,由于任务较多,涉及推理、感知、定位、多模态RLHF和纯文本RLHF等,每种任务都需要不同的奖励函数或专门的奖励模型,为此引入了奖励即服务(RaaS),奖励路由器根据任务类型动态选择适当的奖励函数,奖励模型作为独立服务部署,从而最小化延迟。

在训练过程中,没有纳入额外的奖励,例如格式奖励。

结果榜单

通用结果如下表,picture.image

推理结果如下表:picture.image

GUI结果如下图:

picture.image

写在最后

模型已经下载,后面根据真实任务,测测MiMo-VL-7B到底如何,敬请期待!

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论