MoE-LLaVA:大型视觉语言模型的专家混合模型,开源2.0B、2.3B、3.6B模型

向量数据库大模型增长营销

          
论文题目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
          
论文链接:https://arxiv.org/abs/2401.15947
          
GitHub:https://github.com/PKU-YuanGroup/MoE-LLaVA
          
Demohttps://huggingface.co/spaces/LanguageBind/MoE-LLaVA
      

随着模型规模的扩大,LVLMs 的性能得到了显著提升,但这也带来了训练和推理成本的显著增加。 为了解决这个问题,作者提出了 MoE-tuning 策略,这是一种将 MoE(Mixture of Experts)架构适应到 LVLMs 的方法。

MoE-LLaVA 框架:这是一个基于 MoE 的稀疏 LVLM 架构,它通过路由器(router)在部署时仅激活顶部 k 个专家(experts),保持其余专家处于非激活状态。这种方法在视觉理解方面表现出色,并能减少模型输出中的幻觉(hallucinations)。

MoE-tuning 策略:作者提出了一个三阶段的训练策略。第一阶段仅训练多层感知器(MLP)以适应视觉输入。第二阶段通过多模态指令数据增强 LVLM 的能力。第三阶段复制前馈神经网络(FFN)作为专家的初始化权重,并仅训练 MoE 层。

picture.image

MoE-LLaVA 在多个视觉理解数据集上展示了其强大的能力,尤其是在对象幻觉抑制方面。例如,MoE-LLaVA-Phi-2.7B×4 在 POPE 对象幻觉基准测试中,仅使用 22 亿稀疏激活参数就超过了 LLaVA-1.5-13B。

picture.image

论文提供了 MoE-LLaVA 在不同任务中的专家负载和模态分布的可视化,展示了模型在处理文本和图像时的动态路径分配。

MoE-LLaVA 展示了在处理图像和文本特征时的强大能力,为未来研究提供了宝贵的见解。尽管如此,作者指出在训练稳定性方面还存在一些挑战,特别是在使用 16 位浮点精度时。此外,MoE-LLaVA 可以轻松扩展以处理更多任务,如检测、分割、生成或处理更多模态,如视频、深度和热成像。作者提出,为了在更大的 LVLM 上实现更好的性能,需要更多的数据。

picture.image

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论