论文题目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
论文链接:https://arxiv.org/abs/2401.15947
GitHub:https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
随着模型规模的扩大,LVLMs 的性能得到了显著提升,但这也带来了训练和推理成本的显著增加。 为了解决这个问题,作者提出了 MoE-tuning 策略,这是一种将 MoE(Mixture of Experts)架构适应到 LVLMs 的方法。
MoE-LLaVA 框架:这是一个基于 MoE 的稀疏 LVLM 架构,它通过路由器(router)在部署时仅激活顶部 k 个专家(experts),保持其余专家处于非激活状态。这种方法在视觉理解方面表现出色,并能减少模型输出中的幻觉(hallucinations)。
MoE-tuning 策略:作者提出了一个三阶段的训练策略。第一阶段仅训练多层感知器(MLP)以适应视觉输入。第二阶段通过多模态指令数据增强 LVLM 的能力。第三阶段复制前馈神经网络(FFN)作为专家的初始化权重,并仅训练 MoE 层。
MoE-LLaVA 在多个视觉理解数据集上展示了其强大的能力,尤其是在对象幻觉抑制方面。例如,MoE-LLaVA-Phi-2.7B×4 在 POPE 对象幻觉基准测试中,仅使用 22 亿稀疏激活参数就超过了 LLaVA-1.5-13B。
论文提供了 MoE-LLaVA 在不同任务中的专家负载和模态分布的可视化,展示了模型在处理文本和图像时的动态路径分配。
MoE-LLaVA 展示了在处理图像和文本特征时的强大能力,为未来研究提供了宝贵的见解。尽管如此,作者指出在训练稳定性方面还存在一些挑战,特别是在使用 16 位浮点精度时。此外,MoE-LLaVA 可以轻松扩展以处理更多任务,如检测、分割、生成或处理更多模态,如视频、深度和热成像。作者提出,为了在更大的 LVLM 上实现更好的性能,需要更多的数据。
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。