AsyMoE: 利用模态不对称性增强大型视觉语言模型中的专家专业化!

大模型机器学习算法

备注好友:方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

大型视觉语言模型(LVLMs)通过扩展的架构和广泛的训练,在多模态任务上展示了令人印象深刻的性能。然而,由于视觉和语言处理之间的不对称性,现有的专家混合(MoE)方法面临挑战。视觉信息在空间上是完整的,而语言需要维护序列上下文。因此,MoE模型难以平衡模态特定特征和跨模态交互。通过系统分析,作者观察到深层中的语言专家逐渐失去上下文关联,更多地依赖参数知识,而不是利用提供的视觉和语言信息。

为解决此问题,作者提出了AsyMoE,这是一种使用三个专业专家组来建模这种不对称性的新颖架构。作者设计了用于模态特定处理的模态内专家,用于层次化跨模态交互的双曲跨模态专家,以及用于抑制参数偏差并保持上下文关联的证据优先语言专家。

大量实验表明,与原始MoE和模态特定MoE相比,AsyMoE分别实现了

的准确率提升,同时激活参数比密集模型少

  1. 引言

大型视觉语言模型(LVLMs)[1]通过扩大模型规模和训练数据,在多模态任务中表现出令人印象深刻的性能[2]。通过将视觉理解与语言处理相结合,这些模型能够处理需要跨两种模态推理的复杂任务[3]。这种能力对于开放世界环境中的机器人系统尤其有价值[4]。这类Agent不仅要解释视觉场景,还必须遵循自然语言指令[5]。架构设计的最新进展使LVLMs能够将视觉信息转换为与语言兼容的表示,在各种基准测试中取得了强大的结果[6]。然而,这些密集模型难以平衡模态特定特征与跨模态关联[7]。在复杂推理任务中,它们常常偏离视觉证据,或忽略文本概念与视觉区域之间的重要联系[8]。

问题:谁是第一个踏上月球表面的人类?

最近的研究将Mixture of Experts (MoE) [9]引入多模态模型,以在扩展参数时提高计算效率。一种常见方法通过将所有模态的token路由到共享的专家池,直接将LLMs中的vanilla MoE设计扩展到LVLMs [10]。然而,这种方法忽略了不同模态之间信息密度和特征分布的显著差异[11]。另一种方法采用了特定模态的专家,其中文本和图像token被专门路由到它们各自的专家组[12]。虽然这种设计增强了模态内特征学习,但难以捕捉跨模态关联,例如文本中的名词token与图像中相应实体区域之间的对齐[13]。这些限制部分源于在欧几里得空间中表示跨模态特征,其平面几何难以编码层次化的语义关系[14]。

在跨模态表示的几何限制之外,作者通过分析现有模型中的注意力模式,发现了一个更微妙但关键的问题。当信息流经更深层时,语言专家逐渐失去与输入证据的联系,并越来越依赖参数化记忆。在早期层中,模型适当地使用文本上下文来建立任务理解,但这种上下文在更深层中被稀释,语言专家默认使用预先学习的统计模式,而不是保持对所提供信息的忠实性。这种现象在处理罕见表达或模糊上下文时尤为明显,其中语言的长期分布导致专家倾向于选择记忆模式而非上下文线索。这些观察表明,有效的多模态推理不仅需要适当的跨模态对齐,还需要在整个网络深度中保持证据基础的机制。

这种不对称性源于视觉和语言信息处理方式的内在差异[15]。视觉信息被编码为完整的空间表示,其中概念之间的关系自然嵌入在像素位置中,使其立即可访问。相比之下,语言是顺序展开的,需要持续维护上下文和进行动态推理。这种顺序特性使语言处理在深层网络中特别容易受到参数化记忆干扰的影响,在这些层中,模型必须在依赖预先学习的统计模式或遵循当前特定上下文之间做出选择。在深层网络中,随着上下文信号减弱而参数偏差增强,这种脆弱性变得更加明显,导致语言专家越来越倾向于默认使用记忆模式,而不是保持与输入证据的一致性。这些观察表明,多模态模型需要能够在整个网络深度中保持跨模态对齐和证据基础的架构,这促使作者重新设计专家专业化策略。

在这项工作中,作者提出了AsyMoE(如图2(c)所示),这是一种通过专门设计的专家来建模多模态推理不对称性的新颖架构。llm-AsyMoE_2509将专家组织成三组。模态内专家独立处理视觉和语言特征,捕捉模态特定模式。为了实现分层的跨模态交互,模态间专家在双曲空间中运行。这种方法自然地建模了包含关系,其中文本 Query 描述了完整视觉场景中的部分内容。双曲几何的负曲率放大了抽象层次的差异,使其比平坦的欧几里得几何更适合编码层次关系。最重要的是,作者引入了证据优先的语言专家,以防止语言处理过度依赖深层中的参数化记忆。这些专家抑制不必要的记忆激活,并增强上下文驱动的信号,确保对输入证据的更强依赖。作者的贡献可以总结如下:

• 作者发现视觉和语言处理之间的固有不对称性限制了现有MoE方法在依赖上下文的多模态推理任务中的性能。作者提出了一种新的专家架构,该架构包含用于层次关系建模的双曲交叉模态专家和用于减少参数化记忆依赖的证据优先语言专家。

• 大量实验表明,AsyMoE相比基础MoE提高了

的准确率,相比特定模态MoE提高了

的准确率,同时与密集模型相比减少了

的激活参数。

  1. 相关工作

A. LLMs中的专家混合

专家混合(Mixture of Experts)架构[16]已成为解决扩展语言模型计算挑战的一个引人注目的解决方案。通过为每个输入仅激活一部分专业专家[17],这些架构在保持模型容量的同时实现了显著的效率提升[18]。其核心机制是用并行专家模块[19]替代传统的 FFN ,其中路由网络根据输入特征动态选择最相关的专家[9]。这种选择性激活策略通过Sparse升级技术得到了进一步增强,该技术将现有的密集预训练权重转换为高效的Sparse架构[20], [21]。当代方法利用复杂的训练方法和海量数据集来优化专家专业化。High-Level实现展示了显著的多样性,从根据任务复杂性调整推理策略的架构,到通过智能专家分配平衡性能和计算效率的系统[22]。这些发展强调了MoE在提升现代语言模型的可扩展性和专业化能力方面的变革潜力[23], [24], [25], [26]。

B. LVLMs中的专家混合

MoE在LVLMs[27]中的应用日益广泛,其Sparse门控技术将模型划分为专门的子模型。DeepSeek-VL2[28]及类似模型利用预训练的LLM主干网络[24],[26],但受限于固定的专家设置和路由机制。MoE-LLaVA[29]提出了一种SparseLVLM架构,在部署过程中通过路由器仅激活top-k专家。采用混合专家解码器的视觉语言模型展现出增强的性能[10],[12],特别是在推理任务中。近期文献探讨了Sparse架构与密集架构之间的权衡,提出了支持多模态专家的模块化组合微调框架[30],[31]。然而,模态感知专家组和上下文保真机制的影响尚未得到充分探索[7]。为解决这些问题,作者提出了一种模态感知的MoE架构,通过专门专家对模态不对称性和上下文依赖性进行建模,为构建高性能LVLMs提供了更灵活且可扩展的方法。

  1. 预备知识

A. 基于专家混合的视觉语言模型

大型视觉语言模型采用专家混合架构来有效处理多模态信息。给定一个输入序列

,其中

表示视觉 Token 序列,

表示语言 Token 序列,

是隐藏维度,

分别表示视觉 Token 和语言 Token 的数量。

在混合专家层中,每个 Token 通过路由网络被动态分配给一组专家。对于层

中的输入

,输出计算如下:

其中

表示专家

的门控权重,满足

,而

表示被激活的专家数量。然而,现有方法在平衡特定模态处理与跨模态交互方面面临挑战,特别是在网络深度增加时。

B. 记忆优先级与证据基础

在多模态推理过程中,模型必须在参数记忆和输入证据之间取得平衡。作者将专家的证据 Anchor 定比率定义为:

其中

分别表示专家

在证据驱动和记忆驱动条件下的平均激活频率。更高的

值表示更强的证据优先行为。

其中 Ak 表示专家

基于输入证据的 attention weights,而

表示对 parametric memory 的依赖。具有高证据基础的专家可以有效抑制 memory-priority 倾向,并优先考虑 input-driven signals。

通过分析专家激活模式,作者可以识别出表现出证据优先行为的专家。作者将证据依赖比率定义为:

A. 模态不对称性及其影响

视觉和语言模态表现出不同的处理特性,这些特性产生了特定的架构要求。视觉信息表现为空间上完整的表示,而语言处理需要顺序上下文的维护。这种不对称性导致了两个相互关联但又不同的问题。

  1. 方法论

第一个挑战是语言处理中的上下文稀释。作者通过注意力熵分析来量化这一点:

其中

表示第

层的注意力权重,而 $\beta

0

H _ { V }

H _ { L }$ 随着深度增加,表明上下文信号逐渐稀释,对参数化记忆的依赖增加。

第二个挑战涉及跨模态关系表示。文本 Query 通常描述完整视觉场景的部分方面,形成层次化的语义关系。传统欧几里得空间由于其平坦的几何特性,无法捕捉这些层次结构,导致语义概念与其抽象层次之间出现不对齐。

表1 ASYMOE与其他LVLMs的比较。模型按参数规模分组,并基于其架构设计进一步分类。"ACT PARAM"指推理过程中激活的参数数量。

picture.image

B. 证据优先专家架构

为了解决上下文稀释挑战,作者将语言专家重组为证据优先专家。专家集变为

,其中

是视觉内模态专家,

是证据优先语言专家,

是共享跨模态专家。

证据优先的语言专家的行为被建模为:

其中

表示记忆驱动处理,

表示具有输入上下文

的证据驱动处理,而

是一个可学习的平衡参数。随着训练的进行,对于证据密集型任务,

会减小,确保专家优先考虑输入驱动信号而非记忆驱动信号。这种架构确保语言专家在整个网络深度中保持对输入证据的更强基础。

C. 双曲跨模态专家设计

作者的跨模态专家

在双曲空间中运行,以更好地建模跨模态关系。双曲几何的负曲率自然地捕捉层次结构,其中文本 Query 表示完整视觉内容的语义子集。这种设计有效地解决了文本和视觉模态之间的部分到整体映射问题。

作者将双曲空间中的跨模态对齐定义为:

其中

表示洛伦兹距离,

表示适应视觉上下文的证据优先语言特征映射。

为了保持多模态关系的不对称性,作者实施了一个偏序约束,其中语言表示保持从属于其对应的视觉表示。这是通过双曲空间中基于锥体的约束实现的:

其中

测量视觉和文本嵌入之间的外部角度,而

定义了蕴含锥孔径。这一约束确保文本表示保持在由相应视觉内容定义的语义锥内,从而实现对"文本作为视频的部分描述"关系的自然建模。

D. 具有模态感知的路由策略

AsyMoE中的路由机制同时考虑了模态特性和证据相关性。表2:ASYMOE与其消融变体在多模态基准测试上的比较。"DATA"指的是视觉指令数据。粗体数字表示最佳性能。

视觉 Token ,路由概率计算如下:

  1. 实验

对于语言 Token ,路由策略包含增强的证据感知机制:

A. 实验设置

其中

是路由权重矩阵,

是证据相关性分数,而

是一个表示证据优先级专家的 Mask 向量。证据相关性分数是使用注意力机制计算的:

其中

是 sigmoid 函数,

是一个可学习参数,且 Attn 是注意力机制。

这种设计使AsyMoE能够根据模态和上下文相关性,高效地将 Token 路由到最合适的专家,从而在不引入显著计算开销的情况下提高性能。

作者在18个多模态基准测试上评估AsyMoE,涵盖使用MMBench-EN [42]、MM-Vet [43]、GQA [44]、VQAv2和SEED-Image [45]的通用理解,使用MMMU [46]、AI2D [47]、SciQA-IMG [48]和MathVista [49]的基于知识的问答,通过TextVQA [50]、ChartQA [51]和DocVQA [52]的OCR任务,通过POPE [53]和HallusionBench [54]的幻觉鲁棒性,以及使用SQuAD、NQ、HotpotQA、NQ-Swap和ConfiQA的上下文相关推理。作者与不含MoE的密集模型、包括具有共享专家的Vanilla MoE和具有独立专家的Modality-specific MoE在内的MoE变体、SPHINX-X [39]、MM1 [40]和CuMO等最先进模型,以及ContextMoE [8]等上下文利用方法进行比较。

表3 记忆-证据平衡参数敏感性分析

B. 实现

表4 基于PHI-3-MINI Backbone 的消融研究结果

作者使用phi-3-mini和LLaMA3-8B作为LLM Backbone ,配合预训练的SigLIP视觉编码器和两层MLP连接模块来实现AsyMoE。该架构采用4专家配置,包括用于视觉和语言的模态内专家、用于跨模态交互的模态间专家,以及用于抑制参数偏差的证据优先语言专家。训练遵循两阶段策略,第一阶段在Bunny-pretrain-LAION2M数据集上优化连接模块,第二阶段在视觉指令数据集上整合完整的AsyMoE架构,视觉编码器的学习率为

,其他组件的学习率为

。所有实验使用带余弦调度的AdamW优化器,并在8个NVIDIA H20 GPU上使用DeepSpeed ZeRO-3进行高效训练。

C. 主要结果

表1突出了AsyMoE在各种多模态基准测试中的卓越性能。仅使用4.1B激活参数,AsyMoE-Phi3在TextVQA上达到

,在MMBench上达到

,显著优于MoIIE-Phi3和ContextMoE-Phi2,同时使用更少的计算资源。AsyMoE-LLaMA3在TextVQA上达到

,在MMBench上达到

,创造了新的基准,超越了需要13.5B激活参数的更大模型如CuMo。表2将AsyMoE与现有的MoE变体进行比较,显示出对Vanilla MoE、Modality MoE、ContextMoE和CartesianMoE的一致优越性。平均而言,AsyMoE比最强的 Baseline MoIIE高出

。图4进一步展示了AsyMoE的高效扩展性,从

样本保持一致的改进,而 Baseline 模型则趋于平稳。这些结果证实,利用专门的专家来建模模态不对称性能够实现卓越的参数效率和增强的学习能力。

picture.image

D. 专家行为验证

E. 消融研究

表4通过消融研究展示了每个架构组件的有效性。证据优先专家带来了最显著的改进,通过缓解参数记忆偏差实现了

的平均提升。双曲跨模态专家和证据感知路由分别进一步将性能提升了

,验证了作者的几何和路由设计。表3确定了在

时的最佳记忆-证据平衡,在TextVQA上达到

,在MMBench上达到

,在极端值下性能会优雅地下降。

  1. 结论

本研究提出了AsyMoE,一种解决多模态推理中固有不对称性的新颖MoE架构。作者发现语言专家在更深层次存在记忆优先现象,并引入证据优先专家以抑制参数偏差,同时采用双曲性跨模态专家来建模层次化的跨模态关系。大量实验验证了显式建模模态不对称性在多种基准测试上带来了一致的改进。未来工作将探索将此设计扩展到其他模态。

参考

[1]. AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论