多模态融合新宠 AlignMamba：高效、精准且鲁棒的完美结合！

点击下方卡片，关注「AI视界引擎」公众号

( 添加时备注：方向+学校/公司+昵称/姓名 )

picture.image

多模态对齐对于多模态表示融合至关重要，因为不同模态之间固有的异质性导致了这一需求。虽然基于Transformer的方法在建模跨模态关系方面取得了有希望的结果，但它们的二次计算复杂度限制了其在长序列或大规模数据上的应用。尽管最近基于Mamba的方法实现了线性复杂度，但由于其顺序扫描机制，跨模态关系的全面建模仍面临根本性的挑战。

为了应对这一局限性，作者提出了一种高效的多模态融合方法——AlignMamba。具体而言，基于最优传输理论，作者引入了一个局部跨模态对齐模块，明确学习不同模态之间的 token级对应关系。此外，作者提出了一种基于最大均值差异的全局跨模态对齐损失来隐式地强制不同模态分布的一致性。

最后，在本地和全局对齐之后，单模态表示被传递给Mamba主干网络，以实现进一步的跨模态交互和多模态融合。广泛实验结果表明，所提出的方法在完全和不完全多模态融合任务中具有有效性和效率。

例如，在CMU-MOSI数据集上，AlignMamba提高了分类精度约0.9%，减少了GPU内存使用量约20.3%，并降低了推理时间约83.3%。

Introduction

近年来，多模态表示融合已经成为一种关键的技术，用于整合和理解不同模态（例如，音频、视频、文本）之间的信息。这种能力对于视觉-语言理解[41]和视听分析[13, 40]等广泛的应用至关重要。然而，由于不同模态之间固有的异质性——每种模态具有独特的统计特性和特征分布——实现有效的跨模态对齐和融合仍然是一个重大挑战。

传统的方法主要依赖基于Transformer [31] 的架构，可以大致分为两大类。单流方法（例如VisualBERT [15]、ViLT [11]、LLaVA [21]）将不同模态的特征拼接到一个统一的序列中，并通过共享的Transformer层进行处理。相比之下，多流方法（例如LXMERT [29]、ViLBERT [23]、MulT [30]、CMA [44]）为每个模态配备了单独的编码器，并使用跨模态的Transformer来促进信息交换。虽然这些方法在捕捉动态跨模态交互方面表现出有希望的结果，但它们存在一个根本性的局限性：注意力机制的二次复杂度使其在处理常见于实际多模态应用中的长序列或大规模数据时效率低下。

近年来，序列建模领域的最新进展引入了基于状态空间模型（SSMs）[4, 5] 的 Mamba [3] 架构，该架构在保持强大的建模能力的同时实现了线性的时间复杂度。通过将选择机制和硬件感知并行算法引入到 SSMs 中，Mamba 能够有效地捕捉长范围依赖关系，而无需关注注意力机制所带来的计算负担。这一突破激发了将 Mamba 应用于多模态融合任务的兴趣，方法从直接特征拼接（例如，VL-Mamba [26]、Cobra [42]、RoboMamba [22]）到多流架构（例如，PanMamba [8]、Fusion-Mamba [2]、MambaDFuse [17]）。然而，作者的分析揭示了一个关键的限制。如图1 所示，虽然 Mamba 的顺序扫描机制在计算上非常高效，但它难以全面捕捉跨模态的关系，尤其是在未扫描的 Token 上。这种固有的限制导致了模态之间的对齐不佳，从而影响了学习到的多模态融合表示的质量。

对于完整和不完整的多模态融合任务的广泛实验表明，AlignMamba 在有效性和效率方面均达到了最先进的成果。

为了应对这些挑战，作者提出了一种名为AlignMamba的方法，该方法将局部和全局跨模态对齐信息整合到Mamba中，以实现高效的多模态融合。具体而言，作者引入了一个基于最优传输（OT）的局部对齐模块，该模块通过最小化特征传输成本来学习一个传输计划，从而在不同模态之间对齐特征。虽然局部对齐可以捕捉到Token Level 的跨模态关系，但它未能考虑模态间分布差异的影响。

因此，作者还提出了基于最大均值差异（MMD）的全局对齐损失。借助再生核希尔伯特空间的理论优势，MMD将不同模态的特征分布映射到高维空间，并通过最小化它们之间的分布差异实现隐式对齐。在进行局部和全局跨模态对齐之后，所有单模态特征被结合并馈送到Mamba主干网络进行进一步的多模态融合。这种双重对齐策略确保了Mamba能够利用模态间的局部和全局关系，从而学习更加全面的多模态表示。

综上所述，本文的主要贡献有三个方面：

作者观察到直接将Mamba应用于多模态融合任务时存在局限性，这忽略了更加全面的跨模态对齐信息，并提出AlignMamba框架以实现高效的多模态融合。
作者引入了一种基于OT的局部对齐模块，用于显式学习Token Level 的对应关系，并通过基于MMD的全局对齐损失实现隐式的分布对齐。这两种类型的对齐信息相互补充，实现了全面的跨模态对齐。
Related work

2.1. Transformer-based Multimodal Fusion

Transformer [31]凭借其强大的建模能力，已成为现代神经网络的基础架构。现有的多模态融合方法主要依赖Transformer来建模不同模态之间的关系并学习多模态融合表示。这些方法可以归为两大类：多流和单流方法。

多流方法使用跨模态Transformer来建模任意两种模态之间的交互。在视觉-语言预训练任务中，类似于ViLBERT [23] 和LXMERT [29]等模型利用两个共注意Transformer层来建模视觉和文本模态之间的双向关系。在音频-视觉-文本三模态融合任务中，MulT [30] 利用跨模态Transformer建模两两模态间的交互，然后将所有双模态融合表示连接起来以获得三模态融合表示。同样地，基于跨模态注意力机制的CMA [30] 提出了一种融合三种模态特征的方法。最近，BLIP-2 [14] 引入了Q-Former，这是一种轻量级 Query Transformer架构，用于对齐视觉-语言模态并学习多模态融合表示。

单流方法采用更为直接的策略，将不同模态的特征进行拼接，然后馈入Transformer编码器以实现跨模态交互和多模态融合。例如，在视觉语言预训练任务中，VisualBERT [15] 使用目标检测器从关键区域提取特征，并将这些区域特征序列与文本Token嵌入拼接起来，然后馈入Transformer。相比之下，ViLT [11] 用图像块嵌入序列取代了区域特征序列，去掉了目标检测 Backbone ，从而提高了效率。最近的多模态预训练模型，如LLaVA [21]，采用了类似的方法来建模跨模态对应关系，并为下游任务学习多模态融合表示。

现有方法通过交叉注意或自我注意机制实现跨模态交互与融合，学习综合且有效的多模态融合表示。然而，Transformer 的二次时间复杂度限制了它们在处理大规模或长序列数据时的效率。这一限制需要开发新的平衡有效性和效率的多模态融合方法。

2.2.Mamba-based Multimodal Fusion

作为一种新颖的架构范式，Mamba [3] 将选择机制和硬件感知并行算法融入到SSMs [4, 5] 中，实现了在语言领域的高效且有效的序列建模。受到其成功的影响，近期的研究开始探索将Mamba适应到多模态融合任务中。例如，Pan-mamba [8] 和 Fusion-mamba [2] 将其他模态的特征作为输入加入到单模态的Mamba中，以实现跨模态交互与融合。类似地，MambaDFuse [17] 和 MTMamba [19] 利用多模态表示作为输入进行跨模态交互与融合。相比之下，一些方法采取了更为简单的方法：VL-Mamba [26] 和 Cobra [42] 例如，在将视觉和文本表示序列馈入Mamba进行序列建模和多模态融合之前，先将它们进行连接。

尽管这些基于Mamba的方法在计算效率上显著优于基于Transformer的多模态融合方法，但由于Mamba的顺序扫描机制，它们也面临着固有的限制。这种机制使得有效学习跨模态对应关系变得困难，尤其是在处理未扫描的Token时。由此导致的跨模态对齐信息的损失可能限制了学习到的多模态融合表示的有效性。因此，在Mamba框架中如何有效地利用跨模态关系来学习更全面的多模态融合表示仍然是一个开放的研究挑战。

Method

3.1. Overview

图2展示了作者提出的AlignMamba框架。以音频-视觉-语言三模态数据为例，框架首先通过特定模态的编码器处理每个模态的原始信号，生成相应的单模态嵌入序列、和。随后，框架采用两种互补的对齐机制：基于OT的局部对齐模块捕捉token级对应的关联，以及基于MMD的全局对齐损失确保分布级的一致性。这些机制产生对齐后的嵌入序列和（这里通过将音频和视觉模态对齐到语言模态作为 Anchor 点进行示例）。经过对齐后的单模态嵌入，现在包含了跨模态对应信息，随后由Mamba Backbone 网络进行多模态融合。接下来的章节将详细描述各个组件。

picture.image

3.2. OT-based Local Cross-modal Alignment

最优传输提供了对比和对齐概率分布的一种基本原则框架，通过找到将一个分布转换为另一个分布的最优方式，同时最小化传输成本[32]。在作者的多模态对齐背景下，OT 提供了一种自然的方法来建立不同模态之间的 Token Level 对应关系，即将特征序列视为离散分布。

作者的目标是学习一个运输矩阵 (M)，以捕捉不同模态之间的细粒度对应关系。例如，以视频到语言对齐为例，经典的最优运输问题可以形式化如下：

该优化受以下条件约束：

其中，是成本矩阵。由于余弦距离强调了特征向量之间的角度关系，并且通过其有界范围提供了数值稳定性，作者使用余弦距离作为成本矩阵：

然而，求解这个OT问题在计算上非常昂贵。借鉴[12]的方法，作者采用一个放宽版本，即去除入向求和约束：

这种放松的表述形式允许每个文本特征与多个视频特征匹配，而不对总输入流进行约束，从而显著降低了计算复杂度，同时仍然保持了捕捉有意义的跨模态对应关系的能力。相应的解决方案定义为：

类似地，作者计算音频与语言对齐的传输矩阵 (M_{a \geq l})。最后，对齐后的视频和音频特征可以通过以下方式获得：

这种基于OT的宽松对齐过程提供了一种高效的方法来捕捉细粒度的跨模态对应关系，同时保持计算上的可行性。生成的传输矩阵提供了不同模态间的可解释对齐信息。然而，虽然这种基于Token级的对齐能够有效捕捉局部对应关系，但在模态之间确保全局分布级的一致性需要额外的考虑，作者将在下一节中通过MMD为基础的全局对齐机制来解决这一问题。

3.3. MMD-based Global Cross-modal Alignment

为了确保不同模态在分布层面的一致性，作者采用最大均值离散度（Maximum Mean Discrepancy，MMD）作为全局对齐度量。MMD通过比较不同模态在高维重述核希尔伯特空间（Reproducing Kernel Hilbert Space，RKHS）中各种统计量之间的差异来衡量其统计差异。对于两个特征序列和，MMD的距离平方定义为：

其中是一个特征映射至再生核希尔伯特空间。通过核技巧，这可以计算为：

其中 ( k(\cdot,\cdot) ) 是一个正定核函数。在作者的实现中，作者采用高斯核函数。

其中，是核带宽参数。

对于对齐的音频特征、对齐的视频特征和语言特征，全局对齐损失定义为每对模态之间的MMD距离之和：

通过在训练过程中最小化这种损失，作者鼓励不同模态的特征分布能够在RKHS中对齐。虽然OT建立了Token Level 的对应关系，MMD则确保整体特征分布的一致性，在不同的粒度 Level 提供了互补的对齐信号。这种双重对齐策略在后续处理阶段促进了更有效的多模态融合。

3.4. Mamba-based Fusion and Optimization

基于Mamba的多模态融合。在进行局部和全局对齐过程之后，作者采用Mamba来促进高效的多模态融合，同时保持其固有的线性计算复杂度。有别于传统的基于Transformer的方法通过自注意力机制一次性处理所有Token，作者的方法采用了时间优先扫描策略，保留了Mamba的时间序列性质，同时允许有效的跨模态交互。给定对齐后的音频特征、对齐后的视频特征以及语言特征，作者在每一时间步将不同模态的特征交织在一起，构建统一的多模态特征序列：

其中，上标表示时间索引。这种基于时间优先的组织方式确保了在同一时间步长下来自不同模态的特征能够依次处理，从而使Mamba的选择性扫描机制能够有效地捕捉到跨模态和同模态之间的依赖关系。融合表示由通过多个Mamba层处理构建的序列而获得。

训练目标。该框架通过结合任务特定目标和对齐约束的复合损失函数进行端到端优化：

其中，由下游任务确定（例如，分类任务中的交叉熵损失或回归任务中的均方误差），是基于MMD的对齐损失，而是一个超参数，用于平衡两个目标。在训练过程中，最小化促使模型学习与任务相关的多模态表示，而则确保各模态之间的特征分布具有一致性。

Experiment

作者在两个不同的多模态融合场景中评估了作者提出的方法：完整的多模态融合和不完整的多模态融合。在完整的融合设置中，所有模态在训练和推理过程中都是可用的，这测试了模型有效地整合跨模态互补信息的能力。而不完整的融合场景，在某些模态可能在推理过程中缺失的情况下，提出了一个更具挑战性但也更实际的测试环境，以评估模型对部分观察结果的鲁棒性和适应性。通过对这两种场景进行广泛的实验，作者展示了该方法在理想条件下和更具挑战性的实际情况下均具有有效性。

4.1. Datasets and Evaluation Metrics

作者在两个多模态表示融合基准上进行了实验：CMU-MOSI [39] 和 CMU-MOSEI [40]。这两个数据集都包含从在线平台收集的视频片段，其中包含了视觉（面部表情）、听觉（语音）和文本（转录的语音）模态。与 CMU-MOSI 相比，CMU-MOSEI 在演讲者、话题和录音条件方面表现出更大的多样性。两个数据集中的每个片段都标注了一个从-3（非常负面）到+3（非常正面）的情感分数。这些分数被二值化为正向和负向情感用于分类。为了评估作者方法的有效性，作者采用了基于先前研究[18, 34]的以下指标：二元准确率和二元F1得分。

4.2. Comparison with SoTA methods

4.2.1. Results on Complete Multimodal Fusion Tasks

表2展示了作者的方法与各种最先进的方法在完整多模态表示融合任务上的全面对比，可以分为三大类：(1) LSTM 方法，包括ICCN [28]、MISA [7] 和 MMIM [6]；(2) 跨模态Transformer方法：MulT [30]、Self-MM [38] 和 DMD [16]；(3) 对比学习方法：HyCon [24]、Confede [36] 和 MTMD [20]。

picture.image

一方面，AlignMamba 还额外融入了 Token Level 的对齐，以增强多模态融合，相比于对比学习方法。另一方面，AlignMamba 在跨模态 Transformer 方法中的优势在于它考虑了分布对齐关系。因此，AlignMamba 在两个数据集的所有指标上均取得了最佳性能。例如，在 CMU-MOSI 数据集上，AlignMamba 实现了二分类准确率，相比之前的方法提高了。这些结果归因于 AlignMamba 能够实现 Concat 操作的能力。

4.2.2. Results on Incomplete Multimodal Fusion Tasks

表1展示了在不完整的多模态表示融合任务上的实验结果。作者将AlignMamba与多种最先进的方法进行了对比，这些方法可以分为两大类：(1) 模态恢复方法，包括MCTN [25]、MMIN [43]、GCNet [18] 和IMDer [34]，它们试图从现有模态中重构缺失的模态；以及(2) 非恢复方法，例如DCCA [1] 和DCCAE [33]，它们直接利用现有模态进行学习。

picture.image

研究结果表明，AlignMamba在不同的缺失率下始终优于现有方法，在CMUMOSI数据集上实现了平均 accuracy 为 79.9% 的表现，比之前的方法提高了 1.2%。更重要的是，AlignMamba对不断增加的模态缺失率具有更强的鲁棒性。例如，在CMU-MOSI数据集上，MMIN和IMDer分别出现了高达 19.0% 和 13.0% 的性能下降，而AlignMamba仅表现出 11.9% 的二分类准确性下降，显示出更好的抗降级能力。

通过利用其局部对齐模块和全局对齐损失，进行广泛的跨模态对齐，从而有效地利用不同粒度下的跨模态关联，使多模态融合表示的学习更加有效。

总之，这些改进既适用于完整的多模态融合任务，也适用于不完整的多模态融合任务，可以归因于提出的双重对齐策略：局部token级对齐机制和全局分布级对齐机制共同作用以捕捉全面的跨模态对应关系。这种双重对齐策略与Mamba高效的序列建模能力相结合，不仅能够在完整的多模态场景中学习到更加全面和准确的多模态融合表示，还能够提高在不完整的多模态设置中学习到的表示的鲁棒性。

4.3. Efficiency Analysis

作者对AlignMamba进行了全面的效率分析，并将其与单流和多流Transformer方法进行比较。作者的评估指标包括GPU内存使用量、推理时间和计算复杂度。为了保证公平比较，作者特别关注跨模态交互和融合组件，而不包括单模态编码器的计算成本。所有实验均在相同条件下进行。

4.3.1. GPU Memory Usage

首先，作者在图3中报告了每种方法在不同输入序列长度下的GPU内存使用情况。作者排除了在12.81-Token设置下遇到内存溢出错误的多流Transformer。AlignMamba在所有设置中始终能够实现序列长度和内存使用的最佳权衡，显著超越其他基于Transformer的方法。例如，在处理6.4k个Token时，AlignMamba只需要8.53 GB的内存，相比于单流Transformer（[10.7 GB]）和多流Transformer（20.3 GB），分别实现了20.3%和58.0%的内存节省。这种在内存消耗方面的重大优势特别适用于处理较长序列并在资源受限的设备上部署模型。

picture.image

与单流（36.13秒）和多流（48.61秒）Transformer相比，在推理时间上分别快得多。

4.3.3. Computational Complexity

最后，作者分析了每种方法所需的FLOPs，以量化其计算效率。在不影响一般性的情况下，作者将每个模型的输入序列长度固定为1024。AlignMamba仅需46.7G FLOPs，相较于单流Transformer的101.6G FLOPs和多流Transformer的203.2G FLOPs，分别减少了超过54%和77%，这突显了AlignMamba在跨模态对齐和多模态融合任务中的计算优势。这也验证了前面部分提到的更低的内存消耗和更快的推理速度。

4.4. Ablation study

作者从三个维度进行全面的消融实验来评估作者提出的方法，如表3所示。

picture.image

组件分析。首先，作者评估了基于OT的局部对齐模块和基于MMD的全局对齐损失的有效性。移除任一组成部分都会导致性能下降，这在两个数据集上均得到了验证。例如，在CMU-MOSI数据集上，分别准确率降低了2.3%和1.1%。值得注意的是，基于OT的对齐模块的表现优于基于MMD的对齐损失，原因可能是基于OT的对齐提供了明确的对齐计划，而基于MMD的对齐仅施加隐式的对齐约束。

4.3.2.Inference Time

接下来，作者在图4中报告了每种方法在不同输入序列长度下的推理时间。为了确保公平性，作者对每个模型进行了50次推理迭代的时间聚合。AlignMamba再次在所有设置中展示了相对于基于Transformer的方法一致且显著的速度优势。例如，在处理6400个Token时，AlignMamba只需6.05秒，实现了比Mamba基融合方式高达83.3%和87.6%的加速。此外，作者通过采用常规单流[42]和多流Mamba基融合方法[2]对AlignMamba进行消融实验，以展示其在多模态融合方面的有效性。结果显示，这两种基于Mamba的方法表现下降，表明它们没有显式考虑跨模态对应关系，这使得学习全面的跨模态关系变得困难。这说明单独的Mamba架构不足以实现有效的多模态融合，并突显了Mamba原始扫描机制的局限性和作者提出的跨模态对齐的必要性。

picture.image

模态消融实验。最后，作者通过一次移除一种模态的方式进行了模态消融实验。当移除文本模态时，作者仅将音频模态与视频模态进行对齐。这导致了显著的性能下降，很可能是因为语言和情绪之间存在强烈的关联性。相反，移除音频模态带来的性能下降较小，可能是因为音频模态中包含了大量的无关信息，如背景噪音，这些噪音对总体性能的影响相对较小。

通过作者在CMU-MOSI和CMU-MOSEI中的双重对齐策略，作者提升了模态间的距离。这些改进展示了作者的策略在通过学习有意义的跨模态关联以弥合模态差距方面有效性，进而提升了更稳健的多模态融合表示。

4.5.2. Optimal Transport Plan

在这里，作者定性地展示了学习到的最佳运输计划。图5展示了CMUMOSI数据集中一个例子。请注意不同模态之间存在时间错位：不同模态之间的情感对应可能出现在不同的时间步上，这对多模态表示融合构成了挑战。例如，在视觉模态中最初出现了负面表情，而文本模态在末尾引入了负面词汇。原始的Mamba模型由于其顺序扫描机制难以明确地学习这些对应关系。相比之下，作者提出的方法利用最优传输来明确地跨不同时间阶段转换和对齐模态中的特征，减少模态差距并提高多模态融合的有效性。

picture.image

4.5. Further Analysis

4.5.1. Cross-modal Alignment

为了定量评估作者的双重对齐策略，作者测量了表4中模态对之间的距离。距离是领域差异的一个常用指标，数值越大表示模态间的差异越大。和分别代表音频-语言和视频-语言的距离。结果表明，在各对模态之间观察到了显著且一致的差异减少。

picture.image

参考

[0]. AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment .

点击上方卡片，关注「AI视界引擎」公众号

多模态融合新宠 AlignMamba：高效、精准且鲁棒的完美结合 ！

参考