告别知识漂移！实例级Top-k选择机制让模型自动适配最优教师路径，准确率最高提升12.3% - 文章 - 开发者社区

点击下方名片，关注「集智书童」公众号

picture.image

精简阅读版本

本文主要解决了什么问题

跨模态知识蒸馏中的路径选择问题 ：在跨模态知识迁移过程中，不同模态之间的知识可迁移性存在显著的不对称性，传统方法难以动态选择最优蒸馏路径，导致性能受限。

教师与学生模型之间的知识漂移问题 ：由于跨模态数据分布差异和模型归纳偏差不一致，教师模型与学生模型在注意力区域和表示空间上存在显著差异，影响知识迁移的有效性。

传统蒸馏方法在跨模态设置中的泛化能力不足 ：现有方法多为单模态设计，无法有效应对跨模态数据异质性和统计差异的挑战。

本文的核心创新是什么

提出MST-Distill框架 ：融合多模态与跨模态教师模型，构建多样化的教师集合，提升蒸馏路径选择的灵活性。

引入实例级路由网络（GateNet） ：动态选择最优教师路径，实现自适应蒸馏，增强模型在异构模态间的泛化能力。

设计即插即用的MaskNet模块 ：通过响应一致性引导，重建教师表示，抑制模态特定差异，缓解知识漂移问题。

三阶段训练策略 ：包括协同初始化、教师专业化适应、动态知识蒸馏，系统性地优化教师-学生之间的知识迁移过程。

结果相较于以前的方法有哪些提升

在五个跨模态数据集上全面优于现有方法 ：包括AV-MNIST、RAVDESS、VGGSound-50k、CrisisMMD-V2和NYU-Depth-V2，在分类和语义分割任务中均取得最优或次优性能。

在模态不平衡和弱对齐场景下表现稳健 ：尤其在AV-MNIST、RAVDESS等模态不对称的数据集上，MST-Distill展现出更强的鲁棒性。

提升了密集预测任务的知识迁移能力 ：在NYU-Depth-V2语义分割任务中，mIoU指标显著优于基线方法，验证了其在结构化知识迁移中的有效性。

通过动态路由机制实现教师资源的高效利用 ：负载均衡损失和Top-k选择机制确保了教师模型的多样化利用，避免路径选择的单一化。

局限性总结

对松散对齐模态的有效性仍有限 ：尽管在模态弱对齐的数据集上表现稳健，但提升幅度相对较小，说明在模态间语义差异较大的情况下仍存在挑战。

计算复杂度较高 ：由于引入了多个教师模型和MaskNet模块，训练过程相比传统蒸馏方法更复杂，可能限制其在资源受限场景中的部署。

依赖预训练教师模型 ：教师模型的质量直接影响学生模型的表现，若教师模型存在偏差或不准确，可能影响蒸馏效果。

未验证在三模态及以上场景中的泛化能力 ：目前实验集中在双模态设置，未来需进一步探索其在多模态协同蒸馏中的表现。

深入阅读版本

导读

知识蒸馏作为一种高效的知识迁移技术，在单模态场景中取得了显著成功。然而，在跨模态设置中，传统的蒸馏方法由于数据和统计异质性的挑战而面临重大困难，无法利用跨模态教师模型中嵌入的互补先验知识。本文通过实证揭示了现有方法中的两个关键问题：蒸馏路径选择和知识漂移。为解决这些局限性，作者提出了MST-Distill，一个具有混合专业教师的新型跨模态知识蒸馏框架。MST-Distill采用跨模态和多模态配置下多样化的教师模型集合，并集成一个实例级路由网络，以促进自适应和动态蒸馏。这种架构有效地超越了依赖单调且静态教师模型的传统方法的限制。此外，作者引入了一个插件式 Mask 模块，独立训练以抑制模态特定差异并重建教师表示，从而减轻知识漂移并提高迁移效果。在涵盖视觉、音频和文本的五个多样化多模态数据集上的大量实验表明，MST-Distill在跨模态蒸馏任务中显著优于现有的最先进知识蒸馏方法。

源代码: https://github.com/Gray-OREO/MST-Distill

1 引言

随着传感器技术和智能设备的快速发展，数据采集方法已显著多样化，在视觉、音频和文本领域产生了丰富的多模态数据。这些多模态数据为人工智能模型提供了丰富的训练资源[2]，并为模型提供了更全面的视角[52]。通过利用互补的跨模态信息，多模态方法在视频理解[41]、跨模态检索[40]和人机交互[10]等方面取得了显著性能。

这些多模态应用的扩展推动了分布式和近传感器计算范式的增长趋势。边缘计算通过将智能系统部署在数据源附近，提供了显著的优势，包括降低延迟、增强隐私和减少带宽需求，使其成为对时间敏感和数据密集型应用的理想选择[47]。然而，这些边缘部署面临着动态网络条件和异构传感器特性的重大挑战[5, 27]。传统多模态融合方法假设跨模态相关性良好对齐[3]，但在实际场景中，由于异步数据传输，时间错位和部分模态缺失现象普遍存在，导致性能下降[27]。在此背景下，跨模态知识迁移为资源受限的边缘设备提供了一种有前景的解决方案，通过构建共享语义空间，促进跨模态互补知识的迁移，从而实现高效推理。

知识蒸馏（KD）为模型压缩和知识迁移提供了一种有效的技术，适用于教师-学生框架[15]。根据其监督机制，蒸馏方法被分为基于响应的[15, 30, 32]、基于特征的[6, 32, 48]和基于关系的[30, 37]三种。尽管这些方法在计算机视觉[23]和自然语言处理[11]领域已展现出成功，但它们主要解决的是单模态内的知识迁移问题。当应用于跨模态场景时，这些方法会面临来自数据和统计异质性的额外挑战[17]，这违反了传统蒸馏方法中的分布一致性假设[35]，导致表征错位[44]和不可靠的知识迁移[17]。基于这些基础性挑战，作者通过实证研究，在现有文献中识别出两个尚未得到充分探讨的关键问题：

picture.image

1. 跨模态知识蒸馏中的路径选择。如图1（上）所示，模态不平衡[17]在跨模态知识蒸馏过程中表现为普遍的对称性和不确定性。来自某些源模态的知识对于特定任务表现出更强的可迁移性，而反向则往往导致性能较差。此外，即使多模态教师尽管有利用跨模态互补信息的潜力，并不总是提供有效的监督信号，给设计高效且泛化能力强的蒸馏范式带来了重大挑战。
1. 教师模型和学生模型之间的知识漂移。跨模态知识蒸馏中的一个基本挑战源于在不同数据域上训练的模型之间的归纳偏差不匹配。即使是多模态教师模型也可能表现出单模态偏差[50]，导致在处理相同输入时，教师模型的注意力区域与单模态学生模型的注意力区域之间存在显著差异。如图1（底部）所示，Grad-CAM[33]的可视化清晰地展示了这些差异，揭示了影响模型行为和迁移效果的知识漂移。作者在附录A中对这两个挑战进行了全面的实证分析和深入讨论。

为解决跨模态知识蒸馏中的蒸馏路径选择和知识漂移问题，作者提出了MSTDistill，一个通用且自适应的框架。通过整合多种教师模型与实例级路由网络，MSTDistill使目标模态的学生模型能够在训练过程中动态选择最优蒸馏路径，从而促进稳健且灵活的知识迁移。此外，作者引入了一个可插拔的MaskNet模块，该模块在响应一致性的指导下重建教师表示，鼓励行为对齐并减轻跨模态的知识漂移。

作者的主要贡献总结如下：

• 作者指出了跨模态知识蒸馏中的两个关键挑战：蒸馏路径选择和知识漂移。为解决这些问题，作者提出了MST-Distill，一个整合实例级动态路由与重建一致性引导的教师专业化的统一框架。
• 作者构建了一个由多模态模型和跨模态模型组成的教师混合体，并辅以一个实例级路由网络，使学生模型能够适应性选择最优的蒸馏路径。
• 为缓解模型间归纳偏差差异导致的知识漂移问题，作者引入了一种可学习的MaskNet模块，该模块在重建与学生学习行为一致的教师表示的同时，能有效抑制模态特定的差异。
• 在五个数据集上的大量实验表明，MST-Distill 在跨模态知识蒸馏任务中的有效性和泛化能力。

2 相关工作

2.1 多模态学习

多模态学习已成为计算机视觉[22]和自然语言处理[46]领域的重要研究方向。通过整合异构模态信息，这些方法能够实现更全面的特征表示学习[24, 29]，并在情感分析[36]、视频理解[31]和多模态对话系统[21]等应用中展现出显著效果。

然而，由于复杂性，多模态学习面临重大挑战，涵盖网络架构设计[7]、跨模态分布差异[8]以及优化策略[42]。在训练过程中，这些复杂性主要体现在两个基本障碍上，阻碍了有效知识整合：模态冲突[14]和多模态偏差[20, 43]。当模态间的语义和结构不一致导致优化过程不稳定时，会出现模态冲突；而多模态偏差[50]则发生在训练动态倾向于主导模态，抑制其他模态信息时。这些训练挑战构成了建模有效跨模态关系的不同障碍，最终限制了下游任务的性能。基于这些基础研究，研究行人在解决多模态学习挑战方面取得了显著进展。Zhang等人[50]揭示了晚期融合模型在促进多模态偏差方面的关键架构限制，而Wei等人[42]引入了MMPareto，这是一个通过动态系统方法有效缓解早期梯度冲突的优化框架。补充这些工作，Fan等人[9]开发了一种原型模态再平衡方法，该方法策略性地应用面向任务的单一模态约束，以对抗模态不平衡。

尽管这些贡献为改进多模态架构和训练方法提供了宝贵的理论见解和实践策略，但仍然存在重大挑战。特别是，在多模态框架内平衡模态特定知识方面的内在难度持续限制跨模态知识蒸馏的有效性，知识漂移已成为实现最佳性能提升的关键障碍。

2.2 跨模态知识蒸馏

知识蒸馏在单模态知识迁移中表现出色，但在跨模态场景下，由于异构数据格式和统计差异，面临着独特的挑战[3]。跨模态知识蒸馏（CMKD）通过专门弥合模态差距来解决这些问题，通过有效的跨模态知识对齐，提升目标模态的表征质量和性能。

早期的CMKD研究主要关注在视觉相似的模态（RGB、深度、红外）之间进行知识迁移，尽管这些模态具有不同的传感原理，但它们共享视觉特征[25]。该领域随后扩展到高度异构的模态对，包括视觉、音频和文本[19]，从而引发了人们对模态互补性和协同学习的兴趣。为了解决不同模态之间的结构和语义差异，近期研究引入了复杂的策略，如对比学习[53]、模态解耦[16]、共享语义表示[49]和元学习[28]。这些方法在视频理解、情感识别和跨模态检索等多模态应用中均表现出显著的有效性。

尽管取得了这些进展，当前的CMKD方法仍然主要局限于特定的场景和蒸馏配置，限制了它们在不同模态组合和任务需求中的适应性。为了解决这一限制，Xue等人[45]引入了MKE，在通用条件下展示了单模态和多模态模型之间可行的跨模态知识交换。随后，他们提出了模态聚焦假设[44]，通过策略性地构建和塑造教师模型的特征空间来处理CMKD。在最近的贡献中，Huo等人[17]提出了

；这是一个创新的框架，利用软标签排序一致性来指导动态样本选择，以实现优化的知识迁移。

尽管这些努力为CMKD奠定了坚实的理论及优化基础，但在利用多样化的教师模型和发展可学习的行为对齐机制方面仍存在显著机遇。为应对这些机遇，作者提出了MST-Distill，一个通用的跨模态知识蒸馏框架，该框架系统地解决了蒸馏路径选择和模型间的行为对齐问题。这种方法实现了跨异构模态的鲁棒和自适应知识迁移，推动了跨模态知识蒸馏领域的最新进展。

3 方法

在本节中，作者介绍了所提出的跨模态知识蒸馏的专门教师混合模型（MST-Distill）的详细实现。MST-Distill框架的概述如图2所示，该框架由三个连续阶段组成：协同初始化（S1）、专门教师自适应（S2）和动态知识蒸馏（S3）。在接下来的小节中，作者将详细阐述每个阶段的目标、机制和技术实现。

picture.image

3.1 特定模态成员的协同初始化

为进一步探索教师多样性在跨模态知识迁移中的潜在优势，引入一组多样化的教师模型成为自然而有效的设计选择。作者首先正式定义跨模态知识蒸馏任务。令

表示一个包含

个样本的多模态数据集，其中每个样本由来自不同模态的

个数据和相应的标签组成。第

个模态用

表示，其中

表示多模态情况，此时

结合所有模态数据进行联合推理。对应模态

的网络模型表示为

。在 MST-Distill 的第一阶段，作者预先不指定目标学生模态。相反，作者将所有

个模型同等视为特定模态的成员，并联合训练它们进行协同初始化。训练目标包含两个部分：一个任务损失

，使用真实标签对所有成员进行监督；以及一个对齐损失

，通过所有模态对之间的双向 Kullback-Leibler (KL) 散度来鼓励预测一致性。

对于单个训练样本，损失被定义为：

其中CE(-)表示交叉熵损失，

是Kullback-Leibler散度，

是模型

的参数集，

是在温度

下软化的输出分布。值得注意的是，作者不对教师模型的输出应用梯度断开，这与传统的双向蒸馏实践不同，从而使得特定模态的成员之间能够相互传播梯度。对于大小为

的小批量，第一阶段中的损失函数表示为：

其中

表示小批量中第

个实例对应的每样本损失。

3.2 MaskNet驱动的专业教师适应

受[44]中基于特征重要性过滤策略的启发，该策略抑制教师表示中的非显著特征，作者在MST-Distill的第二阶段引入了一个可学习、即插即用的模块——MaskNet。该模块将软 Mask 重建泛化到教师模型的任意中间层，从而实现教师与目标学生模型之间高效的行为对齐。

如图2中的STA模块所示，目标模态

的选择决定了相应的单模态学生、多模态教师以及辅助跨模态教师。为了进一步增强教师集成模型的多样性，作者将独立参数化的MaskNet模块插入到每个教师模型的选择性中间层中。具体而言，对于单个基础教师模型，作者通过在相同的中间层中结合不同的MaskNet实例来创建多个专用版本，其中每个MaskNet都有自己的独立参数。这种方法使作者能够在重用基础架构的同时推导出

个专用教师，计算公式如下：

其中

和

分别表示多模态教师模型和辅助教师模型中选择的重建层数。为简化符号，作者将每个教师模型中选择的层数统一表示为

。MaskNet的结构如图3所示。对于教师模型第

层的中间特征

，MaskNet首先通过 Projector （一个线性层后跟 Reshape 操作）将其映射到潜在空间

，其中

和

分别是输入维度和隐藏维度。随后通过一个多头自注意力（MHSA）模块[38]和一个线性层，并使用Sigmoid激活函数生成软注意力 Mask 。通过输入与软 Mask 之间的逐元素Hadamard积得到 Mask 特征

。该过程形式化定义为：

picture.image

其中

表示 MaskNet 模块的参数，

表示 Hadamard 积运算符。

随后，除了MaskNet的参数外，所有模型参数都被冻结，每个MaskNet独立训练，以通过响应一致性来使对应的专业教师的行为与目标学生的行为对齐。具体来说，设

表示具有对应MaskNet模块的

-th专业教师模型，其中

是一个索引映射函数，用于识别第

个教师的行为来源。

其中

表示从模态

派生的专业教师数量对于每个训练样本，第

个教师与目标模态学生之间的输出分布差异被测量为：

其中

表示模态

下的第

个专门教师

表示其对应的软化输出分布，MN 是相关的 MaskNet 参数。因此，对于大小为

的小批量，第

个教师在 Stage 2 中的损失函数定义为：

3.3 基于专业教师混合的动态知识蒸馏

作为MST-Distill的最终阶段，动态知识蒸馏过程专注于自适应地选择并利用针对目标模态

的专用教师模型。给定来自模态

的输入数据

，相应的学生模型

生成一个logits向量

，该向量随后被输入到一个路由网络（GateNet）中，以生成所有专用教师模型上的置信度分数

。

where GateNet

是具有参数

的路由网络，该网络以具有

个输出节点的多层感知器（MLP）的形式实现。

基于置信度分数

，作者采用TopK规则，按置信度降序选择得分最高的

位教师的索引：

表示用于后续知识蒸馏的被选中教师对应的索引。

值得注意的是，这种实例级选择允许学生动态选择具有最高跨模态可迁移性的教师。对于选定的前-k名教师，每个训练样本的蒸馏损失通过测量学生软输出与选定教师软输出之间的KL散度来计算：

其中Qms()表示模态mδ(j)的第j个专业教师的软化输出分布，Pmt是学生的输出分布。

与[15]类似，学生模型的特定任务分类损失计算如下：

此外，为了防止路由网络仅收敛到少数教师子集，作者引入了负载均衡损失，以促进教师资源的多样化利用。

具体而言，对于每个小批量，作者计算所有样本的平均置信度分布，并使用Kullback-Leibler散度将其与均匀分布

进行比较：

在

中的每个元素被设置为

，这促使在训练过程中对所有专业教师进行均匀利用。并且，Stage 3在一个mini-batch上的最终损失函数定义为：

的损失函数

计算公式为：

其中

和

是随训练逐渐衰减的权重超参数。有关 MST-Distill 的详细伪代码，请参见附录 C.1。

4 实验

作者在涵盖不同模态组合的五个数据集上进行了广泛的实验，这些数据集包括跨模态分类和语义分割任务。为了全面评估MST-Distill的有效性，作者将其与一系列具有代表性的 Baseline 进行了比较，包括基于响应的KD [15] 和MLLD [18]、基于特征的FitNets [32] 和OFA [12]、基于关系的RKD [30] 和CRD [37]、互学习方法DML [51]，以及两种跨模态知识蒸馏方法，MGDFR（根据[44]复现）和

[17]。此外，作者还进行了全面的消融和敏感性研究，以更深入地了解所提出的MST-Distill框架的有效性。

4.1 多模态分类

作者遵循[17, 44]的研究，并在四个视觉-音频和图像-文本数据集上开展实验：(1) AV-MNIST [39] 是一个用于数字分类的视觉-音频数据集，涵盖10类配对的书写数字和语音音频频谱图。(2) RAVDESS [26] 是一个用于情绪识别的视觉-音频数据集，包含通过对齐的面部表情和语音线索表达的8种情绪类别。(3) VGGSound-50k [4] 是一个视觉-音频场景分类数据集，覆盖141个真实世界类别[53]，包含共存的声音和视觉内容。(4) CrisisMMD-V2 [1] 是一个用于人道主义分类的图像-文本数据集，基于社交媒体中的图像-文本对，包含8个与危机相关的类别。这些数据集的更多细节在附录B.1中提供。

实现。作者遵循[17, 44]中的一致预处理策略。对于每个数据集，所有方法均采用定制但一致的教师网络和学生网络架构，具体细节见附录B.2。所有蒸馏方法均使用相同的训练条件：单阶段方法使用100个epoch，多阶段方法（FitNets、MGDFR和MST-Distill）使用一致的子阶段epoch数，统一批大小和损失衰减调度。在MST-Distill中，带有三个自注意力头的MaskNets被插入教师网络的中间层和倒数第二层（对于多模态教师使用后融合特征）。作者实现Top

动态蒸馏，设置

，初始

和

为1，分别采用每30个epoch减半和每10个epoch减少10%的衰减调度。数据按60%/20%/20%的比例分割用于训练/验证/测试，结果在五次运行中通过最佳验证模型进行平均。所有实验均在配备Intel Xeon Gold 6248R CPU和NVIDIA A100 GPU的服务器上完成。

对比结果。作者在相同的训练设置下，将作者的MST-Distill框架与几种先进的知识蒸馏 Baseline 进行了比较。如表1所示，作者提出的框架MST-Distill在所有四个多模态数据集上均实现了最佳或第二最佳的性能。特别是在具有明显模态不平衡的数据集上，如AV-MNIST、RAVDESS和VGGSound-50k，这种优势尤为明显，展示了MST-Distill在不同跨模态场景下的鲁棒性和泛化能力。与多种传统知识蒸馏方法和最新的跨模态方法相比，MST-Distill始终能提供更优越的性能。值得注意的是，DML是一种通用型互学习方法，最初设计用于单模态设置，但在跨模态领域也取得了具有竞争力的结果。这进一步证实了利用多样化和协作的教师信号来增强知识迁移的重要性。此外，作者观察到基于特征的方法，包括FitNets和OFA，往往表现不佳。这可能是由于它们依赖于特征 Level 的相似性，这对于捕捉跨异构模态的互补知识可能是不充分的。相比之下，基于关系的方法，如RKD和CRD，表现出更好的兼容性，因为样本之间的结构关系在模态之间相对更稳定，使其更适合跨模态蒸馏任务。

picture.image

4.2 多模态语义分割

作者进一步评估了MST-Distill在多模态语义分割任务上的泛化能力，重点关注紧密相关模态（RGB和深度）之间的知识迁移。遵循[44]中的协议，作者在NYU-Depth-V2数据集[34]上开展实验，该数据集包含1,449对对齐的RGB深度图像，并标注了40个语义类别。

实现。与作者在第4.1节中标准化的设置一致，作者采用FuseNet [13]作为多模态教师模型，并从其模态特定分支中推导出单模态学生模型。与在样本 Level 上运行的分类任务不同，作者的蒸馏发生在更细粒度的像素 Level 。为了提高可行性，作者在编码器-解码器 Bottleneck 处应用知识迁移，重点关注低维度的中层级特征。值得注意的是，由于语义分割具有密集预测的特性，许多为分类任务设计的传统知识蒸馏方法不能直接应用于此处。因此，作者的比较仅包括一部分具有代表性的基于响应和基于特征的方法。

对比结果。为进一步验证MSTDistill在跨紧密相关模态迁移知识以用于密集预测任务方面的有效性，作者在NYU-Depth-V2数据集上进行了多模态语义分割实验。如表2所示，MST-Distill在RGB和深度模态的所有评估指标（OA、AA和mIoU）上均表现出优越性能，在六个指标中排名第一，其余一个排名第二。值得注意的是，MST-Distill在两种模态上均获得了最高的mIoU分数，RGB模态为0.1620，深度模态为0.1797，明显优于所有现有 Baseline 方法。这些改进表明该框架能够有效捕获和迁移相似模态中的细粒度、结构化知识。此外，与作者的分类结果一致，通用蒸馏方法DML在此任务中也表现出竞争力，进一步证实了利用多样化教师模型进行跨模态知识迁移的优势。相比之下，

和MGDFR等跨模态方法未能超越MSTDistill，部分原因是依赖单一跨模态教师导致的蒸馏效果不对称。总体而言，这些结果强化了MST-Distill在分类和分割任务中的适应性和有效性。

picture.image

4.3 消融与敏感性研究

为全面评估所提框架的有效性，作者从两个角度开展消融和敏感性研究。首先，作者进行系统的消融实验，以评估MST-Distill中三个核心阶段各自的贡献。随后，作者研究混合专业教师（MST）的各种配置，例如模态多样性和选出的前

名教师的数量，以分析它们对性能和鲁棒性的影响。

4.3.1 MsT-Distill的组件影响

鉴于先前实验中多样化专业教师所展现出的优势，作者继续进行有针对性的消融研究，以探究MST-Distill框架中每个阶段的具体贡献。基于已建立的教师多样性，作者选择性地激活三个核心阶段：协同初始化（S1）、专业教师适应（S2）和动态知识蒸馏（S3），以分析它们各自和综合的影响。结果如表3所示，其中揭示了三个关键观察：

picture.image

1. 跨模态知识蒸馏在强对齐的模态对上表现更佳。与独立训练的学生（ Baseline ）相比，设置（a）表明基于均值的蒸馏从多样化教师那里显著提升了在强对齐任务（如RAVDESS和VGGSound-50k）上的性能，但在弱对齐数据（如AV-MNIST和CrisisMMD-V2）上则提供有限甚至负面的效果。
1. 所提出的动态知识蒸馏策略高度依赖于早期阶段的协同训练。如设置（b）所示，将动态蒸馏直接应用于静态多样化教师模型会导致改进效果甚微。相比之下，与设置（b）相比，S1（设置（c））和S2（设置（d））均显著提升了性能，突显了在应用动态蒸馏之前进行模型-教师模型对齐和专业化的重要性。有趣的是，这些优势表现出数据集特定的倾向性（RAVDESS从S2中获益更多，而VGGSound-50k则更青睐S1）。
1. CI和STA的迁移性优势是解耦且互补的。在设置（e）中将两者结合，相较于单独使用任一阶段，带来了进一步的改进。在设置（f）中引入S3实现了最佳整体性能，证实了完整的三阶段框架的有效性。

4.3.2 MST-Distill中的路由动态

为了更好地理解MST在动态知识下的机制，作者进一步追踪了RAVDESS训练过程中每位教师的平均路由概率。如图4所示，多模态和跨模态教师在整个训练过程中均表现出显著的参与度，并呈现出独特的自适应选择模式。

picture.image

值得注意的是，CM-T 2最初的选择概率较低，但随着时间的推移，其贡献逐渐增加，清晰地展示了作者DKD策略的自适应性。这种教师贡献的动态调整验证了MST-Distill在训练过程中自动识别和利用最有价值知识源的有效性。

4.3.3 MST-Distill上的配置

为了在基本组件消融分析的基础上扩展作者的分析，作者对MST-Distill框架进行了详细的超参数研究，重点关注混合专业教师模块中的细致配置方面。作者系统地改变教师组成（跨模态、多模态及其组合），并考察不同top-

参数值如何影响动态知识蒸馏过程。这些细粒度实验通过揭示蒸馏效果对特定参数选择的敏感性，补充了作者的主要消融分析，为最佳部署提供了实用见解。附加实验结果和详细分析可以在附录C中找到。

教师多样性配置的影响。在两个具有代表性的多模态分类数据集（视觉、音频和文本模态）上的实验展示了MST-Distill的有效性。如图5所示，组合教师配置

始终优于单独的跨模态（CM）或多模态（MM）设置，实现了更高的中位数OA改进并减少了方差。在RAVDESS数据集上，CM + MM提供了稳定且显著的提升，尤其对于视觉学生，具有紧凑的四分位距范围和极少的异常值。对于模态弱对齐的CrisisMMD-V2数据集，CM + MM保持了优越的稳定性和有效性，尤其对于文本学生。这些发现证实了结合跨模态和多模态教师指导的鲁棒性和泛化能力。

picture.image

Top-k教师选择的影响。作者的敏感性分析考察了参数k，该参数控制动态知识蒸馏过程中每一样本选择的模态特定教师数量。当k从1变化到4（受限于MaskNet插入的可用特征层），图6显示当k低于最大值时性能会提升，而k=4始终表现不佳。这是因为当使用所有教师时，自适应选择机制退化为均匀平均，从而消除了样本特定的区分性。这些发现验证了作者的top-k风格解决方案。作者在所有实验中采用k=1作为默认值，因为它在所有数据集上都始终提供稳健的性能，且无需进行数据集特定的调整。

picture.image

5 结论与讨论

本文提出了MST-Distill，一个用于跨模态知识蒸馏的新型框架，有效应对了蒸馏路径选择和知识漂移两大关键挑战。MST-Distill融合了多模态和跨模态领域中的多样化专家教师集合，利用实例级路由网络动态选择每个输入样本的最佳教师，并采用即插即用的MaskNet模块通过响应一致性监督解决知识漂移问题。在五个多样化的多模态基准测试中的全面评估表明，MST-Distill具有卓越的性能和泛化能力，始终优于最先进的知识蒸馏和互学习方法。虽然增强对松散对齐模态的有效性仍是一个开放性挑战，但这项工作为利用教师多样性进行跨模态知识迁移奠定了基础，未来研究将探索更复杂的方法，包括知识解耦和梯度调制技术，以及扩展到包含三个或更多模态的场景。

参考

[1]. MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation.