AsymLoRA革新多模态微调 | 非对称双投影兼顾冲突与共性，基准效率双突破 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

导读

有效指导在多样化的图像-文本数据集上进行微调对于开发多模态大语言模型（MLLM）至关重要，其中数据集的组成决定了模型在多模态任务中的适应性。然而，复杂的数据库往往包含固有的冲突——源于特定模态的优化目标——以及潜在的共性，这些共性能够实现跨任务的迁移，而大多数现有方法都是分别处理这些冲突和共性的。

为了弥合这一差距，作者引入了AsymLoRA，这是一个参数高效的微调框架，通过非对称LoRA统一了知识模块化和跨模态协调：特定任务的低秩投影（矩阵B），它保留了不同适应路径以处理冲突目标，以及一个共享投影（矩阵A），它整合了跨模态的共性。

广泛的评估表明，AsymLoRA在多个基准测试中始终优于仅捕获共性的vanilla LoRA和仅关注冲突的LoRA-MoE，实现了更优的模型性能和系统效率。

1 引言

多模态大语言模型（MLLMs）将预训练的视觉编码器与LLMs相结合，使模型能够根据视觉和文本输入进行理解和生成响应。为了增强其处理多种模态和下游任务的能力，MLLMs利用指令微调，即模型在从多种多模态任务合成的多模态指令跟随对话上进行微调。参数高效微调（PEFT）技术，如低秩自适应（LoRA），通过向模型中注入小的可训练组件来提高适应性，显著减少了可训练参数，同时保留甚至提高了任务性能。然而，直接将LoRA应用于多任务学习（见图1（a））可能导致冲突的优化目标，其中特定任务的适应性相互干扰，可能抵消有用的特定任务更新。

为了解决这个问题，混合专家（MoE）通过引入专门模块（见图1（b））扩展了LoRA，这些模块学习特定任务的知识，提高了不同模态之间的对齐。然而，多任务数据集本质上既包含冲突——源于特定模态的优化目标——又包含潜在的共同点，这些共同点促进了跨任务的迁移，这些问题不能单独有效解决。

picture.image

在本工作中，作者提出了AsymLoRA，这是一种专为多语言语言模型（MLLM）指令微调设计的非对称LoRA架构。与传统的LoRA不同，传统的LoRA将一对低秩分解矩阵应用于Transformer MLP层，AsymLoRA引入了一个共享的A矩阵来捕捉通用知识，以及针对独立任务适应的任务特定B矩阵（见图1（c））。

在推理过程中，AsymLoRA以MoE（多任务学习）的方式动态选择任务特定的B矩阵，有效地平衡多任务数据集中的共性和冲突，从而提高效率和性能。通过在多种数据配置上进行的大量实验，作者证明了AsymLoRA有效地缓解了指令数据集之间的冲突，同时利用它们的共享知识，以更少的参数实现了优异的性能和效率。

作者总结作者的主要贡献如下：

• 基于先进的MLLM模型和大规模数据集，识别在混合数据集上对指令微调MLLMs的固有冲突和共性。
• 作者提出了一种非对称LoRA架构AsymLoRA，通过任务特定的B矩阵解决冲突，并通过共享的A矩阵捕捉共性。
• 在多个基准测试中进行的广泛实验验证了AsymLoRA在性能和效率方面，在各种数据配置下均持续优于vanilla LoRA和LoRAMoE。

2 背景与动机

低秩自适应（Hu等，2021年）是一种针对大型预训练模型的高效微调技术，引入了可以应用于任意线性层的微小低秩矩阵（A和B）。形式上，对于一个线性变换

，其中输入

和权重

，LoRA学习一个低秩分解的更新：

其中

是输出，

和

是低秩矩阵，选择的秩为

。通常，矩阵

被初始化为零，而矩阵

则遵循Kaiming均匀初始化（He等，2015年）。在微调过程中，仅更新

和

，保持原始模型参数冻结，从而显著降低计算开销。

观察1：知识包含固有冲突。在多样化的图像-文本数据集上进行指令微调对于提升多语言语言模型（MLLMs）的性能至关重要，其中训练数据的配置起着关键作用。然而，作者观察到，当来自不同来源的指令数据被用于微调时，模型可能会出现性能下降。

领域合并时，领域特定的优化目标之间固有的冲突变得不可避免。这些冲突通常会导致在某些领域相对于在单一领域数据集上进行微调的性能显著下降。如表1所示，作者分别和组合地使用来自两个不同领域——视觉问答（VQA）和生成式（Gen，包括LLaVA-15k，VQG——的指令数据进行LLaVA的微调。虽然在某些情况下，例如在

中的“是/否”（78.08%）和“其他”（36.41%）任务中，混合领域的增加数据量导致性能提升，但基准评估通常揭示，天真地混合来自不同领域的指令数据会显著降低性能。例如，在TextQA测试集上，仅Gen的模型达到54.25%，而

混合模型降至43.25%。这些结果强调了多领域指令微调的可扩展性本质上受到数据集冲突的限制，突显了需要更复杂的策略来确保有效的多领域适应。

picture.image

观察2：知识包含潜在的共性。虽然模块化至关重要，但不同任务之间的知识往往是互补的，允许共享学习以提升性能。多语言大语言模型应能够捕捉、整合并随着来自多个来源和视角的多样化知识而演进，从而实现跨领域的协作学习。如表1所示，作者在不同的指令数据集上微调了独立的LoRA模块，并将每个LoRA模块视为一个专家，通过基于随机输入的专家混合（MoE）动态地组合它们。MoE-LoRA在某些情况下实现了最高的准确率，例如感知（1454.37）和认知（324.64）的MME分数，以及在VizWiz基准测试中的“其他”（39.66%）和“是/否”（82.15%）类别。这些结果表明，LoRA-MoE通过使用特定任务的模块、减少干扰和提升性能，有效地利用了模块化。然而，在其他场景中，MoE-LoRA的表现不如单领域微调。例如，在TextVQA上，它的表现不及仅微调的Gen模型，在VizWiz的不可回答任务中，甚至记录了最差的表现。这表明，仅关注任务差异而忽视潜在共性可能会限制数据的全部潜力，最终降低模型的有效性。为了实现最佳性能，需要一种平衡的方法，既要尊重特定任务的适应性，也要尊重共享知识。

3 方法论

3.1 AsymLoRA架构

picture.image

如图2所示，AsymLoRA引入了非对称设计以实现高效的MLLM指令微调，解决了传统对称LoRA方法的局限性。与将矩阵

和

在所有任务中均匀应用的传统方法不同，AsymLoRA维护一个共享的低秩矩阵

以捕捉共同知识，同时引入特定任务的低秩矩阵

以实现专门的适应。形式上，给定数据集

，其中每个

对应一个子任务

，作者的目标是优化共享参数

和特定任务参数

，以最小化每个

的任务特定损失

。

共享矩阵

有助于跨任务的知识迁移，减少可训练参数的数量，并增强泛化能力，而

矩阵则提供针对性的调整，减轻冲突任务之间的干扰。

3.2 AsymLoRA专家混合

为进一步提升多任务学习中的适应性和性能，作者将在AsymLoRA的基础上扩展混合专家（MoE）机制。在此方法中，多个专家共享一个公共的低秩矩阵

，该矩阵代表跨任务的全局知识，而每个专家都与一组独特的任务特定矩阵

4 实验

4.1 实验设置

模型。继LLaVA-1.5之后，本模型采用CLIP ViT-L作为视觉编码器，输入分辨率为

，块大小为

。一个两层MLP Adapter 处理从ViT中提取的576个 Token 。语言模型为Vicuna-7B，在整个训练过程中，ViT和Vicuna的权重都保持冻结。除非另有说明，否则对LLM应用LoRA，秩为32，B矩阵的数量初始化为

。

数据集和基准。作者在单域和多域设置中，对各种多模态任务进行模型评估。1）对于单域设置，训练在Conversation_58k数据集上进行，该数据集包含58,000个对话示例，用于基于对话的学习，以及LLaVA_v1_5_mix665k大规模混合数据集，用于多模态训练。2）在多域设置中，训练结合了VQA、LLaVA15k和VQG，其中VQA是一个大规模的开放式视觉问答数据集，LLaVA

包含15,000个视觉-语言任务样本，VQG促进对话AI的自然问题生成。评估在多个基准上进行，包括MME（多模态集成和推理）、GQA（基于场景图的VQA）、MM-Vet（MLLM的综合能力）、VizWiz（带有噪声图像的真实世界VQA）和TextVQA（需要整合文本和视觉信息）。

4.2 总体性能

picture.image

作者展示了AsymLoRA及其在三个评估环境下的对比 Baseline 实验结果：单域对话任务（表2）、单域通用任务（表3）和多任务域设置（表4）。结果表明，AsymLoRA在所有方案中均表现出色，验证了其在多模态指令微调中的有效性。

picture.image

单域任务性能。在表2中，AsymLoRA在TextVQA上的得分达到

，超过了MoE-LoRA（

）和LoRA（

），表明其整合文本和视觉线索的能力更胜一筹。在MME基准测试中，AsymLoRA取得了最高的感知得分（1327.93）和认知得分（287.14），超过了MoE-LoRA（1121.88，270.01）和LoRA（911.3，278.21），展示了其增强的多模态推理和特征提取能力。

picture.image

此外，在GQA中，AsymLoRA达到了最高的准确率（

）同时最小化了分布偏移（1.50），突显其在结构化推理任务中的鲁棒泛化能力。同样，在表3中，AsymLoRA在VizWiz基准测试中实现了持续的提升，在无法回答的问题（

）和数字问题（

）上领先，整体平均得分最高（

），展示了其在现实世界视觉问答中的鲁棒性。这种改进归因于AsymLoRA的非对称设计，该设计有效地平衡了常识（A矩阵）和任务特定适应性（B矩阵），缓解了不同领域之间的冲突，同时保留了LoRA和MoE-LoRA的优势。

鲁棒的多任务自适应。在多任务域设置（表4）中，AsymLoRA在感知、认知和基于推理的基准测试中继续优于竞争方法，展示了其在处理多样化的多模态挑战方面的优越能力。具体来说，它实现了最高的TextVQA分数（54.25%）和VizWiz平均分数（38.10%），超过了MoE-LoRA（53.84%，37.44%）和LoRA（43.25%，36.00%）。这些结果突出了AsymLoRA在动态适应不同领域的同时，保持任务间有效知识迁移的优势，从而实现了整体优越的多任务性能。

5 结论

本工作提出了AsymLoRA，一种参数高效的微调框架，该框架在MLLM微调中平衡了模态特定冲突和跨任务共性。通过利用特定任务的B矩阵进行适配和共享的A矩阵进行知识迁移，AsymLoRA在vanilla LoRA和LoRA-MoE之上实现了更优的性能和效率，在多个基准测试中均表现出色。这些结果突显了其在多任务指令微调中的可扩展解决方案的有效性。

6 局限性

尽管AsymLoRA取得了进展，但它仍存在一些局限性：

• 首先，虽然该框架在已建立的多模态基准测试中表现出强大的性能，但其对全新模态或高度专业领域（例如医学成像或低资源语言）的泛化能力尚未得到验证。
• 其次，通过MoE动态选择特定任务的B矩阵引入了非平凡的推理计算开销，这可能会限制其在对延迟敏感的场景中的应用。
• 最后，关于共享A矩阵如何整合跨模态共性的理论基础需要进一步探索，以更好地指导未来的架构设计。解决这些局限性可以进一步提高框架的实用性和鲁棒性。

参考

[1]. AsymLoRA: Harmonizing Data Conflicts and Commonalities in MLLMs Instruction Fine-tuning

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image