LoRAMoE：解决大规模微调中的知识遗忘问题，提升语言模型在多任务学习中的性能 - 文章 - 开发者社区


        
          
https://arxiv.org/abs/2312.09979

picture.image

随着大型语言模型（LLMs）在各种任务中取得显著成果，监督微调（SFT）已成为提高其性能的关键步骤。然而，当需要处理更广泛的下游任务或提高特定任务的性能时，通常需要增加大量的微调数据。本文发现，大规模增加指导数据可能会破坏LLMs中原有的世界知识，导致知识遗忘。

为了解决这一挑战，我们提出了一种名为LoRAMoE的方法。LoRAMoE是一种插件式的专家混合模型（MoE），通过在训练阶段冻结主干模型来确保世界知识的完整性。接着，我们提出使用局部平衡约束来协调专家的任务利用，同时使其他专家能够充分利用模型中存储的世界知识。实验结果表明，LoRAMoE可以在推理过程中根据数据类型合理地协调专家，并且即使大幅增加指导数据也不会导致知识遗忘。此外，LoRAMoE还为下游任务的性能提供了额外的优势，表明我们的方法在多任务学习中具有潜力。

本文的核心观点是，在大规模监督微调中，维持世界知识与提高下游任务性能之间存在矛盾。为了解决这一问题，我们引入了LoRAMoE，它是一种插件式的MoE。通过在训练阶段冻结主干模型并添加多个并行插件作为专家，我们可以确保世界知识的完整性。然后，我们使用局部平衡约束来协调专家的任务利用，同时使其他专家能够充分利用模型中存储的世界知识。

算法原理包括两个方面：首先，我们将MoE应用于LLMs，将多个插件作为专家，并使用路由器连接它们；其次，我们提出局部平衡约束来划分每个LoRAMoE层中的专家，使一部分专家专注于下游任务，而另一部分专家负责与人类指令对齐的世界知识。

实验结果表明，LoRAMoE可以有效地保持语言模型中的世界知识不受大规模微调的影响。此外，我们还通过可视化专家权重来验证LoRAMoE在可解释性方面的有效性。我们观察到，在完成世界知识基准任务时，路由器更关注专门处理这些任务的专家；相反，在其他下游任务中，路由器关注另一组专家。LoRAMoE通过促进专家之间的协作来有效地解决这一冲突。此外，实验结果还表明，我们的方法在多任务学习中具有潜力。