LoRAMoE:解决大规模微调中的知识遗忘问题,提升语言模型在多任务学习中的性能


        
          
https://arxiv.org/abs/2312.09979  

      

picture.image

随着大型语言模型(LLMs)在各种任务中取得显著成果,监督微调(SFT)已成为提高其性能的关键步骤。然而,当需要处理更广泛的下游任务或提高特定任务的性能时,通常需要增加大量的微调数据。本文发现,大规模增加指导数据可能会破坏LLMs中原有的世界知识,导致知识遗忘。

为了解决这一挑战,我们提出了一种名为LoRAMoE的方法。LoRAMoE是一种插件式的专家混合模型(MoE),通过在训练阶段冻结主干模型来确保世界知识的完整性。接着,我们提出使用局部平衡约束来协调专家的任务利用,同时使其他专家能够充分利用模型中存储的世界知识。实验结果表明,LoRAMoE可以在推理过程中根据数据类型合理地协调专家,并且即使大幅增加指导数据也不会导致知识遗忘。此外,LoRAMoE还为下游任务的性能提供了额外的优势,表明我们的方法在多任务学习中具有潜力。

本文的核心观点是,在大规模监督微调中,维持世界知识与提高下游任务性能之间存在矛盾。为了解决这一问题,我们引入了LoRAMoE,它是一种插件式的MoE。通过在训练阶段冻结主干模型并添加多个并行插件作为专家,我们可以确保世界知识的完整性。然后,我们使用局部平衡约束来协调专家的任务利用,同时使其他专家能够充分利用模型中存储的世界知识。

算法原理包括两个方面:首先,我们将MoE应用于LLMs,将多个插件作为专家,并使用路由器连接它们;其次,我们提出局部平衡约束来划分每个LoRAMoE层中的专家,使一部分专家专注于下游任务,而另一部分专家负责与人类指令对齐的世界知识。

实验结果表明,LoRAMoE可以有效地保持语言模型中的世界知识不受大规模微调的影响。此外,我们还通过可视化专家权重来验证LoRAMoE在可解释性方面的有效性。我们观察到,在完成世界知识基准任务时,路由器更关注专门处理这些任务的专家;相反,在其他下游任务中,路由器关注另一组专家。LoRAMoE通过促进专家之间的协作来有效地解决这一冲突。此外,实验结果还表明,我们的方法在多任务学习中具有潜力。

0
0
0
0
评论
未登录
暂无评论