港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !

大模型向量数据库云通信

备注好友: 方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

通过将大型语言模型(LLMs)适配到特定领域任务或向其添加特定领域的知识,作者可以充分利用 LLMs 的能力。然而,目前尚存在服务器端的 LLM 和下游客户端的轻量级语言模型(SLMs)之间实现同时 mutual enhancement 的差距。

为了解决这个问题,作者提出了一种新颖且参数高效的联邦框架 FedCoLLM,用于协同调优 LLMs 和 SLMs。这种方法旨在适应地将服务器端的 LLM 知识转移至客户端的 SLMs,同时从客户端的领域洞察中丰富 LLMs。

为此,FedCoLLM 利用轻量级 Adapter 与 SLMs 相结合,以一种尊重数据隐私并最小化计算和通信开销的方式在服务器和客户端之间进行知识交换。

作者对 FedCoLLM 的评估结果表明,在各种 NLP 文本生成任务中,客户端的 SLMs 在 LLMs 的辅助下性能显著提高。同时,通过 FedCoLLM 增强的 LLMs 实现了与直接在客户端数据上进行微调获得的性能相当。

1 Introduction

大语言模型(LLMs)的出现极大地改变了人工智能的格局。特别是像GPT-4这样的尖端LLM由于在自然语言生成任务上表现出卓越的性能,而引起了广泛关注。这一发展推动了高性能开源LLM的发布,如LaMDA [18],OPT [21],极大地促进了LLM技术的商业应用。尽管LLM在各种通用NLP任务中取得了广泛的成功,但它们在特定领域应用中仍面临一些限制。主要挑战包括:

领域特定知识隐私。当下游客户端无法访问 LLM 的参数时,他们必须将标注数据发送给 LLM 所有者进行微调。这个过程不可避免地披露了客户端的敏感领域特定数据的隐私。

受限制的资源 。即使下游企业可以获取LLM的模型参数,他们也常常面临严重的资源约束。微调这些LLM需要大量的计算和存储资源,对于资源有限的中小企业来说,这构成了采用的障碍。因此,这些企业只能利用其特定领域的数据,微调小型语言模型(SLM)。

AI模型和软件模型之间的互学互鉴 。在各自为政的情况下,优化服务器上的AI模型(LLM)和客户端上的软件模型(SLM),可以建立一个正反馈机制,使两者不断进化。起初,服务器上的AI模型可以传播通用知识和能力给客户端的SLM,然后在这些特定领域的数据上进行训练,用于下游应用。随后,这些特定领域的SLM可以将其行业特定知识回馈给服务器的AI模型。这种专业知识的转移有助于增强AI模型的理解和能力,扩大其范围和深度。然而,在文献中很少看到服务器AI模型和客户端SLM互相优化的现象。

为解决上述挑战,作者提出了一种创新且参数高效的联邦协同调优框架FedCoLLM,用于LLM(大型语言模型)和SLM(小型语言模型)。该框架旨在提高服务器端LLM和客户端端SLM的性能。如图1所示,FedCoLLM在服务器端部署一个LLM,并在客户端引入一个SLM作为服务器端和客户端隐私数据之间的桥梁。SLM在多个客户端和服务器上同时运行,促进了高效的信息交流和合作。FedCoLLM具有以下三个显著优势:

picture.imageFedCoLLM 最初在标准的联邦学习(FL)框架下运行 SLM [10, 20]。这种方法集成了参数高效的 Adapter 模块,例如 LoRA [9],显著降低了与 FedCoLLM 相关的计算和通信成本。

增强数据隐私。通过利用FL框架微调SLM,FedCoLLM充分利用了FL的安全保护机制(如SecureAggregation[2])来保护客户的数据隐私。这确保了在微调过程中,敏感信息得到保护。

知识迁移与互相提升。FedCoLLM采用了知识蒸馏(KD)技术[8],在服务器端将知识在LLM和SLM之间进行迁移。这一过程得到了一个辅助蒸馏数据集的支持,这对资源有限的客户端特别有益。通过这种知识迁移,服务器端的LLM和客户端的SLM互相提升,从而实现了整体性能的提高。

经过在各种LLMs和SLMs(包括GPT-2 [15],OPT [21]和LLaMA2 [18])上的广泛实验,作者的FedCoLLM框架在NLP文本生成任务上表现出竞争力的性能。结果表明,在LLM的支持下,SLM可以实现显著的提升,而LLM可以直接使用所有客户端的领域数据进行微调,从而实现可比的结果。值得注意的是,作者的框架更加资源高效,所需的计算和通信成本较低。

2 Related Work

Knowledge Distillation

近年来,知识蒸馏技术受到了广泛关注,因为它能够将来自更大教师模型的知识传递到较小的学生模型中。这一领域的早期工作由[8]提出,引入了知识蒸馏的概念并展示了其在改进压缩模型性能方面的有效性。自那时以来,许多研究在这个基础上进行了深入探索,并探索了各种蒸馏策略[7]。例如,[4,11]改进了基于响应的知识蒸馏,使学生模型可以直接模仿教师模型的最终预测。

[1]提出了FitNets,专注于在教师和学生模型之间匹配中间表示。另一项显著的工作是由[14]提出的关联知识蒸馏方法,它捕获了输出之间的配对关系以提高蒸馏效率。与教师和学生网络之间的一对一知识蒸馏不同,深度互学习(DML)[22]允许两个网络在训练过程中通过预测概率分布相互学习。这些研究已经证明了知识蒸馏在各种任务中的潜力,例如图像分类、目标检测和自然语言处理。

Federated Learning for Large Language Models

参数高效的微调(PEFT)技术[9]为解决联邦学习(FL)中大型语言模型(LLM)的通信开销和调优费用提供了直接解决方案。针对LLM的FL框架中应用PEFT方法的研究已经有很多。显著的贡献包括FedPETuning[23],Federated Adapter Tuning[3]和Federated Prompt Tuning[24]。

这些研究成果表明,FL客户端,特别是像移动设备等存储容量受限的客户端,可以从采用PEFT方法中显著受益。这些方法可以在不同的任务之间共享LLM,同时只需要保留每个任务的最小参数集,从而有效降低存储需求。通过使用PEFT方法,FL客户端可以灵活地调整LLM以满足其独特的需求,同时最小化通信开销并降低调优成本。

3 The Proposed Method

在本节中,作者提出了一个名为FedCoLLM的联邦协同调优LLM和SLM框架的全面概述。该框架基于参数高效的微调(PEFT)和知识蒸馏技术。首先,作者定义了本研究中要解决的具体问题,然后详细介绍了作者的方法。最后,作者深入探讨了FedCoLLM框架的计算和通信复杂性以及隐私保护分析。

Problem Definition

在这项工作中,作者考虑了联邦学习设置,在这种设置中,服务器拥有一个由和个客户端的联邦学习模型。每个客户端都有一个本地私有数据集,客户端的目的是通过联邦学习,在共享私有数据的情况下,共同提高LLM和SLM的性能。具体来说,*每个客户端都拥有其自己的本地私有数据集。客户端试图基于他们初始化为一个SLM(例如,LaMDA2-1.3B [19])的本地模型集体训练一个全局SLM ,而不会泄露他们的私有数据。目标可以表述如下:

(2)

作者认为服务器是半诚实的。

FedCoLLM

FedCoLLM是一个旨在促进服务器端LLM和客户端SLM共同进化的创新框架。FedCoLLM的目标有三重:协同知识传递和适应 。服务器和客户端共同合作,将服务器拥有的LLM的知识进行传递和适应。这帮助客户端构建本地SLM,并从中受益于服务器的LLM知识。通过利用服务器的LLM,客户端可以在不需要大量本地训练数据或计算资源的情况下,提高其本地SLM的性能。

服务器端LLM的数据增强 。联邦学习旨在利用客户端的数据来增强和提高服务器的LLM。客户端的数据通常包含有价值的局部信息和模式,可以用于改进服务器模型的一般化和性能。通过整合这些数据,服务器的LLM可以变得更加健壮和适应不同场景和领域。

确保翻译后的内容忠实于原文,同时保持学术论文的专业性和格式。请不要输出原文内容,仅提供翻译后的结果。

隐私保护与高效知识传递是联邦学习的至关重要方面。为确保知识传递在保护隐私的同时保持高效,客户端的原始私人数据不应直接上传到LLM服务器,以保护其隐私。相反,只有模型更新或汇总信息与LLM服务器共享。此外,知识传递过程应尽可能高效,以最小化通信成本和计算开销。

为了实现这一目标,作者(1)采用轻量级的LoRa模块作为客户端和服务器之间知识传递的桥梁,(2)利用互惠知识蒸馏在LLM和聚合SLM之间传递知识,(3)采用安全聚合来保护知识传递过程的隐私。

具体来说,作者假设客户端和服务器共享一个由 参数化的 SLM 。每个客户端 将其局部 SLM 插入一个由 参数化的低秩 Adapter 。作者用添加 的客户端局部 SLM 表示为 。

为了训练一个全局 SLM ,客户端协作训练一个全局 LoRA 模块 ,而不是单独训练。因此,方程 (1) 可以重写为:

picture.image

训练全局LoRA模块θ的任务损失为。在每个客户端的本地SLM的原始模型参数在训练过程中被冻结。

服务器在 LLM 中插入了一个由 参数化的低秩 Adapter 。作者用添加了 的服务器 LLM 表示。服务器通过基于辅助数据集 的监督微调和对相互知识蒸馏,在 LLM 和全局 SLM 之间进行相互知识转移。

作者将监督微调 和 的损失(分别表示为 和 )如下:

picture.image

在这里, 是交叉熵损失;在微调过程中,模型参数 和 被冻结。

以下是对和模型(分别表示为和)的互信息蒸馏损失的公式:

picture.image

在知识蒸馏过程中,KL散度函数(KL)的值;模型参数ψ和φ在蒸馏过程中保持不变。

将公式(4)和公式(5)相结合,作者得到服务器上的互知识转移如下:

λ 是超参数,它控制着相互知识转移的权重。

在互相知识传授之后,全球LoRA模块θ被分发到所有客户端,它们随后采用公式(1)基于本地数据集进一步训练θ。

FedCoLLM 因此促进了服务器和客户端之间的共生关系,其中双方都从各自语言模型中编码的集体知识和专业知识中受益。通过利用服务器端 LLM 和客户端 SLM 的互补优势,FedCoLLM 为自然语言处理领域中的联邦学习开辟了更高效、更有效的前景,实现了 LLM 和 SLM 的协同进化。作者在图1 中说明了 FedCoLLM,并描述了相关的训练算法(见算法 1)。FedCoLLM 的流程如下:

在第t轮通信中,服务器向K个客户端广播SLM 全局 Adapter θ。然后,每个客户端k将用接收到的全局 Adapter θ替换其本地 Adapter θk。

在本地训练过程中,个客户端使用他们的私有数据来微调各自的本地 Adapter 。这一步骤使客户端能够将他们的模型适配到特定的数据分布,同时保留全球 Adapter 中编码的知识。

在本地训练之后,个客户端向服务器发送各自的本地 Adapter 。服务器使用安全平均技术(如SecureAvg)对这些本地 Adapter 进行聚合,并相应地更新SLM(服务器学习模型)中的全局 Adapter 。

在服务器端,LLM 和 SLM 进行知识蒸馏。这个过程涉及到通过一个辅助蒸馏数据集将知识在两个模型之间进行传递。通过这种蒸馏,两个模型都可以从彼此学习的表示中受益,从而提高性能和适应性。

Computation and Communication Complexity

联邦学习协作学习(FedCoLLM)的一个关键优势在于其计算效率。通过利用PEFT,它显著减少了需要微调更新的参数数量。此外,服务器端的蒸馏过程将本地模型的知识压缩为较小的全局模型,优化了计算资源。这使得可以从所有客户端的集体数据中有效学习,同时保持模型大小可管理。在通信复杂性方面,FedCoLLM最小化了客户端和服务器之间交换的数据量。而不是传输整个模型或大型数据集,客户端仅与服务器分享本地微调的模型更新。这种方法显著降低了通信开销。

Privacy-Preserving Analysis

FedCoLLM 精心设计,以隐私保护为基础。认识到数据保密的重要性,该框架确保客户永远不会直接披露原始本地数据。通过PEFT和知识蒸馏,隐私保护得到进一步增强,在训练过程中最小化了敏感信息暴露。通过知识蒸馏,FedCoLLM 将关键洞察转移到一个统一的全模型,只分享汇总的非敏感知识,并保留个人客户隐私。此外,它与标准的FL框架无缝集成,用于SLMs微调,利用安全机制如SecureAggregation [2] 保持所有客户的数据隐私强大。

4 Experiments

Setup

作者设置了涉及四个客户端和一个服务器的场景,以评估使用各种LLMs和SLMs的FedCoLLM。

模型 。作者在LLM和SLM上评估FedCoLLM,包括GPT-2 [15],OPT [21]和LaMDA2 [18]。作者的实验涉及使用相同架构但不同模型大小的LLM和SLM的FedCoLLM框架。具体而言,例如,作者将LaMDA2-7B作为LLM并在FedCoLLM框架中使用LaMDA2-1.3B [19]。

Datasets . 作者在4个QA数据集上评估FedCoLLM,包括常识问答(CQA)[17],OpenBookQA [12],ARC-C [5],ARC-E [5].

Baseline 。作者对FedCoLLM框架与几个 Baseline 进行了比较分析,以评估其性能。这些 Baseline 包括:

零样本学习,这代表了 LLM 或 SLM 的零样本能力。

独立地,每个客户端使用其自己的私有数据集独立微调其本地模型。

FedAvg,其中客户端使用FedAvg算法[10]在私有数据集上进行训练。

中心化,其中服务器的LLM通过使用整个私有数据集和辅助蒸馏数据集进行本地微调得到优化。

评估指标。作者在QA数据集上评估微调的LLMs和SLMs的模型性能,主要使用准确率作为指标。值得注意的是,在作者的实验中,所有方法都进行了零样本评估,作者使用了 lm-evaluation-harness 包[6]。此外,为了评估作者框架的通信效率,作者通过跟踪传输参数的数量来衡量通信成本。

Performance Evaluations

作者进行了三种设置的实验。第一种设置( Token 为S1)包括一个服务器端的GPT-2-Large LLM和四个客户端端的GPT-2-Small SLMs,第二种设置( Token 为S2)包括一个服务器端的OPT-6.7B LLM和四个客户端端的OPT-1.3B SLMs,第三种设置( Token 为S3)包括一个服务器端的LLaMA2-7B LLM和四个客户端端的LLaMA2-1.3B SLMs。表1展示了作者的方法与其他 Baseline 的性能比较。上子表和下子表分别比较了FedCoLLM在服务器端的LLM和客户端的SLM上的性能与 Baseline 的对比。

picture.imageTable 1的顶级子表格显示,FedCoLLM在三个设置下显著优于Zero-Shot在服务器的LLM上。它还显示FedCoLLM在集中式场景上实现了可比的性能。例如,在CQA数据集中,FedCoLLM在GPT-2-Large LLM上相对于Zero-Shot实现了41%的相对提升,在OPT-6.7B LLM上为47%,在LLaMa2-7B LLM上为66%。此外,FedCoLLM的性能几乎等于集中式,在GPT-2-Large LLM上达到98%,在OPT-6.7B LLM上达到99%,在LLaMa2-7B LLM上达到97%。

表1的底部子表格显示,由于服务器的LLM的辅助,FedCoLLM在零样本、独立和FedAvg之上表现更好。例如,在CQA数据集上,FedCoLLM在GPT-2-Small SLM上相对于独立实现了6%的相对提升,在OPT-1.3B SLM上实现了8%的相对提升,在LaMa2-1.3B SLM上实现了4%的相对提升。此外,FedCoLLM在GPT-2-Small SLM上相对于FedAvg实现了3%的相对提升,在OPT-1.3B SLM上实现了5%的相对提升,在LaMa2-1.3B SLM上实现了2%的相对提升。

Communication Cost

作者研究了FedCoLLM与LoRa的通信成本,重点关注微调参数。如表2所示,FedCoLLM在微调所有参数时,通信成本显著降低了:它只产生了GPT-2的0.29%,OPT的0.24%和LaMDA2的0.23%的通信成本。

picture.image5 Conclusions

作者提出了一种名为FedCoLLM的创新且参数高效的联邦协同调整框架,用于大型语言模型(LLMs)和专用语言模型(SLMs)。

该框架经过精心设计,以便在保持隐私的同时,将LLMs平滑地适配到资源受限的下游企业,从而无需在这些企业中直接部署LLMs。

FedCoLLM通过引入一个SLM作为客户端私有数据与服务器上托管LLM之间的桥梁来实现这一目标。

在FedCoLLM的训练过程中,作者成功地提炼出一个融合了多个领域知识的大型语言模型,并培育了一系列由LLM指导的高性能客户端专用语言模型。

参考文献

[0]. FedCoLLM: A Parameter-Efficient Federated Co-tuning Framework for Large and Small Language Models.

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论