全面增强LLM的多领域性能,新型微调框架,实现LLM的跨领域知识均衡 !

大模型向量数据库云通信

备注好友:

方向-学校/公司-姓名/昵称

【AIGC 先锋科技】交流群

picture.image

picture.image

大型语言模型(LLMs)由于其涌现特性,在处理跨领域多个任务方面表现出惊人的能力。这些能力在监督微调(SFT)阶段进一步增强。尽管它们具有潜力,但现有研究主要关注微调过程中的特定领域增强,其中挑战在于其他领域的知识灾难性遗忘。

在本研究中,作者提出了一种名为VersaTune的新颖数据组合框架,旨在在微调过程中提高LLM的整体多领域性能。作者将知识分为不同的领域,包括法律、医学、金融、科学、代码。

作者首先检测基础模型内特定领域知识的分布,然后根据模型现有知识分布组成训练数据。在微调过程中,根据各领域的可学习潜力和遗忘程度,动态调整不同领域的权重。

实验结果显示,VersaTune在多领域性能方面取得了显著改进,在综合多领域任务上提高了35.21%。

此外,在需要特定领域优化的场景中,VersaTune通过牺牲其他领域的性能,将性能降低幅度减少了38.77%,同时不降低目标领域的训练效果。

1 Introduction

大型语言模型(LLMs)已成为人工智能(AI)领域的基石,特别是在自然语言处理任务方面,改变了AI研究和应用的领域,如法律、医疗、金融、科学和编程。为了进一步激励这些领域的能力,LLM通常会在特定数据集上进行监督微调(SFT)阶段。

由像 GPT-4 (Achiam等人,2023年) 和 Gemini (团队,2023年) 这样的专有 LLM 的强大性能来看,LLM 可以在单个模型中掌握所有特定领域内的多项任务。然而,现有的关于 SFT 的大部分研究主要集中在 LLM 的一项能力上。

作者通过在 SFT 阶段优化数据混合比例,试图提高 LLM 在各个领域的整体多任务性能:

为了在LLMs的SFT阶段设计一个数据组合策略,以实现整体多任务能力,作者需要解决以下三个关键方面的问题:

C1: 灾难性遗忘. 由于不同领域任务之间的基本差异,多域SFT的特定数据集的顺序训练策略在多个阶段可能导致先验知识的显著性能下降,这被称为灾难性遗忘 。这个问题阻碍了模型在多个能力上的灵活微调性能。因此,在SFT阶段混合不同域的数据至关重要,以减轻灾难性遗忘,提高整体性能和适应性。

C2: 低效率. 现有关于在LLM的SFT阶段中数据组成的研究仍处于初始阶段,大多数策略基于启发式规则。这些方法难以优化不同领域的平衡,无法最大限度地提高多个能力的整体训练效果。目前尚缺乏一种高效的方法,在SFT阶段全面提升LLM在多个领域的多种能力。

C3: 域扩展中的低灵活性。针对特定领域的AI技术通常根据先前的经验预先确定不同数据集的比例。这种策略缺乏根据LLM实时反馈动态调整当前阶段域间数据混合比例的灵活性,这阻碍了在LLM进行专业训练时,最小化其他领域性能损失的能力。

为解决这些挑战,作者提出了一种名为 VersaTune 的新颖数据组合框架,旨在在微调期间提高模型在不同垂直领域整体性能(见2.2节)。首先,作者检测目标模型(见2.2节)内部域知识的比例分布,然后基于现有的分布进行多能力增强的数据组合(见3.2节)以及灵活的域扩展(见3.3节)。

VersaTune具有以下特性:

高效。VersaTune在模型的微调阶段采用域知识比例的分布一致性训练,提供了一种高效的方法来增强多任务能力( C2 )。

灵活。VersaTune可以在扩展特定领域任务性能的同时,最大限度地降低模型在非目标领域的能力损失( C1, C3 )。

稳健性 。数据组合策略在参数范围为7B-14B的开源模型上进行微调后,取得了显著的改进,进一步增强了VersaTune的有效性。

作者在12个跨领域的下游任务上评估了作者的VersaTune,包括法律、医学、金融、科学和代码等领域,每个领域都有两个基准数据集。结果表明,VersaTune在多个领域的泛化微调中实现了35.21%的改进。此外,在关注特定领域微调时,VersaTune在保持目标领域训练有效性的同时,将其他非目标领域的性能降级减少了38.77%。

2 VersaTune: Detecting Knowledge Distribution

在本节中,作者提出了一种领域混合策略,用于微调具有全面多任务能力的预训练语言模型(第2.1节)。这种方法旨在与基础模型的固有领域知识分布相匹配。随后,作者描述了检测基础模型领域知识比例的方法,这对于指导微调过程至关重要(第2.2节)。

Knowledge Consistency Training

之前关于在LLM的SFT阶段中数据混合比例的研究主要集中在特定领域的能力提升上,通常只使用该领域的数据,或者采用启发式、基于经验的数据比例。作者认为这样的数据混合策略会显著损害LLM在其他领域的能力。在微调阶段,保持各领域强大的总体能力至关重要。

什么数据混合策略可以有效地提高LLM在SFT阶段跨不同领域的多样化性能?作者提出以下论断:

第一条声明 :使用特定领域数据比例

微调的LLM将在与预训练输出分布

对齐的这些领域中表现出增强和均衡的性能,与使用不匹配的数据分布微调的模型相比。正式表示为:

_其中

表示所有可能的数据点集合。这个说法基于模型在预训练过程中已经发展了对语言特征和特定领域的知识理解的事实。在微调过程中保持相同的知识分布,使模型能够在这个预先存在的知识基础上进行构建,从而提高学习效率和鲁棒性。

Domain Knowledge Distribution Detection

在借鉴知识识别方法以及语言模型(LLM)的训练数据推理策略(丁等人,2022年;Hayase等人,2024年)之前的研究基础上,作者提出了一种基于统计学的结构化方法,以高效地检测域知识。

假设数据集包括k个不同的域,如算法1所示,作者首先使用准备进行微调的基础模型(Line 3),并以

Token 生成一组

个数据条目

。接着,作者使用专有的LLM推理出这些

条目属于每个域的概率(Line 5-7)。然后,作者计算这些域内所有数据概率分布的加权平均值,从而得出当前基础模型的域知识分布(Line 9)。为确保统计稳健性,该过程迭代执行

次,作者使用这些

次迭代的平均值作为域知识分布的估计结果。

picture.image

3 VersaTune: Fine-Tuning Multi-Ability LLMs Efficiently

在检测到基础模型内的领域知识分布后,作者将利用这些发现来指导作者的多能力SFT过程。这些方法旨在提高在多领域任务(第3.2节)上微调模型的总体性能,并促进特定领域能力的灵活扩展(第3.3节)。

目标:构建一个涵盖k个特定领域的复合数据集,可表示为

,其中每个元组表示一个领域及其相应的比例,使得在训练模型时,在均匀分布的复合目标验证数据集

上可以实现整体较低的损失,或者在保持其他领域性能的同时实现灵活的领域扩展。最终,LLMs 的专业能力将通过与不同领域相关的下游任务(例如,金融表现)来衡量。

Preliminary: Learnable Potential and Forgetting Degree of Domain Knowledge

在正式介绍有效的多任务微调与灵活领域扩展数据组合策略之前,作者首先概述一下本小节中使用到的评估指标。

首先,作者在每个单独的领域上对小型的 reference model

进行了

个 epoch 的微调。在微调过程中,作者识别出了平均损失最低的 epoch 作为目标模型

在给定领域内可达到的最小损失的下界。这个值表示了在给定条件下,目标模型在当前特定领域所能达到的最高知识掌握水平。

学习势。作者可以通过比较目标模型

的损失与参考模型

能够达到的最小损失,来观察领域

是否能被有效学习。基于这些原则,作者提出了公式(2)来评估领域

的学习势。

θj表示θ模型在j域上的目标损失,而refj表示同域内的参考模型损失。为减轻不同域之间模型固有损失差异的影响,作者在公式中引入了一个归一化项。

忘记度。在将模型扩展到特定领域时,作者的目标是减小模型在其他领域的知识损失。在这里,作者将微调阶段划分为

个不同的预训练权重。通过测量第

个训练步骤与

个训练步骤之间的损失差异来量化当前领域的知识损失,或称为当前领域的忘记。这种差异反映了模型在当前领域相关任务上的掌握损失。基于这一原理,作者在第

个训练步骤时引入方程(3)来评估模型在域

的忘记度。

θ^(t)表示与目标模型M_θ在t-th训练步骤相关的损失,而θ^(t-1)表示在相同领域的先前(t-1)次迭代中的损失。作者还引入了一个归一化因子到方程中,以抵消不同领域固有损失差异的影响。

Effective Multi-Ability Fostering

为了在微调阶段培养LLM的多任务处理能力,作者将SFT阶段的初始域分布与基础模型的知识检测结果(如方程1所示)对齐。此外,作者根据模型在不同的SFT阶段实时反馈的实际情况,动态地对各域的组成比例进行微调。

根据算法2的详细描述,为了实现领域专业知识的均衡提升,作者首先按照算法1检测到的基础模型固有的领域知识分布(第1行)对领域比例进行融合(Line 1)。然后,在第t个训练步骤中,作者根据公式(2)中的方法为每个领域分配一个可学习的潜在评分。这些评分随后用于在组合SFT数据集中微调每个领域的表示,以确保在整个微调过程中各个领域的能力均衡发展(Line 3-7)。同时,模型M_θ的参数根据通过反向传播计算的梯度进行更新(Line 8)。这种自适应方法对于协调不同领域能力的提升和优化模型在多样化任务上的性能至关重要。

picture.image

Flexible Domain Expansion

在进行预训练模型的微调时,有时作者旨在特别提高模型在特定域任务上的性能。因此,作者的算法框架应具备容纳域扩展和有效泛化的灵活性。基于第一条陈述,作者提出以下针对域扩展的陈述:

第2个声明: 当微调一个LLM以实现特定能力时,从特定领域

增加数据量,同时调整其他领域

,根据基础模型的知识分布进行调整,有助于实现域扩展的灵活策略。形式上,这种关系可以表示为:

_

表示给定域

中的数据分布,

是调整因子。特别地,当

增加时,其他领域

整体上按比例缩小,这可以表示为:

其中,

是调整因子,

是相对于

而言其他领域知识的原始比例。

根据算法3,作者首先根据原始预训练模型的知识建立数据分布(第1行)。在第t个训练步骤中,作者计算每个领域的可学习潜力分数和遗忘程度分数(第4-5行),并按照算法2的方法为当前阶段分配领域权重(第6行)。在需要专注培养的领域的剩余学习边际和模型对其他领域的遗忘程度之间需要进行权衡:如果特定领域的改进收益超过其他领域的平均遗忘程度(比例大于ε),作者通过δ增加当前特定领域的数据权重,并按照公式(5)相应地减少其他领域的权重(第8-9行);否则,作者保持当前领域分布,并只进行如算法2中所述的轻微调整和归一化(第10-11行)。随后,作者更新目标模型Mθ的参数(第13行)。

picture.image

4 Experiments

在本节中,作者描述了作者的实验设置(第4.1节),用于比较的基准方法(第4.2节),以及实验结果(第4.3节)。

Experimental Setup

作者收集了涵盖六个垂直领域的SFT数据集,包括律师指导1(Lawyer-Instruct1)、MedQA的训练部分、Alpaca金融2、Sonnet3.5科学对话3、Code Alpaca4和Alpaca(Taori等人,2023年),分别表示法律、医学、金融、科学、代码和通用能力SFT数据集,即

。为了防止领域重叠,作者通过排除其他五个特定领域相关的数据,仅保留与它们无关的一般领域实例,构建了Alpaca数据集。

作者使用LLaMA(Dubey等人,2024年;Touvron等人,2023a、b)和Qwen(Bai等人,2023年;Yang等人,2024年)系列作为作者的预训练语言模型

。在微调过程中,作者使用了一个学习率调度器,具有线性 Warm up 和余弦衰减,峰值学习率为2e-5, Warm up 比为0.03,权重衰减为0.0,批处理大小为128,共4个epoch。为了保持一致性,各域的总训练数据量在每个epoch中被控制在60,000。作者在NVIDIA RTX H800上进行了所有的微调和解析实验。

Baselines

作者将VersaTune与以下 Baseline 进行了比较。在"有效多能力培养"的场景中:

(1) 最简单的 Baseline 是 均匀分布 ,其中每个领域具有相等的权重比例。

(2) 反向分布 按照检测到的知识分布以相反的方式为每个领域分配相应的权重。在"灵活领域扩展"的场景中:

(1) 100%特定领域 策略在微调阶段使用单一领域数据集的常见做法。

(2) 剩余领域均匀分布 提高特定领域的比例,而其余领域以均匀分布获得剩余的分布。

Results

作者在不同涵盖有效多能力培养和灵活域扩展的场景下,对VersaTune的效率进行了评估,主要结果呈现在表1和图2中。以下是作者对观察结果的总结。

picture.image

picture.image

其他领域的性能相较于100%特定领域微调提高了38.77%,如图2所示。详细的结果和分析请参见附录D。

知识一致性训练可提升性能。 在表1中,作者呈现了将域数据按检测到的知识分布反比例分配的实验结果。正如预期,反分布策略相比所有域上统一分布的最简单方法,性能较低。这一发现强调了在训练过程中,将域数据比例与模型的固有知识分布对齐的重要性。

5 Ablations and Analysis

在第4节中,作者证明了VersaTune在增强多个能力并使模型在微调阶段实现灵活的领域扩展方面的有效性。在本节中,作者对VersaTune进行了深入分析,其中作者消除了算法2中动态适应的组件,算法3中确定领域扩展上限的标准,以及用于衡量目标模型可学习潜力和遗忘程度的参考模型规模的影响。

动态调整增强了算法的鲁棒性。在培养多种能力的过程中,作者将VersaTune与在微调目标模型

之前从检测到的知识分布中获得的固定域权重进行比较。表4和图3展示了VersaTune的高鲁棒性,该算法在训练过程中动态地调整域权重,通过监测每个域的可学习潜力。相比之下,使用固定域权重的训练表现出一定的波动。这种现象的一个关键原因是模型在训练过程中掌握的域知识分布发生变化,各个域的学习效率也有所不同。因此,在训练的不同阶段根据模型的反馈动态调整域数据权重至关重要。

picture.image

确定特定领域计数在域扩展过程中的比例阈值。作者考虑对VersaTune的结果与实现特定域的“无条件动态增加”进行比较,其中作者移除了算法3中的第8行。图4显示,在域扩展过程中确定特定领域比例上限的标准,缓解了目标模型

在微调过程中经历的在其他领域的能力损失。同时,它确保了当前感兴趣领域的能力增长。作者推测,这可能是因为在微调后期,模型在目标域的熟练程度接近饱和。进一步增加当前领域的比例会导致递减的收益,可能导致其他领域的性能显著下降。

picture.image

6 Related Work

监督细调大型语言模型 大型语言模型(LLM)的监督细调(SFT)阶段涉及进一步训练,以提高模型的任务解决能力,并确保其与人类指令更加一致(赵等,2023)。尽管最近的研究已经深入探索了用于多任务优化的微调方法(东等,2023;桑哈等,2021),但它们仍然处于初级阶段。然而,正如具有出色多任务性能的专有模型(如GPT-4(阿柴姆等,2023)和Gemini(团队等,2023)所示)所表明的那样,在SFT阶段提高模型在各个领域的通用能力至关重要。因此,作者的工作系统地调查了在SFT阶段增强多领域性能的方法。

数据重新加权对于LLM训练至关重要。数据重新加权可以保持对整个数据集的全面访问,同时调整每个实例对各种目标任务的相关重要性,这对于LLM(大型语言模型)的预训练和微调阶段至关重要。在预训练阶段,DoReMi(Xie等人,2024年)和DoGE 使用轻量级 Agent 模型估计不同数据来源的权重,然后将这些权重应用于LLM的正式训练。此外,Sheared LLaMA(Xia等人,2023年)实现了一个在线版本的DoReMi,其中 Agent 模型提供的损失参考被替换为前一次训练步骤的预训练模型状态。此外,ODM(Albalak等人,2023年)利用多臂老虎机框架内不同域之间损失或对数似然度的差异动态调整数据分布。至于SFT阶段,Dong等人(2023年)通过双重阶段混合微调策略增强模型的数学推理、编码和一般人类对齐能力。然而,不同域的混合比例严重依赖于列举和经验方法,覆盖的域并不全面。本文对SFT阶段模型在不同域上的能力进行全面概述,并提出了适当的多能力微调方法。

知识检测在LLM中的重要性在于指导其后续训练(Chang等人,2024年)。这些知识涵盖了多个维度,如不同的域来源和任务属性。LLM知识检测现有工作主要集中在 Prompt 和校准。直接 Prompt 模型生成序列并从模型中提取置信度得分是一种常见策略。然而,这种方法高度依赖于 Prompt 设计和任务选择,这可能导致评估过程中引入偏差。其他研究试图推理LLM在前一阶段的训练中使用的训练数据混合(Antoniades等人,2024年;Hayase等人,2024年;Hu等人,2022年;Ye等人,2022年)。这些研究的核心是评估模型当前的知识状态,并为后续训练阶段的数据组织提供有针对性的策略。

7 Conclusion

大型语言模型(LLM)在多个领域的多样化能力至关重要。现有的LLM微调方法通常专注于单一领域任务,导致其他领域的性能显著下降。

在本文中,作者提出了一种名为VersaTune的数据组合框架,该框架旨在在微调阶段根据目标模型的域知识分布增强模型的多域能力。

来自不同模型和跨多个领域的下游任务的实验结果显示,VersaTune在整体多域增强和特定领域灵活扩展的情况下都取得了出色的训练效果。

参考文献

[0]. VersaTune: Harnessing Vertical Domain Insights for Multi-Ability LLM Supervised Fine-Tuning.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论