提纲
1 简介
2 背景
3 Style Consistency-Aware Ranking
4 实验
5 实验结论
6 讨论
参考文献
1 简介
在大语言模型的发展历程中,指令微调(Instruction Tuning)作为提升模型任务适应性的关键环节,其数据效率与优化效果一直是研究焦点。当前研究表明,通过人工确保一致性的回复风格+足够高的数据质量的训练数据能带来更好的模型性能,并且减少数量上的要求。
于是有研究人员提出了一种突破性方法SCAR(Style Consistency-Aware Response Ranking),通过识别响应中的风格一致性特征,筛选了风格更加一致的数据,实现了以极少数据量达到甚至超越完整数据集的微调效果,仅使用了0.7%的训练数据就达到甚至超过了使用全量数据的模型。
2 背景
研究发现,response中影响语言模型SFT最显著的两个文体因素分别为Linguistic Form跟Instructional Surprisal。
Linguistic Form包括词汇跟句法的选择,与语义无关,更具体来说,包括过渡词跟功能词的使用,句子结构,标点符号模式,布局特征等。 Instructional Surprisal,衡量的是在给定instruction情况下,response的可预测性,可以通过PPL困惑度去预估。
为了研究不同文本因素对于大模型SF天的影响,研究人员设计了3种不同的数据类型
-
human-written: 由人类撰写的(instruction, response)数据
-
referenced: 利用大模型在不改变语义下对人类撰写的response进行改写
-
direct:利用大模型直接生成resposne
通过进一步分析发现,在 Linguistic Form上, direct= referenced> human-written。在 Instructional Surprisal上,direct>referenced>human-written。
3 Style Consistency-Aware Ranking
为了筛选得到回复风格更加一致的数据,从而提高大模型SFT的性能,研究人员提出了
Style Consistency-Aware Ranking。具体过程如下
-
获取Linguistic Form跟Instructional Surprisal的表征
利用预训练好的encoder模型(例如roberta),可以得到(instruction, response)的表征,分别通过MAX-pooling跟MLP得到 Linguistic Form跟Instructional Surprisal的表征,分别表示为vp跟vc。
-
Reward function定义
将 Linguistic Form跟Instructional Surprisal的表征作为输入,通过MLP后输出得分,该得分会给那些更高质量,风格跟LLM输出更一致的数据分配更高的分数。
-
损失函数
在确认Reward function的计算方式跟意义后,就需要设计相应的loss函数对齐进行训练。最终的损失函数由以下两个损失组成,其中x是instruction, y_d是direct数据的回复,y_r是referenced数据的回复,y_h是human数据的回复。第一个损失是希望能学到 direct>referenced>human-written的顺序关系。而第二个损失则是一个正则化损失,除了前面的顺序关系外,还要学会计算它们之间的差距。其中referenced跟direct在 Linguistic Form的差别相比referenced跟human会更小,而在 Instructional Surprisal,human跟referenced会更接近。
-
排序跟筛选
完成Reward模型训练后,就可以对训练数据进行筛选,只保留得分靠前的那部分数据作为训练数据,从而提升模型SFT的性能。
4 实验
SCAR的训练数据来自于coding跟开发问答领域的数据集,借助于GPT-3.5,最终得到(instruction, reply\_human, reply\_referenced, reply\_direct)这样的四元组数据。
LLM SFT数据则有两种类型,其一是人工撰写的数据集,其二是由不同LLM生成的数据。在实验过程尝试了多种不同的数据筛选策略,通过评测最终SFT后的模型性能来比较不同数据筛选策略的优劣。
5 实验结论
- 通过SCAR(ID)在降低训练资源的情况下能显著增强LLM SFT性能有明显,在使用10%-25%数据的情况下SFT得到的模型性能媲美使用全部数据的模型,远超其他数据筛选策略。
- 通过消融实验可以发现SCAR训练过程中各种策略的必要性,包括数据质量控制,正则化损失,以及引入一种折衷的referenced response等。
6 讨论
SCAR 的提出为大模型指令微调开辟了新路径:
通过风格一致性而非单纯数据量提升性能 。这一方法不仅颠覆了 “数据越多越好” 的传统认知,更为高效 AI 落地提供了可行方案。随着技术的进一步优化,我们有理由期待:未来的 LLM 微调将不再依赖海量标注数据,而是通过智能数据筛选实现 “少而精” 的卓越效果。
大家都知道LLM的训练很玄学,不仅需要大量数据,还对数据配比很敏感,很多时候,并没有取得1+1>=2的效果,我们发现它的边际效益是在不断衰减的,所以我们现在也越来越注重训练的高效性。
SCAR里对于reward的定义其实比较简单,只要是针对direct,referenced跟human设计的,这意味着对于不同领域或者任务类型,都需要有自己的一个reward模型,这也会带来额外的开支。是否存在另外一些不需要模型训练的方案?必须要定义好各种关注的维度,让LLM进行打分,作为文本风格的一种估计手段,然后在进行筛选,或者是否可以直接套用传统的聚类模型,然后用大模型的输出结果作为文本特征?
参考文献
1 SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models