SCAR: 于LLM SFT而言，“志同道合”的数据也可匹敌“千军万马” - 文章 - 开发者社区

提纲

1 简介

2 背景

3 Style Consistency-Aware Ranking

4 实验

5 实验结论

6 讨论

参考文献

1 简介

在大语言模型的发展历程中，指令微调（Instruction Tuning）作为提升模型任务适应性的关键环节，其数据效率与优化效果一直是研究焦点。当前研究表明，通过人工确保一致性的回复风格+足够高的数据质量的训练数据能带来更好的模型性能，并且减少数量上的要求。


于是有研究人员提出了一种突破性方法SCAR（Style Consistency-Aware Response Ranking），通过识别响应中的风格一致性特征，筛选了风格更加一致的数据，实现了以极少数据量达到甚至超越完整数据集的微调效果，仅使用了0.7%的训练数据就达到甚至超过了使用全量数据的模型。

2 背景

研究发现，response中影响语言模型SFT最显著的两个文体因素分别为Linguistic Form跟Instructional Surprisal。

Linguistic Form包括词汇跟句法的选择，与语义无关，更具体来说，包括过渡词跟功能词的使用，句子结构，标点符号模式，布局特征等。 Instructional Surprisal，衡量的是在给定instruction情况下，response的可预测性，可以通过PPL困惑度去预估。

为了研究不同文本因素对于大模型SF天的影响，研究人员设计了3种不同的数据类型

human-written: 由人类撰写的（instruction, response）数据
referenced: 利用大模型在不改变语义下对人类撰写的response进行改写
direct:利用大模型直接生成resposne

通过进一步分析发现，在 Linguistic Form上， direct= referenced> human-written。在 Instructional Surprisal上，direct>referenced>human-written。

picture.image

3 Style Consistency-Aware Ranking

为了筛选得到回复风格更加一致的数据，从而提高大模型SFT的性能，研究人员提出了

Style Consistency-Aware Ranking。具体过程如下

获取Linguistic Form跟Instructional Surprisal的表征

利用预训练好的encoder模型（例如roberta），可以得到（instruction, response）的表征，分别通过MAX-pooling跟MLP得到 Linguistic Form跟Instructional Surprisal的表征，分别表示为vp跟vc。
Reward function定义

将 Linguistic Form跟Instructional Surprisal的表征作为输入，通过MLP后输出得分，该得分会给那些更高质量，风格跟LLM输出更一致的数据分配更高的分数。

picture.image

损失函数

在确认Reward function的计算方式跟意义后，就需要设计相应的loss函数对齐进行训练。最终的损失函数由以下两个损失组成，其中x是instruction, y_d是direct数据的回复，y_r是referenced数据的回复，y_h是human数据的回复。第一个损失是希望能学到 direct>referenced>human-written的顺序关系。而第二个损失则是一个正则化损失，除了前面的顺序关系外，还要学会计算它们之间的差距。其中referenced跟direct在 Linguistic Form的差别相比referenced跟human会更小，而在 Instructional Surprisal，human跟referenced会更接近。

picture.image

排序跟筛选

完成Reward模型训练后，就可以对训练数据进行筛选，只保留得分靠前的那部分数据作为训练数据，从而提升模型SFT的性能。

4 实验

SCAR的训练数据来自于coding跟开发问答领域的数据集，借助于GPT-3.5，最终得到（instruction, reply\_human, reply\_referenced, reply\_direct）这样的四元组数据。


LLM SFT数据则有两种类型，其一是人工撰写的数据集，其二是由不同LLM生成的数据。在实验过程尝试了多种不同的数据筛选策略，通过评测最终SFT后的模型性能来比较不同数据筛选策略的优劣。

5 实验结论

通过SCAR(ID)在降低训练资源的情况下能显著增强LLM SFT性能有明显，在使用10%-25%数据的情况下SFT得到的模型性能媲美使用全部数据的模型，远超其他数据筛选策略。

picture.image

通过消融实验可以发现SCAR训练过程中各种策略的必要性，包括数据质量控制，正则化损失，以及引入一种折衷的referenced response等。

picture.image

6 讨论

SCAR 的提出为大模型指令微调开辟了新路径：

通过风格一致性而非单纯数据量提升性能 。这一方法不仅颠覆了 “数据越多越好” 的传统认知，更为高效 AI 落地提供了可行方案。随着技术的进一步优化，我们有理由期待：未来的 LLM 微调将不再依赖海量标注数据，而是通过智能数据筛选实现 “少而精” 的卓越效果。

大家都知道LLM的训练很玄学，不仅需要大量数据，还对数据配比很敏感，很多时候，并没有取得1+1>=2的效果，我们发现它的边际效益是在不断衰减的，所以我们现在也越来越注重训练的高效性。


SCAR里对于reward的定义其实比较简单，只要是针对direct，referenced跟human设计的，这意味着对于不同领域或者任务类型，都需要有自己的一个reward模型，这也会带来额外的开支。是否存在另外一些不需要模型训练的方案？必须要定义好各种关注的维度，让LLM进行打分，作为文本风格的一种估计手段，然后在进行筛选，或者是否可以直接套用传统的聚类模型，然后用大模型的输出结果作为文本特征？

参考文献

1 SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models

https://arxiv.org/pdf/2406.10882