SCAR: 于LLM SFT而言,“志同道合”的数据也可匹敌“千军万马”

大模型向量数据库云通信

提纲

1 简介

2 背景

3 Style Consistency-Aware Ranking

4 实验

5 实验结论

6 讨论

参考文献

1 简介

在大语言模型的发展历程中,指令微调(Instruction Tuning)作为提升模型任务适应性的关键环节,其数据效率与优化效果一直是研究焦点。当前研究表明,通过人工确保一致性的回复风格+足够高的数据质量的训练数据能带来更好的模型性能,并且减少数量上的要求。


于是有研究人员提出了一种突破性方法SCAR(Style Consistency-Aware Response Ranking),通过识别响应中的风格一致性特征,筛选了风格更加一致的数据,实现了以极少数据量达到甚至超越完整数据集的微调效果,仅使用了0.7%的训练数据就达到甚至超过了使用全量数据的模型。

2 背景

研究发现,response中影响语言模型SFT最显著的两个文体因素分别为Linguistic Form跟Instructional Surprisal。 

Linguistic Form包括词汇跟句法的选择,与语义无关,更具体来说,包括过渡词跟功能词的使用,句子结构,标点符号模式,布局特征等。 Instructional Surprisal,衡量的是在给定instruction情况下,response的可预测性,可以通过PPL困惑度去预估。

为了研究不同文本因素对于大模型SF天的影响,研究人员设计了3种不同的数据类型

  • human-written: 由人类撰写的(instruction, response)数据

  • referenced: 利用大模型在不改变语义下对人类撰写的response进行改写

  • direct:利用大模型直接生成resposne

    通过进一步分析发现,在 Linguistic Form上, direct= referenced> human-written。在 Instructional Surprisal上,direct>referenced>human-written。

picture.image

3 Style Consistency-Aware Ranking

为了筛选得到回复风格更加一致的数据,从而提高大模型SFT的性能,研究人员提出了

Style Consistency-Aware Ranking。具体过程如下

  • 获取Linguistic Form跟Instructional Surprisal的表征

    利用预训练好的encoder模型(例如roberta),可以得到(instruction, response)的表征,分别通过MAX-pooling跟MLP得到 Linguistic Form跟Instructional Surprisal的表征,分别表示为vp跟vc。

  • Reward function定义

    将 Linguistic Form跟Instructional Surprisal的表征作为输入,通过MLP后输出得分,该得分会给那些更高质量,风格跟LLM输出更一致的数据分配更高的分数。

picture.image

  • 损失函数

    在确认Reward function的计算方式跟意义后,就需要设计相应的loss函数对齐进行训练。最终的损失函数由以下两个损失组成,其中x是instruction, y_d是direct数据的回复,y_r是referenced数据的回复,y_h是human数据的回复。第一个损失是希望能学到 direct>referenced>human-written的顺序关系。而第二个损失则是一个正则化损失,除了前面的顺序关系外,还要学会计算它们之间的差距。其中referenced跟direct在 Linguistic Form的差别相比referenced跟human会更小,而在 Instructional Surprisal,human跟referenced会更接近。

picture.image

picture.image

  • 排序跟筛选

    完成Reward模型训练后,就可以对训练数据进行筛选,只保留得分靠前的那部分数据作为训练数据,从而提升模型SFT的性能。

    4 实验


SCAR的训练数据来自于coding跟开发问答领域的数据集,借助于GPT-3.5,最终得到(instruction, reply\_human, reply\_referenced, reply\_direct)这样的四元组数据。


LLM SFT数据则有两种类型,其一是人工撰写的数据集,其二是由不同LLM生成的数据。在实验过程尝试了多种不同的数据筛选策略,通过评测最终SFT后的模型性能来比较不同数据筛选策略的优劣。

5 实验结论

  • 通过SCAR(ID)在降低训练资源的情况下能显著增强LLM SFT性能有明显,在使用10%-25%数据的情况下SFT得到的模型性能媲美使用全部数据的模型,远超其他数据筛选策略。

picture.image

  • 通过消融实验可以发现SCAR训练过程中各种策略的必要性,包括数据质量控制,正则化损失,以及引入一种折衷的referenced response等。

picture.image

6 讨论

SCAR 的提出为大模型指令微调开辟了新路径:

通过风格一致性而非单纯数据量提升性能 。这一方法不仅颠覆了 “数据越多越好” 的传统认知,更为高效 AI 落地提供了可行方案。随着技术的进一步优化,我们有理由期待:未来的 LLM 微调将不再依赖海量标注数据,而是通过智能数据筛选实现 “少而精” 的卓越效果。

大家都知道LLM的训练很玄学,不仅需要大量数据,还对数据配比很敏感,很多时候,并没有取得1+1>=2的效果,我们发现它的边际效益是在不断衰减的,所以我们现在也越来越注重训练的高效性。


SCAR里对于reward的定义其实比较简单,只要是针对direct,referenced跟human设计的,这意味着对于不同领域或者任务类型,都需要有自己的一个reward模型,这也会带来额外的开支。是否存在另外一些不需要模型训练的方案?必须要定义好各种关注的维度,让LLM进行打分,作为文本风格的一种估计手段,然后在进行筛选,或者是否可以直接套用传统的聚类模型,然后用大模型的输出结果作为文本特征?

参考文献

1 SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models

https://arxiv.org/pdf/2406.10882

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论