“ 之前优化数据比较多的都是一些打分,丢掉打分低的样本,比如cherry_llama、r_tuning都是这样做的,这个文章讲的方法算是一个新的类别把,但是需要人工参与,算是代价把。
https://arxiv.org/pdf/2311.13246v1.pdf
近年来,大型语言模型(LLM)在各个领域取得了显著进展。为了提高这些模型在理解和执行人类指令方面的性能,研究人员采用了指令调优技术。然而,手动创建高质量的指令数据集耗时且成本高昂,因此许多研究开始利用LLM自动生成的指令数据集进行训练。尽管如此,现有的方法在保证数据集质量方面存在局限性。为了解决这一问题,本文提出了一种名为CoachLM的创新方法,通过自动修订数据集中的样本来提高指令数据集的质量。
核心观点: 通过对人工修订的指令数据集进行训练,可以使LLM学会自动修正低质量的指令样本。在实验中,CoachLM将ALPACA 52K数据集中高质量样本的比例从17.7%提高到78.9%,并在各种真实场景的指令测试集上验证了其有效性。结果表明,CoachLM在平均指令跟随能力上提高了29.9%,甚至超过了参数数量近两倍的大型LLM。
算法原理:
- 对ALPACA 52K数据集进行人工审查,找出低质量的指令样本并进行修订;
- 利用这些修订后的样本训练CoachLM模型;
- 在推理阶段,将待修订的指令数据集输入CoachLM,生成修订后的数据集。通过在修订后的数据集上进行指令调优,可以显著提高LLM的性能。
结论: CoachLM成功地解决了开源LLM指令调优中数据质量的问题,并在实际应用中取得了显著的性能提升。此外,CoachLM还被成功部署在华为的数据管理系统中,大大提高了数据清洗效率。总之,CoachLM为自动优化开源语言学习模型指令数据集提供了一种有效且实用的方法。