Meta新研究:大模型也可以自学成才~

火山方舟向量数据库大模型

论文笔记分享,作者全员来自Meta Fair,论文标题:Self-Taught Evaluators

文章介绍了称为“Self-Taught Evaluator”的算法,可以通过仅使用合成训练数据来改进评估模型,无需人类标注的偏好数据。

LLM-as-judge或者reward model,在模型开发过程中,经常被用于替代人共的标注。但是一个好的评估模型(evaluators),训练起来需要大量的人类偏好判断,不仅标注很贵,而且可能因为模型的更新,数据过时。

训练过程picture.image

  • 初始化 :假设可以访问大量人类编写的指令和初始LLM。
  • Instruction Selection :从未经筛选的指令集中选择具有挑战性和平衡分布的用户指令。(使用LLM进行分类,提供一个类别表,如code,reasoning,brainstorming)
  • Response Pair Construction :对于每个用户指令,生成两个response的偏好对,通过prompt,使得一个response质量低于另一个。(prompt的技巧是,生成一个类似的指令,然后让llm生成类似指令的response,则这个response应该会差于原始指令得到的response)
  • Judgment Annotation & Model Fine-tuning(Iterative Training) :包括 Judgment Annotation和model finetune两个步骤,使用当前模型的判断来注释训练数据,然后在新构建的训练集上微调模型。

最后,评估模型在多个基准测试上的表现,包括RewardBench、MT-Bench和HelpSteer2等表现出色。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
DevOps 在字节移动研发中的探索和实践
在日益复杂的APP工程架构下,如何保证APP能高效开发,保障团队效能和工程质量?本次将结合字节内部应用的事件案例,介绍DevOps团队对移动研发效能建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论