论文笔记分享,作者全员来自Meta Fair,论文标题:Self-Taught Evaluators
文章介绍了称为“Self-Taught Evaluator”的算法,可以通过仅使用合成训练数据来改进评估模型,无需人类标注的偏好数据。
LLM-as-judge或者reward model,在模型开发过程中,经常被用于替代人共的标注。但是一个好的评估模型(evaluators),训练起来需要大量的人类偏好判断,不仅标注很贵,而且可能因为模型的更新,数据过时。
训练过程 :
- 初始化 :假设可以访问大量人类编写的指令和初始LLM。
- Instruction Selection :从未经筛选的指令集中选择具有挑战性和平衡分布的用户指令。(使用LLM进行分类,提供一个类别表,如code,reasoning,brainstorming)
- Response Pair Construction :对于每个用户指令,生成两个response的偏好对,通过prompt,使得一个response质量低于另一个。(prompt的技巧是,生成一个类似的指令,然后让llm生成类似指令的response,则这个response应该会差于原始指令得到的response)
- Judgment Annotation & Model Fine-tuning(Iterative Training) :包括 Judgment Annotation和model finetune两个步骤,使用当前模型的判断来注释训练数据,然后在新构建的训练集上微调模型。
最后,评估模型在多个基准测试上的表现,包括RewardBench、MT-Bench和HelpSteer2等表现出色。