Meta新研究：大模型也可以自学成才~ - 文章 - 开发者社区

论文笔记分享，作者全员来自Meta Fair，论文标题：Self-Taught Evaluators

文章介绍了称为“Self-Taught Evaluator”的算法，可以通过仅使用合成训练数据来改进评估模型，无需人类标注的偏好数据。

LLM-as-judge或者reward model，在模型开发过程中，经常被用于替代人共的标注。但是一个好的评估模型（evaluators），训练起来需要大量的人类偏好判断，不仅标注很贵，而且可能因为模型的更新，数据过时。

训练过程 ： picture.image

初始化 ：假设可以访问大量人类编写的指令和初始LLM。
Instruction Selection ：从未经筛选的指令集中选择具有挑战性和平衡分布的用户指令。（使用LLM进行分类，提供一个类别表，如code，reasoning，brainstorming）
Response Pair Construction ：对于每个用户指令，生成两个response的偏好对，通过prompt，使得一个response质量低于另一个。（prompt的技巧是，生成一个类似的指令，然后让llm生成类似指令的response，则这个response应该会差于原始指令得到的response）
Judgment Annotation & Model Fine-tuning（Iterative Training） ：包括 Judgment Annotation和model finetune两个步骤，使用当前模型的判断来注释训练数据，然后在新构建的训练集上微调模型。

最后，评估模型在多个基准测试上的表现，包括RewardBench、MT-Bench和HelpSteer2等表现出色。

picture.image