论文笔记分享,标题:Inference-Time Scaling for Generalist Reward Modeling
核心是提出了一个 SPCT 的方法训练奖励模型。
通用奖励模型的2个挑战,如下图,需要灵活处理单个、成对或多条回复的评分; 同时需要在推理时通过增加计算资源(如采样次数)来提升奖励信号质量。
SPCT算法本质上是一种“自我批评”式的奖励模型生成方法。
推理对应的上图inference,举个简单例子:
比如我想评估一个翻译任务的质量。
s1: 输入: 英文 & AI结果中文
s2: 生成评估标准: 比如,准确性、流畅性、专业性等等
s3: 生成评价:比如,这个翻译在准确性上还行,基本表达了原义。流畅性差点意思,有一段翻译的比较拉跨。专业术语翻译不一致,有待改进
s4: 提取分数: 从评价中提取各个维度的分数,比如准确性8分,流畅性6分。
s6: 多次采样,重复上述过程32次,每次得到不同的评价标准和结果
s7:通过奖励模型筛选出高质量评价,对多次评分取平均,得到最终分数。
训练,分为3个步骤:
先冷启动训练,使用已有的监督数据集,做一些筛选策略。这一步目的是为了让模型学会生成格式规范的结果 且 能自动生成评价。
后强化学习训练,
奖励信号:生成的评价与标准评价的一致程度、评价是否包含清晰的原则和批评、 多次评价之间的一致性
使用较大的KL惩罚系数
进一步 Meta RM 模型训练
收集多组评价样本,并让专家标注其质量,构建 评价的评价 数据集
从而学习识别高质量与低质量评价的能力,为后续多样本投票提供筛选依据。
DeepSeek-GRM奖励模型,随着采样次数从1增至32,性能持续提升,超越了Nemotron和GPT-4o等现有模型