deepseek开源的新算法，浅析~ - 文章 - 开发者社区

论文笔记分享，标题：Inference-Time Scaling for Generalist Reward Modeling

picture.image

核心是提出了一个 SPCT 的方法训练奖励模型。

通用奖励模型的2个挑战，如下图，需要灵活处理单个、成对或多条回复的评分；同时需要在推理时通过增加计算资源(如采样次数)来提升奖励信号质量。

picture.image

SPCT算法本质上是一种“自我批评”式的奖励模型生成方法。

picture.image

推理对应的上图inference，举个简单例子：

比如我想评估一个翻译任务的质量。

s1: 输入：英文 & AI结果中文

s2: 生成评估标准：比如，准确性、流畅性、专业性等等

s3：生成评价：比如，这个翻译在准确性上还行，基本表达了原义。流畅性差点意思，有一段翻译的比较拉跨。专业术语翻译不一致，有待改进

s4: 提取分数：从评价中提取各个维度的分数，比如准确性8分，流畅性6分。

s6：多次采样，重复上述过程32次，每次得到不同的评价标准和结果

s7：通过奖励模型筛选出高质量评价，对多次评分取平均，得到最终分数。

训练，分为3个步骤：

先冷启动训练，使用已有的监督数据集，做一些筛选策略。这一步目的是为了让模型学会生成格式规范的结果且能自动生成评价。

后强化学习训练，

奖励信号：生成的评价与标准评价的一致程度、评价是否包含清晰的原则和批评、多次评价之间的一致性

使用较大的KL惩罚系数

picture.image

进一步 Meta RM 模型训练

收集多组评价样本，并让专家标注其质量，构建 评价的评价 数据集

从而学习识别高质量与低质量评价的能力，为后续多样本投票提供筛选依据。

picture.image

DeepSeek-GRM奖励模型，随着采样次数从1增至32，性能持续提升，超越了Nemotron和GPT-4o等现有模型

picture.image