deepseek开源的新算法,浅析~

大模型向量数据库机器学习

论文笔记分享,标题:Inference-Time Scaling for Generalist Reward Modeling

picture.image

核心是提出了一个 SPCT 的方法训练奖励模型。

通用奖励模型的2个挑战,如下图,需要灵活处理单个、成对或多条回复的评分; 同时需要在推理时通过增加计算资源(如采样次数)来提升奖励信号质量。

picture.image

SPCT算法本质上是一种“自我批评”式的奖励模型生成方法。

picture.image

推理对应的上图inference,举个简单例子:

比如我想评估一个翻译任务的质量。

s1: 输入: 英文 & AI结果中文

s2: 生成评估标准: 比如,准确性、流畅性、专业性等等

s3: 生成评价:比如,这个翻译在准确性上还行,基本表达了原义。流畅性差点意思,有一段翻译的比较拉跨。专业术语翻译不一致,有待改进

s4: 提取分数: 从评价中提取各个维度的分数,比如准确性8分,流畅性6分。

s6: 多次采样,重复上述过程32次,每次得到不同的评价标准和结果

s7:通过奖励模型筛选出高质量评价,对多次评分取平均,得到最终分数。

训练,分为3个步骤:

先冷启动训练,使用已有的监督数据集,做一些筛选策略。这一步目的是为了让模型学会生成格式规范的结果 且 能自动生成评价。

后强化学习训练,

奖励信号:生成的评价与标准评价的一致程度、评价是否包含清晰的原则和批评、 多次评价之间的一致性

使用较大的KL惩罚系数

picture.image

进一步 Meta RM 模型训练

收集多组评价样本,并让专家标注其质量,构建 评价的评价 数据集

从而学习识别高质量与低质量评价的能力,为后续多样本投票提供筛选依据。

picture.image

DeepSeek-GRM奖励模型,随着采样次数从1增至32,性能持续提升,超越了Nemotron和GPT-4o等现有模型

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论