TRM: 让 LLM 学会批判性思考的奖励模型

大模型机器学习算法
提纲
1 简介
2 背景
3 TRM
4 实验
5 讨论
参考文献

1 简介

在大语言模型的强化学习中,奖励信号是指挥模型行为的核心。当在开放域问答这种复杂场景,事情就难办了,因为正确性难以验证。近期很多研究都聚焦于提升模型的忠实性,即答案跟外部文档的真实性,而削弱了模型批判思考的能力。针对这个问题,研究人员提出的Thinking-supervised Reward Model(TRM,思考监督奖励模型),让 LLM 像人类一样先看答案跟文档是否一致,再通过推理判断答案对错,彻底解决了“忠实文档≠事实正确”的混淆问题,在开放域问答任务中实现了正确性和实用性的双重提升。

2 背景

开放域问答的两个关键概念

  • Faithfulness(忠实度)

模型生成的答案是否和支撑文档对齐(比如文档说 “1949 年出版”,答案说 “1949 年出版”,就是忠实的);

  • Correctness(正确性)

答案本身是否符合客观事实(比如文档错把 “1948 年写作” 写成 “1949 年写作”,答案再忠实也是错的)。

当前模型的弊端

  • 只看结果的 ORM(结果监督奖励模型)

不管中间步骤,只给最终答案打分。比如 “《1984》写作时间” 的答案,只要和 “参考答案” 不一样就扣分,却没考虑外部文档误导的情况;

  • 只看步骤的 PRM(过程监督奖励模型)

虽然会逐句评估,但仍以是否符合文档为核心,文档错了,模型再认真也跟着错 。

更麻烦的是,开放域问答里的错误往往很隐蔽:可能是文档信息过时(比如旧文档说 “GPT-4 是最新模型”),可能是文档和问题不匹配(问 “北京人口” 给 “上海人口” 文档),还可能是模型自己乱编。传统奖励模型要么迷信文档,要么瞎判对错,根本没法给模型有效的引导。

3 TRM

picture.image

人类怎么判断一个答案对不对?比如看到 “《1984》1949 年写成” 这个答案,我们会先想:“这个说法和文档一致吗?”(先看忠实度),再回忆:“我记得《1984》是 1948 年写的,1949 年出版,文档可能混了写作和出版时间”(再用自己的知识判对错)。TRM 正是模仿了这个 “忠实度→推理→正确性” 的思考流程,在句子级别实现了精细化的奖励判断,具体分三步:

  • 第一步:评估 “句子级忠实度”—— 答案和文档对得上吗?

TRM先逐句检查答案和支撑文档的对齐情况

  • 第二步:加入 “推理步骤”—— 用内部知识判对错

这是 TRM 和传统模型的核心区别。在知道“句子是否忠实文档”后,TRM 会额外加一步“批判性思考”:结合自身内部知识,分析 “忠实” 和 “正确” 的关系,比如这四种典型场景:

场景例子TRM 的推理过程正确性得分
忠实且正确文档 “伏特加最高 96%”,答案 “波兰伏特加最高 96%”“答案和文档一致,且 96% 是客观事实,正确”1
忠实但错误文档 “电商法要求赔偿 3-10 倍”(实际无此规定),答案 “电商法要求赔偿 3-10 倍”“答案和文档一致,但电商法没规定这个比例,文档错导致答案错”0
不忠实但正确文档没提火腿肠热量,答案 “100g 火腿肠约 212 大卡”“答案和文档无关,但 212 大卡符合常识,正确”1
不忠实且错误文档 “素描立方体练结构”,答案 “素描立方体练方圆结合”“答案和文档无关,且立方体不含圆形,错误”0

这种推理不是 “黑箱”——TRM 会明确输出推理理由,比如 “文档错提电商法赔偿比例,导致答案忠实但错误”,既让奖励可解释,也让模型学到 “不能盲目信文档”。

  • 第三步:训练策略,先教思考模式,再用 RL 优化

TRM 的训练分SFT跟RL两阶段,确保模型不仅会判断,还能稳定输出正确判断。

第一阶段:监督微调(SFT),教模型 “怎么思考”。用人工标注的 “忠实度→推理→正确性” 数据训练模型,比如给每个句子标注 “忠实分 + 推理理由 + 正确分”,让模型先学会 “按步骤思考”。比如输入 “问题 + 文档 + 答案句”,模型要输出 “忠实度 1,理由:答案和文档都提伏特加 96%;正确性 1,理由:96% 是事实”。

第二阶段:强化学习(RL),让思考更稳定。传统 RL 只用 “正确性” 当奖励,TRM 则用 “正确性 + 忠实度” 双奖励(公式:r = 正确性得分 + 0.5×忠实度得分),同时针对 “数据不平衡”(86.86% 的句子是正确的),额外给 “正确识别错误句子” 的行为加奖励。比如模型把 “电商法赔偿 3-10 倍” 判为错误,会多给一分,避免模型 “全判正确” 的偷懒行为。

4 实验

研究团队在两个维度验证 TRM:一是 “奖励模型本身的判断能力”,二是 “用 TRM 当奖励信号,模型的问答性能提升”,结果都很亮眼。

1 TRM 比最好的传统模型(PRM)在 “错误句子识别” 上提升 6.5%,这意味着 TRM 能更精准地找到 “文档对但事实错”“文档错但答案对” 的隐蔽情况;

加了 RL 的 TRM + 性能更优,说明 “双奖励 + 错误识别额外奖励” 的策略有效,模型不会因为 “数据不平衡” 而忽略错误。

picture.image

2 

把 TRM 作为奖励信号,用强化学习优化问答模型(Policy Model),同时加入 “偏好模型(Prefer)” 有助于提升模型的最终性能。

picture.image

5 讨论

picture.image

TRM 的本质,是给 LLM 装上批判性思考的大脑,它不只是一个奖励模型,更是一套 “教模型怎么判断对错” 的方法论。

  • 不再迷信外部文档:传统模型过于忠实外部文档,而TRM 教会模型文档可能错,需要自己判断”。

  • 奖励可解释:TRM 输出的 “忠实度 + 推理理由 + 正确分”,能让开发者知道 “模型为什么给这个分”,避免传统奖励模型的 “黑箱打分”;

  • 适配复杂场景:不管是文档过时、文档无关,还是模型幻觉,TRM 都能精准识别,而传统模型只会一刀切。

TRM是在寻求外部知识跟模型内部参数知识之间的一种均衡,早期的大模型太过于依赖模型内部知识,而RAG出现后又过于依赖检索得到的外部文档,当一个更加智能的LLM需要具备这种批判性的能力,能充分理解并合理使用不同来源的知识,最终通过推理得到一个更加准确的答案。

参考文献

FROM FAITHFULNESS TO CORRECTNESS: GENERATIVE REWARD MODELS THAT THINK CRITICALLY

https://arxiv.org/abs/2509.25409

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论