TRM: 让 LLM 学会批判性思考的奖励模型 - 文章 - 开发者社区

提纲

1 简介

2 背景

3 TRM

4 实验

5 讨论

参考文献

1 简介

在大语言模型的强化学习中，奖励信号是指挥模型行为的核心。当在开放域问答这种复杂场景，事情就难办了，因为正确性难以验证。近期很多研究都聚焦于提升模型的忠实性，即答案跟外部文档的真实性，而削弱了模型批判思考的能力。针对这个问题，研究人员提出的Thinking-supervised Reward Model（TRM，思考监督奖励模型），让 LLM 像人类一样先看答案跟文档是否一致，再通过推理判断答案对错，彻底解决了“忠实文档≠事实正确”的混淆问题，在开放域问答任务中实现了正确性和实用性的双重提升。

2 背景

开放域问答的两个关键概念

Faithfulness（忠实度）

模型生成的答案是否和支撑文档对齐（比如文档说 “1949 年出版”，答案说 “1949 年出版”，就是忠实的）；

Correctness（正确性）

答案本身是否符合客观事实（比如文档错把 “1948 年写作” 写成 “1949 年写作”，答案再忠实也是错的）。

当前模型的弊端

只看结果的 ORM（结果监督奖励模型）

不管中间步骤，只给最终答案打分。比如 “《1984》写作时间” 的答案，只要和 “参考答案” 不一样就扣分，却没考虑外部文档误导的情况；

只看步骤的 PRM（过程监督奖励模型）

虽然会逐句评估，但仍以是否符合文档为核心，文档错了，模型再认真也跟着错。

更麻烦的是，开放域问答里的错误往往很隐蔽：可能是文档信息过时（比如旧文档说 “GPT-4 是最新模型”），可能是文档和问题不匹配（问 “北京人口” 给 “上海人口” 文档），还可能是模型自己乱编。传统奖励模型要么迷信文档，要么瞎判对错，根本没法给模型有效的引导。

3 TRM

picture.image

人类怎么判断一个答案对不对？比如看到 “《1984》1949 年写成” 这个答案，我们会先想：“这个说法和文档一致吗？”（先看忠实度），再回忆：“我记得《1984》是 1948 年写的，1949 年出版，文档可能混了写作和出版时间”（再用自己的知识判对错）。TRM 正是模仿了这个 “忠实度→推理→正确性” 的思考流程，在句子级别实现了精细化的奖励判断，具体分三步：

第一步：评估 “句子级忠实度”—— 答案和文档对得上吗？

TRM先逐句检查答案和支撑文档的对齐情况

第二步：加入 “推理步骤”—— 用内部知识判对错

这是 TRM 和传统模型的核心区别。在知道“句子是否忠实文档”后，TRM 会额外加一步“批判性思考”：结合自身内部知识，分析 “忠实” 和 “正确” 的关系，比如这四种典型场景：


场景	例子	TRM 的推理过程	正确性得分
忠实且正确	文档 “伏特加最高 96%”，答案 “波兰伏特加最高 96%”	“答案和文档一致，且 96% 是客观事实，正确”	1
忠实但错误	文档 “电商法要求赔偿 3-10 倍”（实际无此规定），答案 “电商法要求赔偿 3-10 倍”	“答案和文档一致，但电商法没规定这个比例，文档错导致答案错”	0
不忠实但正确	文档没提火腿肠热量，答案 “100g 火腿肠约 212 大卡”	“答案和文档无关，但 212 大卡符合常识，正确”	1
不忠实且错误	文档 “素描立方体练结构”，答案 “素描立方体练方圆结合”	“答案和文档无关，且立方体不含圆形，错误”	0

这种推理不是 “黑箱”——TRM 会明确输出推理理由，比如 “文档错提电商法赔偿比例，导致答案忠实但错误”，既让奖励可解释，也让模型学到 “不能盲目信文档”。

第三步：训练策略，先教思考模式，再用 RL 优化

TRM 的训练分SFT跟RL两阶段，确保模型不仅会判断，还能稳定输出正确判断。

第一阶段：监督微调（SFT），教模型 “怎么思考”。用人工标注的 “忠实度→推理→正确性” 数据训练模型，比如给每个句子标注 “忠实分 + 推理理由 + 正确分”，让模型先学会 “按步骤思考”。比如输入 “问题 + 文档 + 答案句”，模型要输出 “忠实度 1，理由：答案和文档都提伏特加 96%；正确性 1，理由：96% 是事实”。

第二阶段：强化学习（RL），让思考更稳定。传统 RL 只用 “正确性” 当奖励，TRM 则用 “正确性 + 忠实度” 双奖励（公式：r = 正确性得分 + 0.5×忠实度得分），同时针对 “数据不平衡”（86.86% 的句子是正确的），额外给 “正确识别错误句子” 的行为加奖励。比如模型把 “电商法赔偿 3-10 倍” 判为错误，会多给一分，避免模型 “全判正确” 的偷懒行为。

4 实验

研究团队在两个维度验证 TRM：一是 “奖励模型本身的判断能力”，二是 “用 TRM 当奖励信号，模型的问答性能提升”，结果都很亮眼。

1 TRM 比最好的传统模型（PRM）在 “错误句子识别” 上提升 6.5%，这意味着 TRM 能更精准地找到 “文档对但事实错”“文档错但答案对” 的隐蔽情况；

加了 RL 的 TRM + 性能更优，说明 “双奖励 + 错误识别额外奖励” 的策略有效，模型不会因为 “数据不平衡” 而忽略错误。

picture.image

把 TRM 作为奖励信号，用强化学习优化问答模型（Policy Model），同时加入 “偏好模型（Prefer）” 有助于提升模型的最终性能。

picture.image

5 讨论

picture.image

TRM 的本质，是给 LLM 装上批判性思考的大脑，它不只是一个奖励模型，更是一套 “教模型怎么判断对错” 的方法论。

不再迷信外部文档：传统模型过于忠实外部文档，而TRM 教会模型文档可能错，需要自己判断”。
奖励可解释：TRM 输出的 “忠实度 + 推理理由 + 正确分”，能让开发者知道 “模型为什么给这个分”，避免传统奖励模型的 “黑箱打分”；
适配复杂场景：不管是文档过时、文档无关，还是模型幻觉，TRM 都能精准识别，而传统模型只会一刀切。

TRM是在寻求外部知识跟模型内部参数知识之间的一种均衡，早期的大模型太过于依赖模型内部知识，而RAG出现后又过于依赖检索得到的外部文档，当一个更加智能的LLM需要具备这种批判性的能力，能充分理解并合理使用不同来源的知识，最终通过推理得到一个更加准确的答案。

参考文献

FROM FAITHFULNESS TO CORRECTNESS: GENERATIVE REWARD MODELS THAT THINK CRITICALLY

https://arxiv.org/abs/2509.25409