基于规则的强化学习释放LLM推理 - 文章 - 开发者社区

Abstract

受DeepSeek-R1成功的启发，我们探索了基于规则的强化学习（RL）在大型推理模型中的潜力。为了分析推理动态，我们使用合成逻辑谜题作为训练数据，因为它们具有可控的复杂性和简单的答案验证。我们做出了一些关键的技术贡献，导致有效和稳定的强化学习训练：一个强调思考和回答过程的系统提示，一个严格的格式奖励函数，惩罚走捷径的输出，以及一个简单的训练配方，实现稳定的收敛。我们的7B模型开发了逻辑语料库中不具备的高级推理技能，如反思、验证和总结。值得注意的是，在训练了5K个逻辑问题之后，它展示了对具有挑战性的数学基准AIME和AMC的泛化能力。

picture.image

在这里插入图片描述

Introduction

大型语言模型（llm）的后训练阶段进展迅速，DeepSeek-R1[3]、Kimi-K1.5[15]和openai - o1[10]等模型显示出显著的推理能力。特别是DeepSeek-R1，引入了一种简单而有效的基于规则的强化学习（RL）方法，使推理模式不依赖于传统的技术，如蒙特卡罗树搜索（MCTS）[4,6,18,20]或Process Reward Models（PRM）[8]。

尽管取得了这些进步，但在将这些发展转化为可重复的研究方面仍存在巨大差距。虽然DeepSeek-R1提供了开源的模型权重，但它没有发布相应的训练代码或数据集。这种缺失提出了关键问题：(1)类似的推理能力能否在较小规模的模型中出现？(2)培养这些能力的最优训练数据结构是什么？(3)什么方法可以可靠地复制这些结果？

解决这些问题需要隔离关键变量的受控实验框架。虽然数学通常被视为推理的通用测试平台，但广泛使用的数学数据集，如GSM8K[2]和Omini-MATH[5]，由于其问题复杂性的不受控制的变化，可能跨越不同的逻辑归纳深度，而成为训练数据。为了克服这一限制，我们利用程序生成的骑士和恶棍（K&K, Knights and Knaves）逻辑谜题数据集[17]，它允许可控的难度水平和基于规则的奖励验证的便利性，使其成为研究推理动力学的理想选择。

在本文中，我们介绍了Logic-RL，这是一个基于规则的强化学习框架，通过对逻辑谜题的训练获得类似于R1的推理模式。训练框架采用REINFORCE++算法[7]，后训练采用DeepSeek-R1的奖励设计。由于单纯的训练会导致解崩溃，我们提出了一个实用的系统提示和严格的格式奖励，以避免推理模型走捷径 。我们还对REINFORCE++算法进行了一些修改，以提高性能。

随着RL训练的进行，我们观察到模型自然地分配了更多的训练步骤来进行推理 。这种计算扩展从生成数百到数千个令牌，从而可以对其思维过程进行更深入的探索和改进。我们在具有挑战性的数学推理基准上评估模型的性能。与基本模型相比，我们的7B模型仅包含5000个程序生成的逻辑谜题，在AIME和AMC上分别提高了125%和38%。这种跨领域的泛化能力表明，强化学习训练的推理启发式的开发了抽象的问题解决模式，而不是依赖于特定领域的模式匹配 。

除了上述技术贡献外，我们的研究还得出了几个有趣的发现：

• Longer responses don’t guarantee better reasoning . 长度本身并不是训练时间评估的有效性能指标。最有效的推理来自最短路径。
• Language mixing hinders reasoning . 这一观察结果强调了在奖励建模中使用语言一致性惩罚的必要性。
• Increasing ‘thinking’ tokens do help . 强化学习训练自然会提高与反思相关的单词的频率，这表明某些符号的频率与表现之间存在相关性。
• SFT memorizes; RL generalizes . SFT严重依赖于记忆，通常导致肤浅的捷径学习，而RL自我进化对数据集结构的依赖最小。
• Cold start is a bonus, not a necessity. 无论是从base模型开始还是从instruct模型开始，训练动态都保持惊人的相似，尽管后者表现出稍好的性能。
• Curriculum Learning still matters . 在固定的数据管理比例下，精心设计的课程学习方法总是优于随机shuffle。

Method

Data Synthesis

骑士和恶棍（K&K）谜题[17]构成了一个算法生成的推理数据集。在这些谜题中，角色要么是永远说实话的骑士，要么是永远撒谎的恶棍。目标是根据每个角色的陈述来确定其性质。该数据集的特点是高度可控性：

1. Procedural Generation: 谜题使用逻辑模板系统生成，确保一致性和无限可变性。重要的是，这些谜题代表了原始模型中看不见的数据，使它们成为测试泛化能力的理想选择。
1. Controlled Difficulty Levels: 谜题的难度可以精确调整，使课程学习策略的设计成为可能。难度是通过改变j角色数（2-8）和逻辑运算的复杂性（布尔运算符的1-4种组合）来调节的。此外，更复杂的谜题可以作为在更简单的情况下训练的模型的 out-of-distribution 测试，提供对其泛化能力的洞察。
1. Ease of Verification: 每个谜题都有一个单一的、明确的基础真值答案，并由生成算法保证其正确性。解决方案需要严格的演绎推理，允许对模型响应进行准确评估，并将奖励黑客的风险降至最低。

picture.image

在这里插入图片描述

由于其综合设计和逻辑精确性，K&K谜题2.1非常适合进一步分析。每个谜题都使用正式规则构建，确保每个问题都有一个可以确定验证的唯一解决方案。这消除了在自然语言任务中经常遇到的歧义，使我们能够清楚地区分真正的推理能力和肤浅的记忆。

Rule Based Reward Modeling

在强化学习（RL）中，奖励是主要的训练信号，指导优化过程。我们不断地监控模型输出中的黑客行为，迭代地完善我们的奖励设计。这导致了一个几乎无法破解的基于规则的奖励系统，它只包含两种类型的奖励：Format Reward和Answer Reward。

picture.image

在这里插入图片描述

Format Reward : 我们使用正则表达式提取来强制执行结构化的响应格式。要求模型将其推理过程放入标签中，并在标签中提供最终结论。此外，我们建议在提示符的末尾直接包含一个标签，这大大降低了base模型遵循我们的说明的难度。