Abstract
受DeepSeek-R1成功的启发,我们探索了基于规则的强化学习(RL)在大型推理模型中的潜力。为了分析推理动态,我们使用合成逻辑谜题作为训练数据,因为它们具有可控的复杂性和简单的答案验证。我们做出了一些关键的技术贡献,导致有效和稳定的强化学习训练:一个强调思考和回答过程的系统提示,一个严格的格式奖励函数,惩罚走捷径的输出,以及一个简单的训练配方,实现稳定的收敛。我们的7B模型开发了逻辑语料库中不具备的高级推理技能,如反思 、验证 和总结 。值得注意的是,在训练了5K个逻辑问题之后,它展示了对具有挑战性的数学基准AIME和AMC的泛化能力。
在这里插入图片描述
Introduction
大型语言模型(llm)的后训练阶段进展迅速,DeepSeek-R1[3]、Kimi-K1.5[15]和openai - o1[10]等模型显示出显著的推理能力。特别是DeepSeek-R1,引入了一种简单而有效的基于规则的强化学习(RL)方法,使推理模式不依赖于传统的技术,如蒙特卡罗树搜索(MCTS)[4,6,18,20]或Process Reward Models(PRM)[8]。
尽管取得了这些进步,但在将这些发展转化为可重复的研究方面仍存在巨大差距。虽然DeepSeek-R1提供了开源的模型权重,但它没有发布相应的训练代码或数据集。这种缺失提出了关键问题:(1)类似的推理能力能否在较小规模的模型中出现?(2)培养这些能力的最优训练数据结构是什么?(3)什么方法可以可靠地复制这些结果?
解决这些问题需要隔离关键变量的受控实验框架。虽然数学通常被视为推理的通用测试平台,但广泛使用的数学数据集,如GSM8K[2]和Omini-MATH[5],由于其问题复杂性的不受控制的变化,可能跨越不同的逻辑归纳深度,而成为训练数据。为了克服这一限制,我们利用程序生成的骑士和恶棍(K&K, Knights and Knaves)逻辑谜题数据集[17],它允许可控的难度水平和基于规则的奖励验证的便利性,使其成为研究推理动力学的理想选择。
在本文中,我们介绍了Logic-RL,这是一个基于规则的强化学习框架,通过对逻辑谜题的训练获得类似于R1的推理模式。训练框架采用REINFORCE++算法[7],后训练采用DeepSeek-R1的奖励设计。由于单纯的训练会导致解崩溃,我们提出了一个实用的系统提示和严格的格式奖励,以避免推理模型走捷径 。我们还对REINFORCE++算法进行了一些修改,以提高性能。
随着RL训练的进行,我们观察到模型自然地分配了更多的训练步骤来进行推理 。这种计算扩展从生成数百到数千个令牌,从而可以对其思维过程进行更深入的探索和改进。我们在具有挑战性的数学推理基准上评估模型的性能。与基本模型相比,我们的7B模型仅包含5000个程序生成的逻辑谜题,在AIME和AMC上分别提高了125%和38%。这种跨领域的泛化能力表明,强化学习训练的推理启发式的开发了抽象的问题解决模式,而不是依赖于特定领域的模式匹配 。
除了上述技术贡献外,我们的研究还得出了几个有趣的发现:
- • Longer responses don’t guarantee better reasoning . 长度本身并不是训练时间评估的有效性能指标。最有效的推理来自最短路径。
- • Language mixing hinders reasoning . 这一观察结果强调了在奖励建模中使用语言一致性惩罚的必要性。
- • Increasing ‘thinking’ tokens do help . 强化学习训练自然会提高与反思相关的单词的频率,这表明某些符号的频率与表现之间存在相关性。
- • SFT memorizes; RL generalizes . SFT严重依赖于记忆,通常导致肤浅的捷径学习,而RL自我进化对数据集结构的依赖最小。
- • Cold start is a bonus, not a necessity. 无论是从base模型开始还是从instruct模型开始,训练动态都保持惊人的相似,尽管后者表现出稍好的性能。
- • Curriculum Learning still matters . 在固定的数据管理比例下,精心设计的课程学习方法总是优于随机shuffle。
Method
Data Synthesis
骑士和恶棍(K&K)谜题[17]构成了一个算法生成的推理数据集。在这些谜题中,角色要么是永远说实话的骑士,要么是永远撒谎的恶棍。目标是根据每个角色的陈述来确定其性质。该数据集的特点是高度可控性:
-
- Procedural Generation: 谜题使用逻辑模板系统生成,确保一致性和无限可变性。重要的是,这些谜题代表了原始模型中看不见的数据,使它们成为测试泛化能力的理想选择。
-
- Controlled Difficulty Levels: 谜题的难度可以精确调整,使课程学习策略的设计成为可能。难度是通过改变j角色数(2-8)和逻辑运算的复杂性(布尔运算符的1-4种组合)来调节的。此外,更复杂的谜题可以作为在更简单的情况下训练的模型的 out-of-distribution 测试,提供对其泛化能力的洞察。
-
- Ease of Verification: 每个谜题都有一个单一的、明确的基础真值答案,并由生成算法保证其正确性。解决方案需要严格的演绎推理,允许对模型响应进行准确评估,并将奖励黑客的风险降至最低。
在这里插入图片描述
由于其综合设计和逻辑精确性,K&K谜题2.1非常适合进一步分析。每个谜题都使用正式规则构建,确保每个问题都有一个可以确定验证的唯一解决方案。这消除了在自然语言任务中经常遇到的歧义,使我们能够清楚地区分真正的推理能力和肤浅的记忆。
Rule Based Reward Modeling
在强化学习(RL)中,奖励是主要的训练信号,指导优化过程。我们不断地监控模型输出中的黑客行为,迭代地完善我们的奖励设计。这导致了一个几乎无法破解的基于规则的奖励系统,它只包含两种类型的奖励:Format Reward和Answer Reward。
在这里插入图片描述
Format Reward : 我们使用正则表达式提取来强制执行结构化的响应格式。要求模型将其推理过程放入标签中,并在标签中提供最终结论。此外,我们建议在提示符的末尾直接包含一个标签,这大大降低了base模型遵循我们的说明的难度。