Eurus-2-7B：8张显卡+一万块钱，训练一个超越 GPT-4o的7B模型！ - 文章 - 开发者社区

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law.

近日，清华大学 NLP 实验室联合上海AI Lab，清华大学电子系及OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME（Process Reinforcement through IMplicit REwards） ，采用 PRIME 方法，研究人员不依赖任何蒸馏数据和模仿学习， 仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。

picture.image

如遇添加困难，请+vx iamxxn886

利用 Qwen2.5-Math-7B-Base 作为基座模型，训练出了新模型 Eurus-2-7B-PRIME ，并在美国IMO选拔考试 AIME 2024 上的准确率达到 26.7%(如下图深蓝色部分），大幅超越 GPT-4o，Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct， 且仅使用了 Qwen Math 数据的 1/10。其中，强化学习方法PRIME为模型带来了16.7%的绝对提升，远超已知的任何开源方案。

picture.image

该项目一经开源就在海外AI社区爆火，短短几天Github取得近300star。

未来，基于 PRIME 方法和更强的基座模型有潜力训练出接近 OpenAI o1 的模型。

picture.image

blog链接：

https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

GitHub链接：

https://github.com/PRIME-RL/PRIME

什么是PRIME方法？

长久以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据，但高质量数据总是稀缺，使得模仿和蒸馏难以持续。

虽然OpenAI o1和o3的成功证明了强化学习有着更高的上限，但强化学习有着两个关键挑战：

（1）如何获得精准且可扩展的密集奖励；

（2）如何设计可以充分利用这些奖励的强化学习算法。

PRIME算法从隐式过程奖励（implicit process reward）的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型（outcome reward model, ORM）的数据，即答案的最终对错上进行训练，而隐式地建模过程奖励，最终自动训练出一个过程奖励模型，这整个过程都有严格的理论保证。

详细推导见：

https://huggingface.co/papers/2412.01981

picture.image