DeepSeek 最新模型 R1 横空出世,春节期间迅速走红,短短 20 天日活用户突破 2000 万,刷新 ChatGPT 纪录,成为史上增长最快的 AI 应用,引发全球瞩目。 其成功的秘诀,除了 MLA、MOE 等工程优化大幅降低训练成本外,更在于其揭示了 LLM 推理过程中的“顿悟时刻”—— 一种类似于模型训练时参数量达到一定程度产生的“智能涌现”现象。 而这一切的幕后功臣,正是 GRPO (Group Relative Policy Optimization,群体相对策略优化) 算法。
GRPO:AI 推理的“顿悟”引擎
DeepSeek R1 模型的研究揭示,GRPO 算法赋予模型惊人的自主学习能力。R1-Zero 模型无需人类指导,便能自主延长思考时间,反思初始方案,最终找到更优解。这种“三思而后行”的推理模式,如同人类面对复杂问题时的自然反应,预示着 AI 推理能力的新突破。如图,对Phi-4 只用 GRPO 训练了一百步,就赋予了模型推理能力。
更重要的是,GRPO 算法本身也代表着一次范式转变。 它 打破了原有 RPM (Process Reward Model,过程奖励模型) 的路线,转向 ORM (Outcome Reward Model,结果奖励模型) 。 这意味着,GRPO 不再强依赖于人类标注的反馈 ,就能让 AI 主动思考和学习,实现真正的自主提升。 这在一定程度上达到了研究者梦寐以求的 “左脚踩右脚” 的自迭代学习境界, 有望突破人类能力的限制, 实现更强大的通用人工智能。 这正是 GRPO 技术让国内外专家为之振奋,甚至“坐不住”的深层原因。
“顿悟时刻”背后的三大创新支柱:
-
颠覆传统:无需价值函数,化繁为简 : 与依赖价值函数评估策略优劣的传统强化学习算法(如 PPO)不同,GRPO 大胆抛弃了价值函数模型 ,创新性地采用 “群体相对” 方式评估和优化策略。这极大地简化了训练流程,降低了计算资源需求,堪称算法设计上的“奥卡姆剃刀”。
-
群体智慧:基于群体奖励,精准优化策略 : GRPO 的核心在于引入“群体”概念。面对输入,模型不再孤军奋战,而是 生成一组答案 ,形成一个“答案群体”。奖励函数对群体中每个答案进行评分,并计算平均奖励。 高于平均水平的答案将获得“正向激励”并被强化,反之则受到“负向反馈” 。这种“优胜劣汰”的群体竞争机制,如同“达尔文进化论”在模型训练中的体现,有效引导模型在复杂推理任务中生成更优质的答案。
-
稳定迭代:直接优化 KL 散度,训练更可靠 : GRPO 直接将 KL 散度融入损失函数 ,而非像 PPO 那样作为奖励信号的一部分。这种精细化的控制策略更新幅度的做法,如同给模型训练过程加上了“刹车片”,有效 避免策略更新震荡,显著提升训练稳定性 ,确保模型稳步迈向“顿悟”。
形象比喻:GRPO 就像一个 “班级平均分” 机制。 模型每次尝试作答,都会生成多个“答案草稿”,如同提交多份“作业”。系统根据“作业”质量(奖励),对比“班级平均水平”, “优等生”得到表扬和鼓励,模型也随之学习,朝着更优秀的方向进化。
Unsloth:GRPO 平民化,7GB 显存的奇迹
尽管 DeepSeek 通过工程优化降低了训练成本,但要实现“顿悟时刻”,对算力仍有较高要求。Tiny-Zero 团队使用 Qwen2.5 (1.5B) 模型获得“啊哈”体验,仍需 2xA100 GPU (160GB 显存)。这对于大多数开发者而言,仍然是难以逾越的门槛。 然而,顶尖模型优化团队 Unsloth 再次展现实力,对 GRPO 算法进行深度优化,实现了令人惊叹的突破:
- 显存占用锐减 80%! Unsloth 优化后的 GRPO 算法, VRAM 占用较 Hugging Face + FA2 方案降低 80% !这意味着,曾经需要顶级 GPU 才能驾驭的 GRPO 训练,如今 仅需 7GB 显存的消费级 GPU 即可轻松实现 , 让“顿悟时刻”触手可及。
- LoRA/QLoRA 加持,训练效率倍增 : Unsloth 不仅大幅降低显存需求,更完美 兼容 LoRA 和 QLoRA 等高效微调技术 。这些技术的加持,进一步降低了训练成本,并显著加速训练进程,让 GRPO 的落地更加高效便捷。
- vLLM 深度集成,推理速度飙升 : Unsloth 与高性能推理引擎 vLLM 深度融合, 不仅训练效率大幅提升,模型推理速度也得到质的飞跃 。 这意味着,基于 Unsloth 训练出的具备推理能力的模型,在实际应用中将拥有更快的响应速度,用户体验更佳。
- 内置训练监控,告别繁琐工具 : Unsloth 框架 内置 GRPO 训练过程的损失跟踪功能 ,开发者无需依赖 Wandb 等外部工具,即可实时监控训练状态,极大简化了开发流程。
Unsloth 的贡献,犹如“普罗米修斯盗火”,让 GRPO 这项强大的强化学习技术,从少数顶尖实验室走向大众,让更多的模型具备推理能力。
小结
Unsloth 赋能的 GRPO 技术,极大地降低了推理模型的使用门槛,让解决数据匮乏、推理能力不足、模型准确性低、可解释性弱等行业痛点成为可能。DeepSeek GRPO 为提升模型性能开辟了新的路径, 随着开源社区的持续优化和完善,我们有理由期待更多超越人类认知的“顿悟时刻”涌现, 更强大的 AI 模型将不断涌现, 同时,如何有效监管和引导这些超越人类的模型,也成为我们必须面对的新课题。
参考:
https://unsloth.ai/blog/r1-reasoning
后台回复“进群”入群讨论。