阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?

大模型向量数据库机器学习

这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

picture.image

https://arxiv.org/abs/2501.12948

它主要讲了如何通过强化学习(Reinforcement Learning, RL)来提升大型语言模型(LLM)的推理能力,推出了两个模型:DeepSeek-R1-Zero和DeepSeek-R1,还顺带开源了一些小模型。这论文挺硬核的,但咱可以用大白话把它的核心内容掰开揉碎讲明白。


一、论文背景:为啥要搞这个研究?

大型语言模型(比如ChatGPT这类)这几年发展很快,已经在朝“通用人工智能”(AGI)迈进。推理能力是AI变得更聪明的重要一环,比如解决数学题、写代码、做科学推理等等。之前OpenAI推出了o1系列模型,通过延长推理过程(Chain-of-Thought, CoT)在推理任务上表现得很强,但具体怎么做到的,大家只能猜。

这篇论文的作者想搞清楚:能不能不用传统的那种监督微调(Supervised Fine-Tuning, SFT),直接靠强化学习让模型自己学会推理?他们用了DeepSeek-V3-Base作为基础模型,试着用纯RL打造一个推理高手,结果还真搞出了名堂。


二、主角登场:DeepSeek-R1-Zero和DeepSeek-R1

论文里主要讲了两个模型,一个是“原始版”DeepSeek-R1-Zero,一个是“升级版”DeepSeek-R1。

  1. DeepSeek-R1-Zero:纯RL的试验田
  • 怎么做的?
  • 直接拿基础模型(DeepSeek-V3-Base),不给任何监督数据,就用强化学习去训练。
  • 用了一种叫GRPO(Group Relative Policy Optimization)的算法,简单说就是让模型自己试错,试出一堆答案,然后根据“对不对”和“格式好不好”给奖励。
  • 奖励分两块:一是答案正确性(比如数学题对不对),二是格式(要求模型把思考过程写在 <think> 标签里,答案写在 <answer> 里)。
  • 结果咋样?
  • 牛得很!比如在AIME 2024(美国数学邀请赛)上,正确率从15.6%飙到71%,用多数投票(cons@64)还能到86.7%,跟OpenAI的o1-0912差不多。
  • 更厉害的是,模型自己学会了反思、验证,还能生成很长的推理过程,完全没人为干预。
  • 有啥问题?
  • 可读性差,回答乱七八糟,有时还中英混杂,看着头晕。
  • 这让作者觉得,得优化一下,不能光推理强还得让人看得懂。

  1. DeepSeek-R1:加点料的升级版
  • 怎么改进的?
  • 先用少量高质量的“冷启动数据”(cold-start data)微调基础模型,让它有个好起点。
  • 然后分四步走:
  1. 冷启动 :收集几千条带长推理过程的数据,教模型怎么写得清楚又好看。
  2. 推理强化学习 :跟R1-Zero一样用RL,但加了个“语言一致性”奖励,避免中英混杂。
  3. 拒绝采样+SFT :用RL训练到差不多时,生成一大堆数据(60万推理+20万非推理),再微调模型,让它不只会推理,还能写文章、回答常识问题。
  4. 全面RL :再来一轮RL,优化帮助性和安全性,兼顾各种场景。
  • 结果咋样?
  • 性能直接对标OpenAI的o1-1217。比如AIME 2024上79.8%,MATH-500上97.3%,代码任务Codeforces上Elo达到2029(超过96%的人类选手)。
  • 比R1-Zero可读性好多了,还能干更多事,比如写作、问答,长上下文理解也很强。

三、顺手开源:小模型也能很强

  • 咋搞的?
  • 用DeepSeek-R1生成的数据(80万条),直接微调了一些开源小模型(Qwen和Llama系列,1.5B到70B不等),叫“蒸馏”(distillation)。
  • 没用RL,就简单SFT,结果也很猛。
  • 效果如何?
  • 7B的Qwen模型在AIME 2024上55.5%,14B的超了QwQ-32B-Preview,32B和70B甚至干翻o1-mini。
  • 证明大模型的推理能力可以“传”给小模型,比直接在小模型上用RL效果好还省力。

四、实验结果:硬碰硬的数据对比

论文里给了详细的测试结果,跟一堆强模型(Claude-3.5、GPT-4o、o1系列)比了个遍。简单总结:

  • 推理任务 :DeepSeek-R1跟o1-1217不相上下,秒杀其他模型。
  • 知识任务 :MMLU 90.8%,GPQA Diamond 71.5%,比DeepSeek-V3强,但略逊o1-1217。
  • 其他任务 :写作、问答啥的也很牛,AlpacaEval 2.0胜率87.6%,ArenaHard 92.3%。

蒸馏的小模型也很有竞争力,尤其是14B、32B、70B,性价比很高。


五、聊聊得失:成功的秘密和踩过的坑

  1. 为啥成功?
  • 纯RL可行 :DeepSeek-R1-Zero证明不靠监督数据也能练出推理能力,RL自己就能让模型进化。
  • 冷启动+多阶段 :DeepSeek-R1用少量数据打底,再RL+SFT循环,效果更好还更人性化。
  • 蒸馏效率高 :大模型的智慧能便宜地传给小模型。

  1. 踩了啥坑?
  • 过程奖励模型(PRM) :想细化每步奖励,但定义难、标注烦,还容易被模型“钻空子”,最后放弃了。
  • 蒙特卡洛树搜索(MCTS) :想模仿AlphaGo用搜索提升推理,但语言模型的搜索空间太大,效果不理想。

六、未来咋办?

  • 通用能力 :现在R1在函数调用、多轮对话上不如V3,得继续优化。
  • 语言混杂 :目前只优化了中英文,其他语言容易乱,得修。
  • 软件工程 :这块数据少,RL没发挥好,后面要加码。

七、大白话总结

这论文讲的就是DeepSeek团队怎么用强化学习把一个普通语言模型调教成推理高手。DeepSeek-R1-Zero是纯RL的实验品,证明这路子走得通;DeepSeek-R1是加了料的成品,性能顶尖还好用。他们还顺手把大模型的本事“蒸馏”到小模型上,开源给大家玩。整个过程既有惊喜(模型自己学会反思),也有教训(有些方法行不通),但总的来说,是AI推理领域的一次漂亮突破。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论