国产开源模型DeepSeek-R1最近在AI圈掀起了巨大波澜。这个由中国团队打造的AI模型,在多项关键性能测试中展现出与OpenAI旗舰产品相媲美的表现,而投入的资源仅为对手的一小部分,让整个科技圈为之震撼。
研究DeepSeek系列论文时,江树发现了一份宝藏级的论文清单。这份由Oxen.ai CEO Greg Schoeninger精心整理的资料,通过精选的24篇经典论文,为我们还原了DeepSeek-R1从理论突破到技术创新的完整进阶之路。
想深入了解这个改变游戏规则的AI模型吗?
论文清单如下,快来和江树一起学习吧~
江树已将完整论文资料整理到ima知识库,文末领取完整资料。
目录
- Transformer 基础:AI 的“心脏”
- 思维链推理:让 AI 像人一样思考
- 专家混合技术:聪明分工的秘诀
- 强化学习:让 AI 更贴近人类需求
- DeepSeek 自己的研究:从起点到 R1
- 深入了解
Transformer 基础:AI 的“心脏”
DeepSeek 的核心技术基于 Transformer 神经网络,这是现代 AI 模型(如 ChatGPT)的基石。如果你是新手,建议从以下几篇经典论文开始,这些内容虽然有点学术,但我会用简单语言解释。
01 “注意力机制就是一切”
- 论文标题: Attention Is All You Need
- 链接: https://arxiv.org/abs/1706.03762
这篇 2017 年的论文首次提出了 Transformer 架构,最初用于机器翻译。它就像给 AI 装上了一双“眼睛”,让它能更聪明地理解语言。这项技术后来被用在很多大模型上,包括 DeepSeek 和 ChatGPT, 大模型的奠基之作 。
简单解释 : 以前的 AI 模型处理语言很慢,靠复杂的循环或卷积计算。Transformer 用“注意力”机制替代这些复杂步骤,让计算更快、更高效。这篇论文证明,Transformer 在翻译任务中表现更好,训练时间也更短。
02 语言模型是无监督的多任务学习者(GPT-2)
- 论文标题: Language Models are Unsupervised Multitask Learners
- 链接: https://cdn.openai.com/better-language-models/language\_models\_are\_unsupervised\_multitask\_learners.pdf
这篇论文展示了如何用大量数据训练一个大模型,让它学会很多任务,而不需要专门的训练。它就像让 AI 自己“摸索”出如何回答问题。
还可以看看 GPT-3 论文,了解用简单提示让模型完成各种任务,以及数据和计算规模的重要性。
03 训练语言模型遵循指令(InstructGPT)
- 论文标题: Training Language Models to Follow Instructions
- 链接: https://arxiv.org/abs/2203.02155
这篇论文解释了 OpenAI 如何把基础模型变成像 ChatGPT 这样的聊天机器人。他们通过收集人类反馈,教模型听懂并执行指令。
简单解释 : 大模型可能胡说八道或回答不相关的内容。这篇论文通过“监督学习”和“强化学习”调整模型,让它更贴近用户需求,输出更真实、更安全。
04 Llama-3:Meta 的开源大模型家族
- 论文标题: Llama-3 Herd Of Models
- 链接: https://arxiv.org/abs/2407.21783
Meta 的 Llama-3 系列是与 GPT-4 竞争的开源模型,包含 405B 参数的巨型版本和一些较小的模型。这篇论文详细介绍了他们的训练过程。
简单解释 : Llama-3 能处理多种语言、编码、推理和工具使用,性能接近顶级闭源模型。他们把大模型和安全工具一起开源,方便大家使用。
05 Transformer 的数学框架
- 论文标题: A Mathematical Framework For Transformers Circuits
- 链接: https://transformer-circuits.pub/2021/framework/index.html
Anthropic 的这篇论文从最基本的“电路”入手,拆解 Transformer 怎么工作的。虽然有点复杂,但它很详细,适合想深入了解的人。
思维链推理:让 AI 像人一样思考
DeepSeek-R1 和 OpenAI o1 都用“思维链”技术,让 AI 像人类一样逐步推理。这是一种通过提示或训练让模型记录中间步骤的方法,解决复杂问题。以下是相关研究论文:
06 思维链提示:让大模型学会推理
- 论文标题: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- 链接: https://arxiv.org/abs/2201.11903
这篇论文发现,只用几组示例提示,模型就能生成推理步骤,大幅提升算术、常识和符号推理能力,超越当时微调的 GPT-3。
简单解释 : 比如给 AI 一个数学问题,通过提示它“一步步思考”,它的答案准确率能提高很多,像学生写草稿一样。
07 思维树:让 AI 更聪明地解决问题
- 论文标题: Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- 链接: https://arxiv.org/abs/2305.10601
- 代码:https://github.com/princeton-nlp/tree-of-thought-llm
“思维树”让模型尝试多种推理路径,并自我评估,特别适合需要规划的任务(如 24 点游戏)。它让 GPT-4 的成功率从 4% 提高到 74%。
08 思维图:更高效地解决复杂问题
- 论文标题: Graph of Thoughts: Solving Elaborate Problems with Large Language Models
- 链接: https://arxiv.org/abs/2308.09687
基于思维链和思维树,思维图用图结构优化推理,降低计算成本。比如在排序任务中,质量提升 62%,成本减少 31%。
09 万物之思:多解问题的突破
- 论文标题: Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation
- 链接: https://arxiv.org/abs/2311.04254
“万物之思”结合蒙特卡洛树搜索和外部知识,一次调用生成多种答案,适合需要多种解决方案的任务。
10 提示报告:总结提示技术
- 论文标题:The Prompt Report
- 链接:https://arxiv.org/abs/2406.06608
这篇综述介绍了“思维”提示和其他提示技术,教你如何用这些方法优化模型,或用它们生成数据提升性能。
专家混合技术:聪明分工的秘诀
DeepSeek-V3 是一款“专家混合(MoE)”模型,总共有 671B 参数,但每次任务只激活 37B 参数。这种技术就像一个团队,每个“专家”负责不同任务,既高效又强大。
11 GShard:用条件计算扩展巨型模型
- 论文标题: GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
- 链接: https://arxiv.org/abs/2006.16668
早期 MoE 论文,用“分片”技术训练巨型模型,节省资源,翻译质量更高。
12 Switch Transformers:万亿参数的简单高效方法
- 论文标题: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- 链接: https://arxiv.org/abs/2101.03961
简化 MoE 路由,训练万亿参数模型,训练速度提升 7 倍。
13 稀疏专家模型综述
- 论文标题: A Review of Sparse Expert Models in Deep Learning
- 链接: https://arxiv.org/abs/2209.01667
回顾稀疏专家模型 30 年历史,解释它们在深度学习中的应用。
14 Mixtral of Experts:Mistral 的 8x7B 模型
- 论文标题: Mixtral of Experts
- 链接: https://arxiv.org/abs/2401.04088
Mistral 的开源 MoE 模型,性能接近 GPT-3.5,代码简单易读。
15 升级改造 MoE:胜过密集模型
- 论文标题: Upcycling MoEs Beat Dense LLMs
- 链接: https://arxiv.org/abs/2410.07524
Nvidia 的方法,把密集模型组合成 MoE,效果比继续训练更好。
强化学习:让 AI 更贴近人类需求
强化学习(RL)在后训练阶段让预训练模型变成实用聊天机器人,调整 AI 行为更符合人类需求。以下是相关研究。
16 用 AI 反馈替代人类反馈(RLAIF)
- 论文标题:RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- 链接:https://arxiv.org/abs/2309.00267
用 AI 代替人类评估,扩展强化学习数据,性能接近人类反馈。
17 自我奖励语言模型
- 论文标题: Self Rewarding Language Models
- 链接: https://arxiv.org/abs/2401.10020
同一个模型既生成答案又评估奖励,三轮训练后性能大幅提升。
18 思考型 LLM:优化指令遵循
- 论文标题: Thinking LLMs: General Instruction Following with Thought Generation
- 链接: https://arxiv.org/abs/2410.10630
Meta 团队结合思维链推理,教模型更好地听懂指令。
19 直接偏好优化(DPO)
- 论文标题: Direct Preference Optimization
- 链接: https://arxiv.org/abs/2305.18290
DPO 简化强化学习,用分类损失优化模型,简单高效。
DeepSeek 自己的研究:从起点到 R1
以下是 DeepSeek 团队的核心论文,展示他们从早期模型到 R1 的技术演进。
20 DeepSeekLLM:开源大模型的长期主义
- 论文标题: DeepSeekLLM: Scaling Open-Source Language Models with Longtermism
- 链接: https://arxiv.org/abs/2401.02954
V1 模型研究扩展法则,67B 参数模型在代码和推理上超过 LLaMA-2 70B。
21 DeepSeek-V2:高效又强大的专家混合模型
- 论文标题: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 链接: https://arxiv.org/abs/2405.04434
引入 MoE,236B 参数模型节省 42.5% 训练成本,性能更强。
22 DeepSeek-V3 技术报告
- 论文标题: DeepSeek-V3 Technical Report
- 链接: https://arxiv.org/abs/2412.19437v1
- 代码:https://github.com/deepseek-ai/DeepSeek-V3
671B 参数 MoE 模型,仅花 500 万美元训练,性能匹敌顶级闭源模型。
23 DeepSeek-R1:激励模型推理能力的强化学习
- 论文标题: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- 链接: https://arxiv.org/abs/2501.12948
R1 与 o1 竞争,开源 670B 参数权重及小型简化版,推理表现优秀。
24 DeepSeekMath:提升数学推理的开源模型
- 论文标题: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- 链接: https://arxiv.org/abs/2402.03300
用 GRPO 算法优化数学推理,7B 模型在 MATH 基准上达到 51.7% 准确率。
其他值得关注的论文:
- DeepSeek-Prover [1]
- DeepSeek-Coder-V2 [2]
- DeepSeekMoE [3]
想深入了解?
如果觉得内容有点多,别担心!
关注「云中江树」,江树接下来将和你一起阅读每篇论文,内容放在每日次条。
上述论文江树也建立了一个 ima 知识库,加入知识库获取全部论文
如果你有优质论文或者高质量论文清单,欢迎推荐~
希望这份清单能帮助你深入理解 DeepSeek!
泡杯咖啡或茶,找个安静角落,慢慢阅读,享受这场有趣的知识之旅吧!
参考资料
[1]
DeepSeek-Prover: https://arxiv.org/abs/2405.14333?ref=ghost.oxen.ai
[2]
DeepSeek-Coder-V2: https://arxiv.org/abs/2406.11931?ref=ghost.oxen.ai
[3]
DeepSeekMoE: https://arxiv.org/abs/2401.06066?ref=ghost.oxen.ai