DeepSeek R1 从入门到精通（作者：Grok-3 DeepSearch，校对排版：我） - 文章 - 开发者社区

picture.image

| 关键要点

DeepSeek R1 是一款开源 AI 模型，专注于推理任务，如数学、编码和一般问题解决。
它与 OpenAI o1 模型性能相当，特别在数学和编码任务上表现突出，且首个公开推理过程。
研究表明，它通过强化学习训练，适合初学者到专家的学习路径。

| 简介

DeepSeek R1 由 DeepSeek 开发，是一款开源 AI 模型，旨在处理复杂的推理任务。它在数学、编码和逻辑推理方面表现出色，适合各种应用场景。

| 开始使用

初学者可以访问 https://chat.deepseek.com/ 使用聊天 AI 助手，注册后选择 “Deep Think” 模式体验其推理能力。对于更高级的使用，可以通过 https://platform.deepseek.com/ 获取 API 密钥，集成到应用程序中。

| 能力与应用

DeepSeek R1 在 MATH-500 和 AIME 等数学基准测试中得分很高，在 Codeforces 等编码平台上也表现良好。它适合解决需要逐步推理的问题，如数学题和编程任务。

详细报告 -

DeepSeek R1 是一款由中国 AI 初创公司 DeepSeek 开发的开源推理模型，发布于2025年1月，旨在提升数学、编码和一般推理任务的性能。其开源性质（MIT许可）使其成为研究者和开发者的理想选择，允许免费商业和学术使用。以下是从初学者到专家的学习路径，涵盖其功能、使用方法、能力和社区资源。

| 模型简介与背景

DeepSeek R1 是 DeepSeek 的第一代推理模型，基于其先前模型 DeepSeek-V3-Base 开发，采用混合专家（MoE）架构，总参数达6710亿，激活参数37B，上下文长度128K。该模型有两个主要版本：DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 通过纯强化学习（RL）训练，无需监督微调（SFT），展现出强大的推理行为，但存在重复、阅读性差和语言混合等问题。DeepSeek-R1 通过引入冷启动数据和多阶段训练解决这些问题，性能可与 OpenAI-o1 相媲美。

根据官方 GitHub 项目 https://github.com/deepseek-ai/DeepSeek-R1，模型在数学、编码和推理任务上表现出色，特别是 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini，创下密集模型的新状态。

| 使用方法：从初学到进阶

初学者入门

对于初学者，建议从聊天界面开始：

访问 https://chat.deepseek.com/，注册或登录。
选择“Deep Think”模式，体验 DeepSeek R1 的逐步推理能力。
该平台截至2025年3月14日免费使用，每天限50条消息，适合轻量级探索。

API 访问

对于希望通过应用调用的用户，可以：

在 https://platform.deepseek.com/ 注册获取 API 密钥。
API 与 OpenAI 格式兼容，定价为输入标记0.14美元/百万（缓存命中），0.55美元/百万（缓存未命中），输出标记2.19美元/百万。

本地运行

对于进阶用户，可以下载模型在本地运行。可以使用 vLLM 或 SGLang 工具，硬体需求包括高 VRAM GPU（如Nvidia RTX 3090）或至少48GB RAM 的 CPU，性能可能较慢。

模型能力与基准测试

DeepSeek R1 在多个基准测试中表现优异：

数学：MATH-500测试中得分97.3%，AIME 2024通过率79.8%
编码：Codeforces 竞赛中表现优于96.3%的参与者，SWE-bench Verified 得分49.2%，与 OpenAI o1-1217 接近。
一般推理：在 GPQA Diamond 和 MMLU 等测试中表现强劲，显示其在事实推理和语言理解方面的能力。

与 OpenAI o1 的比较显示，DeepSeek R1 在某些数学和编码任务上表现更好，但推理细节更透明，适合需要解释性的场景 https://venturebeat.com/ai/beyond-benchmarks-how-deepseek-r1-and-o1-perform-on-real-world-tasks/。

特定任务应用

数学问题

DeepSeek R1 特别适合解决需要逐步推理的数学问题。建议使用以下提示格式：

提示示例：“解决以下数学问题：[问题]。显示所有步骤。”
根据 Reddit 讨论 https://www.reddit.com/r/singularity/comments/ 1i5r85h/deepseekr1_scored_100_on_a_2023_a_levels/，该模型在2023年 A Levels 数学高级论文1中得分100%，45秒内完成人类需90分钟的任务。

编码任务

在编码任务上，DeepSeek R1 表现出色，特别是复杂的算法问题。提示格式：

提示示例：“编写一个 Python 函数来[任务描述]。确保文档完整并通过所有测试用例。”
根据 https://www.zdnet.com/article/i-tested-deepseeks-r1-and-v3-coding-skills-and-were-not-all-doomed-yet/，该模型在编码测试中超越一些大名 AI，尽管基础设施需求较低。

一般推理

对于需要逻辑推理的问题，提示格式：

提示示例：“什么是解决[问题]的最佳方法？提供详细解释。”
该模型的逐步推理能力使其在研究和复杂决策中具有优势 https://www.datacamp.com/blog/deepseek-r1

进阶主题

训练方法

DeepSeek-R1-Zero 采用纯 RL 训练，无需 SFT，通过奖励正确答案和格式化推理过程（如使用“”和“”标签）发展推理能力（根据 https://arxiv.org/html/2501.12948v1)。DeepSeek-R1 则结合冷启动数据和监督微调，改善可读性和一致性。

基础技术

MoE架构：高效管理大规模参数，激活 37B 参数以处理每个标记。
GRPO（群组相对策略优化）：用于 RL 训练，替代传统 PPO 的评估方法，根据多个采样响应导出相对奖励。

微调与修改

由于其开源性，用户可以下载模型并进行微调。蒸馏版本（1.5B 至 70B 参数）适合资源有限的硬体，运行方式类似 Qwen 或 Llama，使用 vLLM 或 SGLang (https://medium.com/@isaakmwangi2018/a-simple-guide-to-deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-300c87991126)。

社区与资源

官方文档

GitHub 仓库 https://github.com/deepseek-ai/DeepSeek-R1 提供技术细节和使用指南。
Hugging Face https://huggingface.co/deepseek-ai/DeepSeek-R1 提供模型下载和文档。

教程与课程

DataCamp 博客 https://www.datacamp.com/blog/deepseek-r1 提供使用指南。
Medium 文章 https://medium.com/@isaakmwangi2018/a-simple-guide-to-deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-300c87991126 涵盖架构和本地部署。
Reddit 社群如https://www.reddit.com/r/LocalLLaMA/comments/1i8rujw/notes\_on\_deepseek\_r1\_just\_how\_good\_it\_is\_compared/ 和 https://www.reddit.com/r/singularity/comments/1i5r85h/deepseekr1\_scored\_100\_on\_a\_2023\_a\_levels/ 提供用户体验和讨论。

社区参与

通过 DeepSeek 官方渠道加入社区，获取更新和支持。
在 GitHub 上贡献或参与论坛，与其他用户和开发者互动。

| 结论

通过遵循上述指南，用户可以从基本理解逐步成为 DeepSeek R1 的专家，利用其强大的推理能力进行广泛应用。该模型的开源性使其成为 AI 社区的重要贡献，特别是在需要透明度和可访问性的场景中。