DeepSeek R1/o1大型推理模型蓝图：架构设计及快速原型实现框架x1 - 文章 - 开发者社区

近期， 大型推理模型（LRMs：Large Reasoning Models） OpenAI-o3、DeepSeek-R1、kimi 1.5、Step-1o应接不暇，快速、系统掌握指南：

一个 全面的蓝图 ：构建、分析和实验LRMs；
蓝图将LRMs组件组织成模块化框架 ：推理结构（链式、树形、图状和嵌套形式）、推理策略（MCTS、束搜索）、强化学习（策略、价值模型等）以及监督方案（结果或过程监督）；
开源框架x1**** ，模块化实现，用于 快速LRMs原型制作和实验 ，支持训练、推理和合成数据生成。

大型推理模型概念以及如何实现？

picture.image

LRMs 设计和核心概念速览。高级概述（左上）、中级概述（右上），详细推理和训练流程（下）

picture.image

LRMs的演变、架构

LRMs的发展历史

picture.image

LRMs 的演变历程

LRMs的出现是多种技术发展的结果，主要包括以下三个方面：

大型语言模型（LLMs）的进步：LLMs如GPT-4o等，通过在海量文本数据上进行训练，能够理解和生成人类语言。然而，它们的推理能力主要基于快速、自动的系统1思维，缺乏深度和结构化的推理能力。
强化学习（RL）的发展：强化学习模型如AlphaZero等，通过试错学习最优策略，展示了在复杂决策问题中的潜力。但这些模型缺乏对现实世界知识的编码能力。
高性能计算（HPC）的推动：高性能计算资源的发展，特别是GPU、TPUs和AI加速器的并行处理能力，为LLMs和RL模型的训练提供了支持。

LRMs 的基础架构

LRMs结合了LLMs、RL和HPC的优势，形成了能够进行系统2思维（System 2 Thinking）的AI模型。这些模型不仅具备LLMs的知识基础，还能通过RL进行结构化的探索和优化。RLMs的主要基础架构包括：

推理结构（Reasoning Structure）：RLMs使用树状或图状结构来组织推理步骤，这些结构可以通过蒙特卡洛树搜索（MCTS）等策略进行扩展和优化。
推理策略（Reasoning Strategy）：RLMs采用MCTS等策略来平衡探索和利用，通过模拟多种推理路径来选择最有希望的解决方案。
操作符（Operators）：RLMs中的一系列操作符（如生成、评估、更新等）用于在推理结构中添加、修改或评估推理步骤。
模型组件（Models）：RLMs通常包含策略模型（Policy Model）和价值模型（Value Model），分别用于生成新的推理步骤和评估推理路径的质量。

语言模型的层级结构（右侧）和 LRMs 的三大支柱（左侧）

picture.image

构建LRMs的全面蓝图

提出了一个全面的蓝图，用于构建和分析推理语言模型（RLMs）。该蓝图包括 推理方案、操作符、模型和流程 四大类组件，涵盖了从推理结构的设计到模型的训练和数据生成的全过程。通过这个模块化的框架，研究人员和实践者可以灵活地设计、训练和部署适合特定应用的RLMs。

picture.image

蓝图概述与主要组件

推理方案（Reasoning Scheme）：定义推理步骤的结构（如链、树、图）以及推理策略（如蒙特卡洛树搜索，MCTS）。
操作符（Operators）：用于在推理结构上执行操作，如生成、评估、更新等。
模型（Models）：实现操作符的神经网络模型，如策略模型（Policy Model）和价值模型（Value Model）。
流程（Pipelines）：定义推理、训练和数据生成的具体操作流程。

推理方案

推理方案是蓝图的核心部分，它详细定义了推理步骤如何组织成连贯的结构，并指导推理过程的演变。

推理步骤（Reasoning Step）：推理结构的基本单元，可以是单个token或整个句子，具体取决于设计选择。
推理结构（Reasoning Structure）：推理步骤的连接方式，常见的有链（线性序列）、树（层次化分支）和图（任意连接）。
推理策略（Reasoning Strategy）：定义推理结构如何演变，例如MCTS通过模拟多条推理路径并选择最有希望的路径。
解码策略（Decoding Strategy）：与推理策略不同，解码策略关注于单个token的生成，如贪婪搜索或核采样。

操作符

操作符用于在推理结构上执行各种操作，以推动推理过程的进展。蓝图提供了以下几类操作符：

结构操作符（Structure Operators）：

生成（Generate）：在推理结构中添加新的推理步骤。
细化（Refine）：优化现有的推理步骤，例如纠正错误或提高清晰度。
聚合（Aggregate）：将多个推理步骤合并为一个步骤。
剪枝（Prune）：移除不相关或次优的推理步骤。
重构（Restructure）：对推理结构进行任意转换，例如将树结构转换为链结构。

遍历操作符（Traversal Operators）：

选择（Select）：选择下一个要扩展的推理步骤。
回溯（Backtrack）：返回到之前的推理步骤并尝试其他路径。

更新操作符（Update Operators）：更新推理结构中特定部分的值，例如MCTS中的反向传播。
评估操作符（Evaluate Operators）：对推理结构的一部分进行评估，而不修改结构本身。例如，评估一个推理路径的预期奖励。

模型

模型是实现操作符的具体神经网络，蓝图中讨论了以下模型及其训练范式：

策略模型（Policy Model）：用于生成新的推理步骤。
价值模型（Value Model）：用于评估推理路径的质量。
训练范式（Training Paradigm）：定义了如何训练这些模型，例如监督微调（SFT）、拒绝采样（Rejection Sampling）或强化学习方法（如PPO）。
训练数据范围（Training Data Scope）：讨论了输出基础监督（OBS）和过程基础监督（PBS）两种训练数据的范围。PBS提供了更丰富的训练信号，但需要更复杂的标注数据。

流程

流程是操作符和模型之间的交互规范，用于实现特定目标，如推理、训练或数据生成。蓝图中详细描述了以下流程：

推理流程（Inference Pipeline）：使用推理方案和模型来处理用户请求。
训练流程（Training Pipelines）：用于训练策略模型和价值模型，包括SFT和自学习。
数据生成流程（Data Generation Pipeline）：独立于用户请求，生成用于训练的数据。

x1框架的设计与实现

x1框架 是一个模块化、可扩展的框架，用于开发和实验推理语言模型（RLMs）。x1框架结合了树状推理结构和蒙特卡洛树搜索（MCTS），并实现了一系列操作符来指导推理过程。框架中的策略模型和价值模型通过两阶段训练进行优化，第一阶段进行监督微调，第二阶段通过强化学习进一步调整。此外，x1框架通过解耦模型、支持批处理和量化等策略，提升了可扩展性和效率。

LLM推理基准的分类体系

picture.image


            
Reasoning Language Models: A Blueprint
            
https://arxiv.org/pdf/2501.11223
            
https://github.com/spcl/x1