DeepSeek R1/o1大型推理模型蓝图:架构设计及快速原型实现框架x1

大模型向量数据库机器学习

近期, 大型推理模型(LRMs:Large Reasoning Models) OpenAI-o3、DeepSeek-R1、kimi 1.5、Step-1o应接不暇,快速、系统掌握指南:

  • 一个 全面的蓝图 :构建、分析和实验LRMs;
  • 蓝图将LRMs组件组织成模块化框架 :推理结构(链式、树形、图状和嵌套形式)、推理策略(MCTS、束搜索)、强化学习(策略、价值模型等)以及监督方案(结果或过程监督);
  • 开源框架x1**** ,模块化实现,用于 快速LRMs原型制作和实验 , 支持训练、推理和合成数据生成。

大型推理模型概念以及如何实现?

picture.image

LRMs 设计和核心概念速览。高级概述(左上)、中级概述(右上),详细推理和训练流程(下)

picture.image

LRMs的演变、架构

LRMs的发展历史

picture.image

LRMs 的演变历程

LRMs的出现是多种技术发展的结果,主要包括以下三个方面:

  • 大型语言模型(LLMs)的进步:LLMs如GPT-4o等,通过在海量文本数据上进行训练,能够理解和生成人类语言。然而,它们的推理能力主要基于快速、自动的系统1思维,缺乏深度和结构化的推理能力。
  • 强化学习(RL)的发展:强化学习模型如AlphaZero等,通过试错学习最优策略,展示了在复杂决策问题中的潜力。但这些模型缺乏对现实世界知识的编码能力。
  • 高性能计算(HPC)的推动:高性能计算资源的发展,特别是GPU、TPUs和AI加速器的并行处理能力,为LLMs和RL模型的训练提供了支持。

LRMs 的基础架构

LRMs结合了LLMs、RL和HPC的优势,形成了能够进行系统2思维(System 2 Thinking)的AI模型。这些模型不仅具备LLMs的知识基础,还能通过RL进行结构化的探索和优化。RLMs的主要基础架构包括:

  • 推理结构(Reasoning Structure):RLMs使用树状或图状结构来组织推理步骤,这些结构可以通过蒙特卡洛树搜索(MCTS)等策略进行扩展和优化。
  • 推理策略(Reasoning Strategy):RLMs采用MCTS等策略来平衡探索和利用,通过模拟多种推理路径来选择最有希望的解决方案。
  • 操作符(Operators):RLMs中的一系列操作符(如生成、评估、更新等)用于在推理结构中添加、修改或评估推理步骤。
  • 模型组件(Models):RLMs通常包含策略模型(Policy Model)和价值模型(Value Model),分别用于生成新的推理步骤和评估推理路径的质量。

语言模型的层级结构(右侧)和 LRMs 的三大支柱(左侧)

picture.image

构建LRMs的 全面蓝图

提出了一个全面的蓝图,用于构建和分析推理语言模型(RLMs)。该蓝图包括 推理方案、操作符、模型和流程 四大类组件,涵盖了从推理结构的设计到模型的训练和数据生成的全过程。通过这个模块化的框架,研究人员和实践者可以灵活地设计、训练和部署适合特定应用的RLMs。

picture.image

蓝图概述与主要组件

  1. 推理方案(Reasoning Scheme):定义推理步骤的结构(如链、树、图)以及推理策略(如蒙特卡洛树搜索,MCTS)。
  2. 操作符(Operators):用于在推理结构上执行操作,如生成、评估、更新等。
  3. 模型(Models):实现操作符的神经网络模型,如策略模型(Policy Model)和价值模型(Value Model)。
  4. 流程(Pipelines):定义推理、训练和数据生成的具体操作流程。

推理方案

推理方案是蓝图的核心部分,它详细定义了推理步骤如何组织成连贯的结构,并指导推理过程的演变。

  1. 推理步骤(Reasoning Step):推理结构的基本单元,可以是单个token或整个句子,具体取决于设计选择。
  2. 推理结构(Reasoning Structure):推理步骤的连接方式,常见的有链(线性序列)、树(层次化分支)和图(任意连接)。
  3. 推理策略(Reasoning Strategy):定义推理结构如何演变,例如MCTS通过模拟多条推理路径并选择最有希望的路径。
  4. 解码策略(Decoding Strategy):与推理策略不同,解码策略关注于单个token的生成,如贪婪搜索或核采样。

操作符

操作符用于在推理结构上执行各种操作,以推动推理过程的进展。蓝图提供了以下几类操作符:

  1. 结构操作符(Structure Operators):
  • 生成(Generate):在推理结构中添加新的推理步骤。
  • 细化(Refine):优化现有的推理步骤,例如纠正错误或提高清晰度。
  • 聚合(Aggregate):将多个推理步骤合并为一个步骤。
  • 剪枝(Prune):移除不相关或次优的推理步骤。
  • 重构(Restructure):对推理结构进行任意转换,例如将树结构转换为链结构。
  • 遍历操作符(Traversal Operators):
  • 选择(Select):选择下一个要扩展的推理步骤。
  • 回溯(Backtrack):返回到之前的推理步骤并尝试其他路径。
  • 更新操作符(Update Operators):更新推理结构中特定部分的值,例如MCTS中的反向传播。

  • 评估操作符(Evaluate Operators):对推理结构的一部分进行评估,而不修改结构本身。例如,评估一个推理路径的预期奖励。

模型

模型是实现操作符的具体神经网络,蓝图中讨论了以下模型及其训练范式:

  1. 策略模型(Policy Model):用于生成新的推理步骤。
  2. 价值模型(Value Model):用于评估推理路径的质量。
  3. 训练范式(Training Paradigm):定义了如何训练这些模型,例如监督微调(SFT)、拒绝采样(Rejection Sampling)或强化学习方法(如PPO)。
  4. 训练数据范围(Training Data Scope):讨论了输出基础监督(OBS)和过程基础监督(PBS)两种训练数据的范围。PBS提供了更丰富的训练信号,但需要更复杂的标注数据。

流程

流程是操作符和模型之间的交互规范,用于实现特定目标,如推理、训练或数据生成。蓝图中详细描述了以下流程:

  1. 推理流程(Inference Pipeline):使用推理方案和模型来处理用户请求。
  2. 训练流程(Training Pipelines):用于训练策略模型和价值模型,包括SFT和自学习。
  3. 数据生成流程(Data Generation Pipeline):独立于用户请求,生成用于训练的数据。
x1框架的设计与实现

x1框架 是一个模块化、可扩展的框架,用于开发和实验推理语言模型(RLMs)。x1框架结合了树状推理结构和蒙特卡洛树搜索(MCTS),并实现了一系列操作符来指导推理过程。框架中的策略模型和价值模型通过两阶段训练进行优化,第一阶段进行监督微调,第二阶段通过强化学习进一步调整。此外,x1框架通过解耦模型、支持批处理和量化等策略,提升了可扩展性和效率。

LLM推理基准的分类体系

picture.image


            
Reasoning Language Models: A Blueprint
            
https://arxiv.org/pdf/2501.11223
            
https://github.com/spcl/x1
        

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论