将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3

大模型向量数据库云通信

来看一个实验比较扎实的工作,Skywork-R1V3将R1的思路引入多模态大模型,提出:直接将RL技术从仅文本的大语言模型转移到VLMs是不够的,需要开发VLM特定的RL配方。下面来看看如何在VLM中引入COT的RL,供参考。

数据情况

1、冷启动微调数据

构建了一个包含约2万 个实例的冷启动数据集,这些实例来自2024年之前的中国高中数学实践问题。数据集涵盖物理、化学、生物和数学四个主要学科(分布如下)。通过Skywork-R1V2模型生成每个问题的逐步思考过程,并使用拒绝采样策略筛选出最终答案与真实答案匹配的高质量实例。得到了大约12000 个高质量的带有推理链的样本。

2、RL微调数据

K12难度多模态数学数据15000个样本,全部是多项选择题和填空题,每个实例由一个问题q和其对应的答案a组成,不包含显式的推理步骤。

3、连接器模块的调优数据

从20个不同领域中选择了10000 个样本,用于在强化学习阶段之后对连接器模块进行专门的调优,以确保模型在不同领域中的知识和推理能力得到平衡和增强。

picture.image

三个训练阶段的数据分布情况

后训练方法

1、奖励函数设计

Skywork-R1V3的奖励函数由两部分组成:

  • 格式奖励:和dpsk那样,回答模板遵循结构 “< think >...< think >...”格式
  • 准确性奖励:RL过程的主要目标,

picture.image

准确性奖励优化目标

2、冷启动微调

冷启动微调阶段的目标是通过使用早期版本的Skywork-R1V2模型生成的样本,初始化模型的推理能力 。在这个阶段,模型被训练以采用“先思考后回答”的方式,这种能力是从LLM的预训练阶段继承而来的。

3、强化学习微调

用PPO和GRPO算法来优化模型的推理策略,

  • PPO:通过限制策略更新的幅度来确保训练的稳定性,优化目标是最大化期望奖励。
  • GRPO:针对稀疏的二进制奖励(0或1),通过组内归一化来估计优势函数,从而提供更丰富的学习信号。(关于GPRO这里不再赘述,可参考《DeepSeek采用的GRPO算法数学原理及算法过程浅析》)

picture.image

实现细节上,使用VERL框架进行训练,逐步增加上下文和输出长度 ,并使用特定的超参数设置(如学习率、批量大小等)来优化训练过程。

4、连接器模块微调

作用是跨模态对齐,仅调整连接器参数 ,可以有效重新平衡模型的知识分布,而不影响其推理能力 。训练过程中使用特定的超参数设置(如学习率、批量大小等),并通过早停策略 避免过拟合。

消融研究

picture.image

对不同组件进行消融研究

picture.image

模块消融

从上图可以看到:视觉编码器是否激活对模型性能的影响不大,连接器模块被冻结或移除,模型会迅速失去推理能力,奖励曲线急剧下降

picture.image引入课程学习策略,通过从简单到困难的问题逐步训练模型。实验结果显示,这种基于难度的课程学习策略并未提高模型的泛化能力。相反,模型在切换到更难的问题后,虽然在复杂任务上的表现有所提升,但在统一评估集上的表现却出现了偏差,尤其是在中等难度问题上的性能下降。这表明,模型在复杂任务上学到的特殊策略可能与中等难度任务的核心推理路径相冲突,从而削弱了整体泛化能力。

实验评测

picture.image

picture.image

参考文献:Skywork-R1V3 Technical Report,https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork\_R1V3.pdf
repo:https://github.com/SkyworkAI/Skywork-R1V

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书:社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论