视觉推理模型-Skywork R1V 论文详解

大模型向量数据库机器学习

        
        
            

          链接:https://www.zhihu.com/question/15333687654/answer/128260535572
          
   

 
          作者: tomsheep(已授权)
          
   

 
        
      

一句话总结的话, Skywork R1V 是用一个 MLP 适配器 「缝合」了两个已有的开源模型,一个是视觉编码器 ,一个是文本 LLM 。训练的时候,只训练 MLP 适配器。这个做法很常见,比较轻量,「缝合」也不是贬义,只要缝的效果好,就是一个喜闻乐见的、有价值的工程工作。

Skywork R1V 的整体思路

整体架构

Skywork R1V 的核心理念,是尽量不去改变原先在纯文本推理领域已表现出色的 LLM 参数,而是利用一个 轻量级 MLP 适配器 将图像特征映射到 LLM 能够接收并解读的特征空间。

以下是一个简化的架构图:

picture.image在这个流程中,视觉编码器负责提取图像的底层特征,MLP 将其映射到与语言模型兼容的隐空间;最后,语言模型执行逻辑推理并生成答案。这样做有以下好处:

  • 避免大规模微调语言模型本身,保留其原有推理优势。
  • 仅需训练 MLP 适配器 ,参数规模相对小,训练效率高。
  • 加上自适应思维链等优化手段,在跨模态复杂推理上展现强竞争力。

主要创新

  1. 跨模态转移策略 :先用一个与目标 LLM 同结构但无推理能力的「替代模型」进行图文对齐预训练,再迁移到目标 LLM,实现高效的视觉特征到文本空间的映射。
  2. 混合优化框架 :将「迭代式的监督微调 ( SFT )」与「分组相对策略优化 ( GRPO )」相结合,先逐渐提升模型在高质量数据上对齐的精准度,再用强化学习进一步提升泛化能力。
  3. 自适应思维链蒸馏 (AL-CoTD ) :根据图像清晰度、问题难度等因素控制推理链的长度,避免在简单问题上「过度推理」,同时确保复杂问题有足够推理步骤。

下面分别来介绍一下这几种技术。

跨模态转移:MLP 适配器技术

思路:参数高效迁移

为什么不直接用 ViT + LLM 做大规模训练?主要原因是这样会非常昂贵,并且高风险地破坏原语言模型的推理能力。相反,Skywork R1V 采用了一种被称为 Efficient Multimodal Transfer 的策略,具体分三步:

  • MLP 初始化 (替代模型)
  • 选用一个与目标 LLM 结构相似、但推理能力相对欠缺的模型(Qwen2.5-32B),冻结视觉编码器和替代模型,只训练一个多层感知器(MLP)来实现视觉特征到语言特征的近似对齐。
  • 使用大量通用多模态数据(含有图像与文本对)进行初步训练。
  • 模型重组 (Re-Assembly)
  • 把上一步训练好的 MLP 模块「直接移植」到真正具备强推理能力的 LLM(DeepSeek-R1-distill-Qwen2.5-32B)。
  • 观察到,尽管替换语言模型后 tokenizer 也有所不同,但在不做额外训练的情况下,新组装的多模态模型仍能保持一个相对稳定的性能。
  • 模态对齐 (最后微调阶段)
  • 冻结视觉编码器和语言模型,只对 MLP 适配器进行少量数据的微调,让视觉特征与语言模型的隐层空间进一步对齐并校准。

分阶段训练策略

训练 MLP 的具体过程可分为三个阶段:

  1. 全量数据初调 :在 200 万图文对上以较高的学习率(如

)进行训练。 2. 高质量数据精调 :选择 20 万条 GPT-4o 评估为高质量的图文对,降低学习率到约

进行精细训练。 3. 思维链数据微调 :再在约 4 万条带有思维链标注的跨模态问题上做最后一步微调,使模型具备一定的多步推理能力。

理论直觉

如果把视觉到语言的映射类比成「翻译」,那么传统方法相当于 边学翻译边学解题 ,难度极大。而这里的做法是 先学翻译(阶段 1),再用同样的词典替换高水平的解题专家(阶段 2+3) ,两者分而治之,因此可以显著减少高难度、多模态推理数据的需求量。

混合训练框架:迭代 SFT + GRPO

在完成基本的跨模态对齐后,还需要让模型在推理数据上进一步提升准确率与泛化性。论文提出了一套 Hybrid Optimization Framework :将 迭代式 SFTGRPO 强化学习 组合使用,大幅提高了在多轮改进后的收敛效果。

picture.image

迭代式监督微调 (SFT)

步骤

  1. 先用全量数据训练得到初始模型

。 2. 用奖励模型 (RM) 对所有数据打分:得分高于阈值的为高质量数据,其余为一般数据。

  1. 针对上一轮模型的错误样本进行「重点关注」。
  2. 将高质量数据与错误样本集合并,形成新的训练集;对上一轮模型再进行微调,得到新模型

。 5. 不断提高选择阈值

,从而筛选出更高质量的数据进行训练。

每轮迭代不仅可以强化对高质量数据的学习,也能让模型在之前做错的案例上进行纠偏,体现了「错误驱动」的持续改进思路。

分组相对策略优化 (GRPO)

当迭代到一定阶段,模型在监督学习数据上已经充分拟合之后,为进一步追求泛化能力和对「复杂、长尾问题」的鲁棒性,利用 强化学习 (RL) 的思路再微调模型。具体做法:

  1. 使用一个预先定义或训练好的 奖励函数 ,衡量模型输出的好坏。例如:正确率的奖励、格式合规度的奖励等。
  2. 基于策略梯度方法(GRPO),选择一部分训练数据进行生成,保留奖励较高的序列,不断迭代更新模型参数。

通过 RL,可以进一步放大模型在潜在难题或不确定性较高场景下的能力,也能鼓励模型生成「更完整、更符合推理逻辑」的思维链。

奖励模型与数据筛选

  • Reward Model (RM) :一种专门用于估计输出质量的模型,输出一个离散或连续分数(如 0~5),越高表示越符合期望。
  • 误分类数据 :在每一轮训练之后,把模型错误或低性能的输入挑出来,加入下一轮训练,起到「查漏补缺」作用。
  • 高质量数据 :即 RM 打分较高的样本,能给模型提供「正确且规范的示范」,让其逐步学到理想输出模式。

自适应思维链蒸馏 (AL-CoTD)

思维链(Chain of Thought, CoT)是指在回答过程中,让模型显式地给出 step-by-step 的推理步骤,帮助模型生成更具逻辑性的答案。但如果对每个问题都要求长推理链,可能引发「过度推理」,造成不必要的计算开销。

Skywork R1V 在此提出 Adaptive-Length Chain-of-Thought Distillation (AL-CoTD) :根据问题本身的复杂度或模态依赖情况,自适应地决定推理链长度。

picture.image

质量 - 难度评估模块 (QDAM)

QDAM 通过 GPT-4o 等工具,对图文输入进行多方面打分:

  • 图像清晰度 (Sv)
  • 文本问题难度 (St)
  • 是否需要深度跨模态融合 (SI)

最后综合得到一个多维度指标,代表了该问题解决的「难度 + 质量」水平。

视觉文本融合分析器 (VTIA)

在多模态场景下,需要判断图像与文本的耦合度、所需推理步骤的类型。例如,识别出这是「几何证明」,还是「简单标注题」,如果两个模态耦合度很高,往往意味着更长的推理链。

动态推理长度控制器 (DRLC)

核心是根据上述打分,计算出一个 重复惩罚系数 P。示例公式:

  • 如果问题很复杂,

,

,

都较高,得到的P就小,让模型允许生成更长的推理链;

  • 如果问题简单,就让P较大,对重复片段惩罚更重,自动缩短推理链的长度。

多阶段自蒸馏流水线

  • 第一阶段 :用 DRLC 约束的方式,让模型在训练时生成带有 标记的推理过程;
  • 第二阶段 :GPT-4o 等工具检查模型输出的 correctness。如果正确,保留原推理;如果不正确,则让 GPT-4o 重新修正推理过程并蒸馏给模型。
  • 重复执行 :在每轮迭代 SFT 前都执行一次,可以逐渐提高思维链的质量,同时将「冗余 + 不必要的推理」压缩到合理水平。

实验结果

Skywork R1V 的主要评测集中在两类任务:

  1. 文本推理 :如 MATH-500、AIME (数学竞赛题)、GPQA。主要考察模型的数理与逻辑推理能力。
  2. 视觉推理 :如 MathVista、MMMU 等,需要同时理解图像中的信息与文本提示,做出多步推断。

在纯文本推理上 :Skywork R1V 在 MATH-500 数据集上达到 94.0 的高分,AIME2024 也达到 72.0 。对比同等规模的文本模型(如 QwQ-32B,MATH-500 = 90.6),可见仍有显著优势。

在多模态推理上 :在 MMMU(val) 上得分 69.0 ,领先于许多同规模或更大规模模型(如 Qwen2-VL-72B-Instruct、InternVL2-40B 等)。

以下是一个几何问题示例(简化版):

问题 :给定一个五边形 ABCDE 的内角分别为A=3x-6, B=2x+10, C=\dots\,问当AB + BC\怎么样时,角 E 等于多少度?

模型推理过程(简述):

  1. 先从图像中读出角度公式并校对文字描述;
  2. 知道五边形内角和为 540^\circ ;
  3. 建立方程A + B + C + D + E = 540\;
  4. 代入给定符号并解得x\,再算出E\的数值;
  5. 最终给出符合逻辑的答案。

这反映了模型需要有:视觉识别(五边形角度) + 文本解析(角度表达式) + 数学推导多重能力。

最后消融实验,

  • 去掉自适应思维链 :模型在简单问题上会出现冗长的无效推理,整体推理速度下降,但在高难度问题上准确率差异不大。
  • 去掉 GRPO :模型在分布外数据或长尾问题上表现明显恶化,

下降约 7%。

  • 减少迭代 SFT 轮次 :评测表现会降低约 3~5 个百分点。

PS:看到这里,如果觉得不错,可以来个 点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」, 加入交流群 ,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论