Vision-R1:多模态领域的DeepSeek R1-Zero,7B参数比肩OpenAI O1

大模型向量数据库机器学习

DeepSeek在领域内获得广泛关注的核心在于R1-Zero 仅通过强化学习(RL)便成功实现了推理能力的涌现,即发现Aha moment 。那么,在多模态领域,是否也能获得借鉴R1-Zero的思路呢?

今天介绍的Vision-R1就是这一方面的探索的代表, 其目的就是研究如何有效利用 RL 来增强多模态大型语言模型(MLLM)的推理能力。然而,研究团队发现,由于缺乏大规模、高质量的多模态推理数据,直接应用 RL 训练 MLLM 在激发其深层推理能力(如提问和反思)方面面临巨大挑战。

picture.image

为解决这一难题,Vision-R1 项目创新性地提出了一个 推理型 MLLM ,并采取了由 冷启动初始化RL 训练 组成的两阶段策略。项目首先着力构建高质量、大规模且无需人工标注的多模态 Chain-of-Thought (CoT) 数据集—— Vision-R1-cold 数据集 。该数据集规模达 20 万 条,巧妙地利用现有的 MLLM 和 DeepSeek-R1,通过 模态桥接数据过滤 等技术,将视觉信息转化为文本信息,并融入 DeepSeek-R1 生成的高质量 CoT 推理过程,为 Vision-R1 提供了至关重要的冷启动知识。

picture.image

数据集例子

picture.image

冷启动初始化数据准备

picture.image

RL训练

为缓解冷启动后模型易出现的“过度思考优化问题”,Vision-R1 进一步创新性地提出了 渐进式思维抑制训练 (PTST) 策略。PTST 结合 群体相对策略优化 (GRPO) 算法和 硬格式化结果奖励函数 (HFRRF) ,在 1 万 条多模态数学数据集上进行 RL 训练,逐步精炼模型学习正确且复杂的推理过程的能力。PTST 策略在训练初期抑制模型推理长度,引导模型关注正确的推理路径,并随着训练深入,逐步放宽长度限制,最终使 Vision-R1 能够自主掌握更高级的推理技巧。

picture.image

从实验结果上看,在多个多模态数学推理基准测试中,Vision-R1 模型较之于其基础模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在广泛使用的 MathVista 基准测试中,仅使用 70 亿参数的 Vision-R1-7B 模型 ,其准确率便达到了 73.5%仅比领先的推理模型 OpenAI O1 低 0.4%,大幅超越开源推理MLLM LLaVA-Cot-11B近9% 。这充分展现了 Vision-R1 在多模态推理任务上的强大实力。

Vision-R1的成功说明采用DeepSeek R1的思路是普遍有效的,这对于其它研究者来讲给予了非常大的示范意义,如何更好的使用RL激发大模型的潜力将成为重点的研究方向。

github:https://github.com/Osilly/Vision-R1

论文:https://arxiv.org/abs/2503.06749

系统性学习大模型开发,推荐必读:

公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型解决方案白皮书;社交陪伴场景全流程落地指南
随着大模型技术持续突破,AI正加速重塑社交娱乐的形态与体验。其中,陪伴式聊天因用户黏性强、互动频次高,成为大模型商业化落地的关键赛道。随着模型能力跃升至万亿参数级,AI从工具属性正迈向情感交互生态,现象级产品的诞生条件逐渐成熟。 本白皮书聚焦AI陪伴聊天应用开发,面向“从何起步、如何落地”的新手困惑,系统拆解从需求定义到产品上线的关键流程。我们结合工程化实践路径,打造模块化知识体系与渐进式开发框架,帮助开发者在30天内完成从技术认知到产品原型的跃升,快速构建具备基础交互能力的Web或App应用,迈出大模型
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论