Vision-R1:多模态领域的DeepSeek R1-Zero,7B参数比肩OpenAI O1

大模型向量数据库机器学习

DeepSeek在领域内获得广泛关注的核心在于R1-Zero 仅通过强化学习(RL)便成功实现了推理能力的涌现,即发现Aha moment 。那么,在多模态领域,是否也能获得借鉴R1-Zero的思路呢?

今天介绍的Vision-R1就是这一方面的探索的代表, 其目的就是研究如何有效利用 RL 来增强多模态大型语言模型(MLLM)的推理能力。然而,研究团队发现,由于缺乏大规模、高质量的多模态推理数据,直接应用 RL 训练 MLLM 在激发其深层推理能力(如提问和反思)方面面临巨大挑战。

picture.image

为解决这一难题,Vision-R1 项目创新性地提出了一个 推理型 MLLM ,并采取了由 冷启动初始化RL 训练 组成的两阶段策略。项目首先着力构建高质量、大规模且无需人工标注的多模态 Chain-of-Thought (CoT) 数据集—— Vision-R1-cold 数据集 。该数据集规模达 20 万 条,巧妙地利用现有的 MLLM 和 DeepSeek-R1,通过 模态桥接数据过滤 等技术,将视觉信息转化为文本信息,并融入 DeepSeek-R1 生成的高质量 CoT 推理过程,为 Vision-R1 提供了至关重要的冷启动知识。

picture.image

数据集例子

picture.image

冷启动初始化数据准备

picture.image

RL训练

为缓解冷启动后模型易出现的“过度思考优化问题”,Vision-R1 进一步创新性地提出了 渐进式思维抑制训练 (PTST) 策略。PTST 结合 群体相对策略优化 (GRPO) 算法和 硬格式化结果奖励函数 (HFRRF) ,在 1 万 条多模态数学数据集上进行 RL 训练,逐步精炼模型学习正确且复杂的推理过程的能力。PTST 策略在训练初期抑制模型推理长度,引导模型关注正确的推理路径,并随着训练深入,逐步放宽长度限制,最终使 Vision-R1 能够自主掌握更高级的推理技巧。

picture.image

从实验结果上看,在多个多模态数学推理基准测试中,Vision-R1 模型较之于其基础模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在广泛使用的 MathVista 基准测试中,仅使用 70 亿参数的 Vision-R1-7B 模型 ,其准确率便达到了 73.5%仅比领先的推理模型 OpenAI O1 低 0.4%,大幅超越开源推理MLLM LLaVA-Cot-11B近9% 。这充分展现了 Vision-R1 在多模态推理任务上的强大实力。

Vision-R1的成功说明采用DeepSeek R1的思路是普遍有效的,这对于其它研究者来讲给予了非常大的示范意义,如何更好的使用RL激发大模型的潜力将成为重点的研究方向。

github:https://github.com/Osilly/Vision-R1

论文:https://arxiv.org/abs/2503.06749

系统性学习大模型开发,推荐必读:

公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
TRAE 的思考:AI 时代程序员的认知进化
在 AI 浪潮下,传统的古法编程模式正在被颠覆和变革,对开发者的认知和协作模式提出了新的挑战。本次分享将深入探讨 AI Coding 的演进趋势,从 AI 辅助编程到 AI 主导的全新协作模式,以及它如何重塑人与 AI 之间的关系,同时也将分享下 TRAE 的核心理念、技术实现,演进实践中的踩坑心得、以及我们对未来的展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论