Vision-R1：多模态领域的DeepSeek R1-Zero，7B参数比肩OpenAI O1 - 文章 - 开发者社区

DeepSeek在领域内获得广泛关注的核心在于R1-Zero 仅通过强化学习（RL）便成功实现了推理能力的涌现，即发现Aha moment 。那么，在多模态领域，是否也能获得借鉴R1-Zero的思路呢？

今天介绍的Vision-R1就是这一方面的探索的代表，其目的就是研究如何有效利用 RL 来增强多模态大型语言模型（MLLM）的推理能力。然而，研究团队发现，由于缺乏大规模、高质量的多模态推理数据，直接应用 RL 训练 MLLM 在激发其深层推理能力（如提问和反思）方面面临巨大挑战。

picture.image

为解决这一难题，Vision-R1 项目创新性地提出了一个 推理型 MLLM ，并采取了由 冷启动初始化 和 RL 训练 组成的两阶段策略。项目首先着力构建高质量、大规模且无需人工标注的多模态 Chain-of-Thought (CoT) 数据集—— Vision-R1-cold 数据集 。该数据集规模达 20 万 条，巧妙地利用现有的 MLLM 和 DeepSeek-R1，通过 模态桥接 和 数据过滤 等技术，将视觉信息转化为文本信息，并融入 DeepSeek-R1 生成的高质量 CoT 推理过程，为 Vision-R1 提供了至关重要的冷启动知识。

picture.image

数据集例子

picture.image

冷启动初始化数据准备

picture.image

RL训练

为缓解冷启动后模型易出现的“过度思考优化问题”，Vision-R1 进一步创新性地提出了 渐进式思维抑制训练 (PTST) 策略。PTST 结合 群体相对策略优化 (GRPO) 算法和 硬格式化结果奖励函数 (HFRRF) ，在 1 万 条多模态数学数据集上进行 RL 训练，逐步精炼模型学习正确且复杂的推理过程的能力。PTST 策略在训练初期抑制模型推理长度，引导模型关注正确的推理路径，并随着训练深入，逐步放宽长度限制，最终使 Vision-R1 能够自主掌握更高级的推理技巧。

picture.image

从实验结果上看，在多个多模态数学推理基准测试中，Vision-R1 模型较之于其基础模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在广泛使用的 MathVista 基准测试中，仅使用 70 亿参数的 Vision-R1-7B 模型 ，其准确率便达到了 73.5% ， 仅比领先的推理模型 OpenAI O1 低 0.4%，大幅超越开源推理MLLM LLaVA-Cot-11B近9% 。这充分展现了 Vision-R1 在多模态推理任务上的强大实力。

Vision-R1的成功说明采用DeepSeek R1的思路是普遍有效的，这对于其它研究者来讲给予了非常大的示范意义，如何更好的使用RL激发大模型的潜力将成为重点的研究方向。

github：https://github.com/Osilly/Vision-R1

论文：https://arxiv.org/abs/2503.06749

系统性学习大模型开发，推荐必读：

公众号回复“进群”入群讨论。