Vision-R1革新LVLM训练 | 视觉反馈驱动+动态规则细化,7B模型性能跃升50%,碾压10倍大模型

大模型向量数据库机器学习

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

导读

大型视觉-语言模型(LVLMs)通常遵循两阶段训练范式——预训练和监督微调。最近,从语言领域衍生出的偏好优化已成为一种有效的后训练强化策略,用于提升LVLMs的能力。然而,构建高质量的标注偏好数据以及开发能够模拟这些偏好的鲁棒奖励模型既昂贵又具有挑战性。受此启发,作者提出了Vision-R1,这是一种新颖的视觉引导R1-like强化学习算法,用于LVLMs,它通过明确的视觉反馈奖励模型。它仅利用精心挑选的指令数据,消除了对专用奖励模型和手工制作的偏好数据集的需求。作者引入了一个以标准驱动的奖励函数,该函数进一步整合多维反馈,根据视觉任务逻辑全面评估模型完成情况。

此外,作者引入了一种渐进式规则细化策略,在训练过程中动态调整奖励标准,实现模型的持续改进并减轻奖励黑客攻击。在分布内和分布外基准上的大量实验表明,使用Vision-R1微调7B LVLMs可以实现一致的性能提升,甚至达到50%的改进,并超越了最先进的10倍规模模型。

  1. 引言

近期,在大型视觉语言模型(LVLMs)[2, 12, 25, 30, 31, 42]方面取得了显著进展,这些模型能够将图像编码为文本 Token ,并根据视觉线索响应指令。这些模型通常遵循两阶段训练范式,其中相关阶段建立对视觉信息的基础理解,而监督微调[30]则增强了它们遵循指令和解决问题的能力。通过这一过程,先进的LVLMs在将视觉与语言结合以解决复杂任务方面展现出巨大的潜力。

尽管取得了这些进展,视觉语言模型(LVLMs)在满足人类期望方面仍然无法像大语言模型(LLMs)[1, 5, 29, 43]那样有效,这主要是因为视觉语言数据的局限性。为了弥合这一差距,借鉴了LLMs[10, 35, 36]的数据效率和性能优势的偏好优化[13, 40, 46, 53],被引入作为一种后训练强化策略,以基于人类反馈来细化LVLM的响应。尽管这些方法将数据消耗降低到千级水平,但构建高质量的视觉语言偏好数据集仍然需要大量资源。同时,训练一个可靠的奖励模型以捕捉具有不同主观性的细微偏好仍然是一个主要挑战。

随着LLM Deekseek-R1 [17]的成功,基于规则的组相对策略优化(GRPO)[38]算法为追踪这一挑战提供了一种新的方法。虽然之前在数学[38]和代码[16]等推理任务中得到了验证,但R1模型进一步证明了基于规则的奖励可以增强多个领域的理解和推理能力,从而提高推理和非推理任务的表现。此外,通过引入视觉信息,视觉-语言问答数据变得更加客观和明确,提供了更清晰的解决方案和线索。现有的人类标注指令数据[26, 51]自然提供了与人类偏好一致的确切响应。这引发了一个关键问题:类似于R1的强化学习方法能否通过精心制作的视觉-语言指令数据进一步增强LVLM的能力?

在本文中,作者提出了Vision-R1,这是一种新颖的视觉引导R1-like强化学习算法,用于LVLM,它消除了对专用奖励模型和手工制作的偏好数据集的需求。为了实现这一点,作者如图1所示对奖励建模和训练策略进行了全面的研究。作者首先引入了一个以标准驱动的奖励函数,该函数根据视觉反馈对每个完成项进行定量评估,提供了一个客观的绝对奖励标准,而不是基于偏好数据进行相对排名。该函数提供了由视觉任务标准引导的多维奖励信号,例如通过将文本数值 Token 转换为坐标来衡量精度的准确性。作者的设计使模型能够更深入地理解任务特征,并生成更准确的响应,超越了SFT中使用的忽略空间身份的 Token 级监督。在奖励建模的基础上,作者进一步引入了一种渐进式规则细化策略,该策略在整个训练过程中动态调整奖励标准,以促进持续改进。受课程学习[4]和人类学习过程启发,该策略遵循两个关键原则:差异化和分阶段进步。这种差异化机制鼓励模型不断细化其预测以实现最佳性能。同时,训练被结构化为初学者和High-Level阶段,在High-Level阶段有越来越严格的奖励标准,以防止奖励黑客攻击并确保持续进步。

picture.image

为了验证Vision-R1的有效性,作者在精选数据上训练了两种先进的LVLM,Griffon-G-7B [50] 和 Qwen2.5-VL-7B [3],并在多个领域内和领域外物体定位任务以及通用问答基准上进行评估。大量实验表明:(1) Vision-R1在包括野生视觉基座和密集目标检测在内的多种任务中实现了显著的性能提升,甚至超过了最先进的Qwen2.5-VL-72B [3]模型。(2) 与SFT相比,Vision-R1在未见过的场景上表现出更好的泛化能力,平均提高了6%,同时保持了先进的问答能力。

本文的贡献总结如下:

  • • 作者提出了一种新颖的视觉引导强化学习方法Vision-R1,用于LVLMs,该方法通过视觉反馈提供奖励,以促进对任务的理解超越SFT。
  • • 作者提出了一种有效的渐进式规则细化策略,该策略通过在训练过程中动态调整奖励标准来确保持续改进。
  • • 全面实验表明,Vision-R1在不同模型上,无论是在领域内还是领域外场景下,均实现了卓越的性能提升,Qwen2.5-VL模型甚至达到了50%的改进,同时保持了良好的泛化能力。
  1. 相关工作

2.1 大型视觉语言模型

近年来,低资源语言模型(LVLMs)[2, 12, 25, 30, 31, 39, 42]取得了显著进展。通过与先进的语言模型[5, 29, 43]对齐,并利用高质量的指令数据进行端到端训练[26, 42],LVLMs在问答和推理等任务上的能力得到了大幅提升,在各个领域实现了显著的突破。在这些进步中,众多开源LVLMs通过在数据构建、对齐方法、模型架构等方面的深入研究做出了贡献。目前,InternVL-2.5[11]和Qwen2.5-VL[3]是领先的LVLM系列,逐渐缩小与闭源[1]模型的差距,甚至在MMMU[49]等挑战性基准测试中超越了它们。

除了这些成就之外,越来越多的关注点集中在更具挑战性的目标定位任务[3]上,如视觉基座和目标检测。虽然LVLMs在简单的细粒度定位任务(如指称表达式理解[21])中已经超越了专家模型,但在复杂和密集的目标检测任务中,它们仍然远远落后于专业模型。尽管一些研究,如Griffon[50]和Lumen[20],已经探索了这个领域,但它们仍然局限于监督微调,这只能带来有限的性能提升。由于目标定位是使LVLMs能够进行更High-Level推理的基本能力,它既是一个关键的研究方向,也是一个主要挑战。在本文中,作者进一步探索了基于强化学习的后训练方法,以增强最先进的LVLMs在更具挑战性的目标定位任务上的性能。

2.2 视觉-语言强化学习

随着LVLMs的快速发展,研究行人开始探索强化学习方法,以更好地将这些模型与人类偏好对齐,受到强化学习在LLMs中成功应用的启发[10, 35, 36]。LVLMs中的第一个应用名为RLHF[40],旨在通过基于人类反馈的迭代优化模型响应来减少幻觉。为了进一步增强对齐并简化训练,引入了直接偏好优化(DPO)[36],允许模型直接在人类标注的偏好数据上训练。从那时起,已经开发了各种偏好优化算法[47, 48],以提高对话能力、减轻幻觉等。

随着LVLMs的持续发展,一些方法[13, 45]也尝试利用强化学习来增强长序列推理。尽管与预训练相比减少了计算成本并提高了模型性能,但这些方法仍然依赖于手动标注的偏好数据和奖励模型训练,使得它们资源密集且具有挑战性。受基于规则的GRPO[38]方法在DeepSeek-R1[17]中成功应用的启发,作者探索了其在视觉-语言领域的应用,其中具有精确标注的指令数据集与人类偏好内在对齐。作者的工作表明,在视觉反馈的指导下,基于规则的强化学习可以显著增强目标定位任务,而无需重新标注偏好数据或奖励模型训练。这进一步突显了其在LVLMs中更广泛应用的潜力。

  1. 视觉-R1

picture.image

在本节中,作者系统地介绍了视觉 Anchor 定的R1-like强化学习算法Vision-R1,这是GRPO[38]强化学习算法在视觉领域的成功扩展。作者首先简要介绍基于规则的GRPO算法,它是R1模型成功之源和作者的基础。然后,在第3.2节中详细阐述了Vision-R1算法的关键组件——基于标准的奖励函数,特别是基于标准的奖励函数。此外,在第3.3节中,作者介绍了渐进式规则细化策略。图2展示了Vision-R1的框架。

3.1. 前言

基于GRPO在DeepSeek-R1中实现自我进化和多领域推理的成功,该强化学习算法为语言和视觉社区提供了宝贵的见解。由于其监督完全基于最终结果,GRPO特别适用于具有明确、客观答案的任务。

与其他依赖奖励模型或价值模型的偏好优化方法不同,它显著降低了LVLMs的内存开销。此外,GRPO计算给定样本在完成组内的相对优势,消除了手动标注偏好数据的需求。以下是作者对其训练过程和优化损失的详细说明。

给定一个待优化的初始模型,GRPO首先初始化一个可训练的策略模型

和一个冻结的参考模型

。对于给定的样本

,旧策略模型

首先生成一组补全

。然后,奖励函数

计算整个组的奖励

,这些奖励进一步用于通过以下方式计算每个补全与组之间的优势

在参考模型根据问题计算每个完成的logits之后,策略模型

通过最大化以下目标进行优化:

其中,

表示一组中的完成次数,

是超参数。此目标激励模型倾向于在组内产生具有更高优势的完成,但不会偏离初始模型太远。

3.2 基于标准的奖励函数

先前的方法[16, 38]主要关注数学和编码等领域,在这些领域中,答案通常使用结构化模板进行总结,并通过字符级匹配进行评估。相比之下,视觉语言任务本质上具有明确的答案,而目标定位任务通常不涉及中间步骤,而是直接输出最终结果。虽然目标定位任务具有明确的目标,可以识别所有感兴趣的目标,但这种视觉反馈并不需要严格的字符级匹配。简单应用基于匹配的奖励机制忽视了视觉任务的独特特性和其反馈,以及强化后训练在完成层面的优势。

为了解决这个问题,作者研究了设计一个奖励函数,该函数能够考虑到目标定位任务的本质以及当前LVLMs在处理这些任务时的局限性。如图2中的任务分析所示,LVLMs [3, 11, 50] 在目标定位任务中面临三个主要挑战。首先,在多实例、长序列预测中,它们往往无法正确遵循指令,导致格式错误。其次,模型产生的有效预测数量不足,未能检测到所有提到的目标。第三,它难以处理小型或具有挑战性的目标,导致预测不准确。除了格式错误外,后两个问题通常在目标检测中进行评估。因此,作者提出了一种以标准为导向的奖励函数,结合双格式奖励、召回奖励和精确度奖励,全面评估模型性能并激励改进。

Box 优先预测匹配 。由于统一的序列建模,LVLMs在目标定位任务中输出目标坐标作为文本序列。为了根据视觉反馈计算奖励,作者首先将这些文本序列转换为前面提到的基于坐标的视觉反馈。支持目标定位任务的现有LVLMs通常遵循固定的序列表示来表示目标坐标,如图2所示的纯文本格式。基于这种表示,作者从序列中提取单个目标。然而,目标定位任务通常涉及多个目标,需要预测与真实值之间的精确匹配。为了在训练中解决这个问题,作者将所有目标定位任务统一在目标检测的一般框架下进行,并在计算奖励之前进行匹配。与检测专家模型不同,LVLMs不生成类别概率,尽管正确预测了目标类别,但在边界框的准确性方面通常不够精确。根据作者的实验,作者对匈牙利匹配器[6]进行了简化,优先考虑基于框的损失进行对齐。如公式3所示,匹配后,每个预测实例包含坐标、类别标签和交并比(IoU)。

DualFormatReward . 先前的方法通过引入格式奖励来鼓励遵循预定义模板,以方便答案提取。与这些方法不同,如第一个挑战所示,LVLMs直接输出目标定位任务的结果,但在包含内容和模板格式错误的长期序列预测方面存在不足。为了解决这个问题,作者设计了双格式奖励。对于每个完成项

,模板格式检查

将验证完成项是否遵循指定的模板格式,例如Qwen2.5-VL [3]中的JSON格式坐标结构。一旦满足条件,作者进一步验证数值内容,以确保其遵守坐标约束,表示为

,例如保持在有效范围内并正确放置小数点。作者采用二进制奖励方案,仅在预测完全满足格式和内容标准时分配奖励1,如下所示:

召回奖励 。召回是目标定位任务中的一个关键指标,反映模型能否尽可能全面地预测所有感兴趣实例,而不遗漏任何。如图2所示,与专门的定位模型不同,LVLMs通常预测的确认实例数量少于实际数量。因此,将召回质量纳入完成度评估中至关重要,以鼓励模型尽可能识别所有目标。如图5所示,作者遵循目标检测中召回的定义,为每个预测的完成结果设计了一个基于召回的奖励。当匹配预测实例的IoU超过预定义的阈值

时,它被视为有效预测。召回奖励是所有真实目标中有效预测的比例。

精确奖励 。与召回率的全局视角不同,精确奖励关注第三挑战中每个完成预测的实例质量。精确奖励与召回奖励协同工作:后者鼓励模型尽可能预测尽可能多的相关实例,而前者确保预测尽可能准确。为了直接激励模型预测高质量的边界框,作者将精确奖励定义为所有有效预测的平均交并比(IoU):

每个完成项

的总体奖励是所有三个奖励的总和,以全面评估基于视觉任务标准的完成情况。

3.3. 逐步规则细化策略

在定位任务中,准确预测与真实值具有高IoU的边界框在密集场景中尤为困难。这种困难可能导致同一组内不同预测的完成奖励相似,从而限制模型的优化。为了解决这个问题,作者提出了一种渐进式规则细化策略,该策略受到课程学习[4]和人类学习过程的影响,能够在训练过程中动态调整奖励计算标准,以实现持续的性能提升。如图2所示,该策略应用于召回率和精确率奖励,细化其最终值以计算优势

。它包含两个关键组成部分:差异化策略和分阶段进展策略。

差异化策略 。差异化策略侧重于增加预测与实际奖励之间的映射对比度。与之前的线性映射不同,作者惩罚召回率低且平均IoU值低的预测,而对于召回率和IoU值相对较高的预测则给予全额奖励。这种调整鼓励模型在其当前能力范围内生成高质量的响应以获得最佳奖励。作者将惩罚阈值表示为

,将全额奖励阈值表示为

,差异化策略用公式8表示。为了提高稳定性,作者将此策略应用于每个实例的精确度奖励,并直接调整单个完成的召回率奖励。

分阶段进展 。为初学者提供一个更容易达到的标准,并在他们的能力提高时逐渐增加难度,是一种常见的学习策略。作者将这一原则融入作者的设计中,以鼓励模型持续改进并防止奖励黑客攻击。训练过程分为两个阶段:初始学习和High-Level学习,基于训练步骤(STEP)。在初始阶段,作者设定相对较低的TP阈值

和奖励标准

,参考目标检测评估中的阈值设置,分别为0.5、0.5和中间值0.75。随着进展,作者通过调整阈值到其之前的上限:0.75、0.75和0.9来收紧标准。由于在目标定位任务中实现完美的边界框预测几乎是不可能的,作者将

设定略低于1。通过这些策略调整,模型可以随着时间的推移实现持续学习和改进。

  1. 实验

作者在多个目标定位任务和数据集上进行了实验,以验证Vision-R1的有效性。在本节中,作者首先介绍了Vision-R1的实现细节,包括模型配置和训练数据,详见第4.1节。接着,在第4.2节中,作者将Vision-R1与最先进的LVLM模型和基准进行了比较,展示了其在目标检测、指代表达理解以及跨领域场景定位方面的先进性能。此外,在第4.3节中,作者提供了深入的实验分析和消融研究,以检验Vision-R1设计各个方面的细节。

4.1 实施细节

模型设置 。作者将Vision-R1与多个先进的LVLMs集成,以验证VisionR1的广泛有效性。具体来说,作者基于最新的Qwen2.5-VL-7B [3] 和 Griffon-G-7B [50] 模型实现Vision-R1。Qwen2.5-VL-7B是最最新且最全面的多模态大型模型,除了其先进的VQA性能外,还展示了有竞争力的物体定位能力。相比之下,Griffon-G是第一个接近专业定位模型性能的LVLM。鉴于它们不同的定位能力,作者选择这两个模型来评估Vision-R1在不同模型熟练程度上的有效性。作为一种后训练强化学习方法,作者直接使用作者下面介绍的包含49K个样本的构建数据集对开源模型进行微调。训练使用开源的Open-R1 [15] 及其多模态变体框架 [8],采用默认配置。具体来说,作者将

设置为0.2,并以1e-6的学习率进行1个epoch的训练。对于比较方法SFT,作者使用相同的数据,并以2e-6的学习率和128的批量大小对每个模型进行1个epoch的微调。为了快速评估,作者采用VLMEvalKit [14] 和 Griffon [51]。

训练数据 。如前所述,Vision-R1不需要人工标注的偏好数据,可以直接使用带有精确答案标注的问答对进行训练。为了构建强化学习数据,作者从先前精心标注的目标定位指令数据集中仔细挑选样本。在挑选过程中,作者遵循两个关键原则:多样性和挑战性。最终,作者构建了一个包含49K个样本的强化学习数据集,其中包含30K个目标检测样本、9K个视觉定位样本和10K个指代表达理解样本,因为目标检测通常比其他两个任务更具挑战性。在每个数据类别中,作者确保大约50%的样本具有挑战性,这些样本具有更多的目标类别和实例,以及一定比例的负样本。数据集的详细说明见附录。

4.2 目标定位的主要结果

设置 。作者在广泛的目标定位基准测试集上提供了大量的实验结果,这些测试集挑战模型在多样化和复杂环境中准确检测和定位目标,展示了其先进的目标定位能力。作者纳入了多个广泛认可且具有代表性的领域数据集,涵盖了密集目标检测和真实场景定位。

COCO [28] 作为评估密集场景中多目标定位的严格且公认的基准。ODINW-13 [27] 涵盖了13个不同的真实世界场景,包含罕见的目标类别,测试模型在实际场景中应用其知识进行目标推理的能力。作者还评估了方法在具有挑战性的场景中,对域外未训练定位数据集的泛化能力。作者分别从ODINW [27] 中采用四个不重叠的子集。

域内目标定位 。表1的结果展示了Vision-R1在目标定位任务中的广泛有效性。当应用于在目标检测方面表现卓越的Griffon-G模型时,Vision-R1进一步提升了其性能,在COCO上提高了1.8,在ODINW-13上实现了平均mAP提升2.5。这显著优于ODINW-13上的最先进Qwen2.5-VL72B,并将Griffon-G-7B的性能拉近了与专业视觉模型。当与定位能力相对较弱的Qwen2.5-VL-7B模型结合时,Vision-R1带来了更加显著的提升,将COCO目标检测性能提升了8.9点,在ODINW上实现了8.7点的提升,超过了其更大的72B版本。

picture.image

与监督微调方法相比,Vision-R1在这两个模型上分别平均优于1.25和7点。值得注意的是,SFT降低了Qwen2.5-VL-7B在ODINW-13上的性能,这可能是由于在数据有限的情况下训练时出现过拟合。这些结果突显了Vision-R1在增强不同模型和场景下LVLMs目标定位能力方面的优势,尤其是对较弱模型有显著益处。

域外目标定位 。如设置中所述,作者为域外定位评估从ODINW中纳入了四个不重叠的数据集。与传统域外检测设置不同,作者放宽了训练期间图像和目标类别都必须完全未知的约束。鉴于LVLMs的大规模训练数据,严格确保完全新颖性具有挑战性,因此作者在此定义了一个实验设置,其中在训练后阶段目标类别或场景之一缺失,以评估泛化能力。

picture.image

如表2所示,Vision-R1在集成Griffon-G-7B和Qwen2.5-VL-7B模型时提升了性能,分别实现了7.1和4.8的平均增益。值得注意的是,它在BoggleBoards和MountainDewCommercial上超过了专家模型,进一步证明了其超越特定数据集的强大泛化能力。虽然SFT在涉及 Heatmap 等挑战场景中表现具有竞争力,在这些场景中LVLMs最初表现不佳,但在更常见的场景中与 Baseline 模型相比,它表现出显著的性能下降。这表明SFT缺乏鲁棒的泛化能力,而Vision-R1有效地提升了域内和域外性能。

4.3 消融研究

在本节中,作者提供了全面的实验来验证Vision-R1的设计,突出了作者的主要贡献。除非另有说明,作者使用从构建的数据集中提取的检测数据进行消融实验,这些数据可以视为定位任务的通用形式,使实验更具代表性和广泛适用性。

不同匹配方法讨论 。如第3.2节所述,先验框匹配通常基于匈牙利匹配,通过考虑框准确性和类别预测分数来最小化损失。然而,与检测专家模型不同,LVLMs不依赖于具有概率输出的预定义类别集,而是直接产生确定性类别标签。基于此,作者通过仅考虑框准确性或结合框准确性和类别正确性来简化分配过程。

picture.image

如表3所示,两种方法在性能上表现出有限的显著差异,仅基于框的匹配方法表现略好。作者将其归因于LVLMs强大的分类能力,在预测少量目标时很少误分类目标。仅基于边界框的匹配有助于模型召回更多目标,通过使预测更准确,在训练后略微提升性能。

奖励函数设计有效性 。为了全面评估作者的奖励函数设计,作者首先进行了一项消融研究,以比较三个奖励组件的效果。其中,双重格式奖励主要作为对模型未能遵循预期格式或内容模板的一些完成的反馈。因此,作者将消融比较集中在精确度奖励和召回率奖励上。当排除召回率奖励时,作者引入了一个二元预测计数奖励,仅在预测的实例数量与真实值匹配时给予奖励。这防止了模型持续生成冗余输出。

picture.image

如表4所示,当仅考虑精确度时,模型产生了更高质量的边界框,导致所有AP Level 均有所提升。然而,召回的实例数量减少了。引入召回率奖励后,与 Baseline 相比,模型的召回率提高了2%,整体mAP进一步提升了0.6,这表明作者整合召回率和精确度的设计导致了更有效的性能。

渐进式规则精炼的有效性 。渐进式规则精炼策略作为一种促进模型持续改进的机制。在作者的实验中,作者根据目标检测评估标准设定并固定了

,同时调整STEP以确定High-Level阶段的最优过渡点。为了检验不同配置的影响,作者对Griffon-G-7B模型进行了比较研究,评估了将STEP设置为1/3、1/2和1的三种设置,并在COCO数据集上测试了性能。

picture.image

如表5所示,在

时调整模型获得了最佳性能,而保持

(即无调整)的结果低于 Baseline 。作者的分析表明,对于初始具有强大定位能力的Griffon-G模型,在训练过程中召回率有更大的影响。因此,它实现了56.7的

。然而,没有渐进式奖励调整,模型生成了大量低质量的边界框,导致AP指标中的误报增加,最终使

略低于 Baseline 。当作者添加作者的策略时,它将抑制这些低质量的框,以追求更多高质量的框。而对于相对较弱的Qwen2.5-VL-7B模型,情况则不同,

产生了最佳结果,作者将在附录中详细说明。这些整体结果验证了作者的渐进式规则精炼策略的重要性和有效性,证明了适当调整训练过程可以带来有意义的性能提升。

对通用问答的影响 。Vision-R1将LVLMs与人类自然倾向于用于提升其目标定位能力的主观标注相一致。然而,保持LVLMs强大的通用问答能力也受到高度青睐。作者在表1和表2中评估了与Vision-R1集成的LVLMs在各种通用视觉问答(VQA)上的表现,包括知识(AI2D [22])、常识(GQA [19])、图表(ChartQA [34])和跨学科(SEED [24])领域。

picture.image

如表6所示,使用VisionR1进行训练导致通用问答性能的波动最小,保持了与 Baseline 模型相似的性能,而基于微调(SFT)的方法则表现出显著的下降。这表明Vision-R1在显著提升目标定位能力的同时,并未严重损害通用问答能力。此外,目标定位能力的提升还导致基于目标感知的常识任务(如GQA)的性能提升,进一步展示了Vision-R1的优势。作者还在附录中提供了Qwen2.5-VL-7B的实验结果,进一步证明了Vision-R1的有效性。

  1. 结论

本文介绍了Vision-R1,一种针对LVLMs的新型强化学习算法,该算法结合了视觉标准驱动的奖励函数和渐进式规则细化策略,以增强其目标定位能力。通过设计此算法,作者提出了一种无需人工标注的方法,以利用大量包含主观和明确响应的指令数据,从而提升LVLMs的定位性能。

在多种场景下,对各种基准的全面评估展示了Vision-R1的一般化有效性,鼓励更多研究为LVLMs配备先进的精确目标定位能力,以支持复杂任务和实际应用。

参考

[1]. Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

picture.image

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称)

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论