RL颠覆视觉传统 | VisionReasoner 首提统一框架，检测/分割/计数3类任务超越YOLO-World等专用模型 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版

本文主要解决了什么问题

1. 现有视觉语言模型（LVLMs）在处理多样化视觉感知任务时依赖任务特定模块和奖励函数，导致可扩展性和泛化能力受限
1. 视觉感知任务（检测、分割、计数）缺乏统一框架，现有方法需分别设计任务专属流程
1. 多目标认知与结构化推理能力不足，难以在共享模型中实现跨任务协同优化

本文的核心创新是什么

1. 提出VisionReasoner统一框架，首次将检测、分割、计数三类任务整合到共享架构中
1. 设计多目标认知学习策略：

• 基于匈牙利算法的高效多目标匹配机制（批量计算+最优分配）
• 从原始Mask标注中自动提取边界框和中心点的多目标数据构建方法

1. 构建复合奖励函数体系：

• 格式奖励（思考过程约束、非重复推理惩罚）
• 准确率奖励（IoU/L1距离联合优化，多目标匹配最大化）

1. 开发结构化推理生成机制，通过可解释的中间过程提升任务泛化性

结果相较于以前的方法有哪些提升

1. 性能突破：

• COCO检测任务相对Qwen2.5VL提升29.1%
• ReasonSeg分割任务提升22.1%
• CountBench计数任务提升15.3%

1. 效率优化：

• 多目标匹配速度提升6×10³⁵倍（对比暴力匹配算法）
• 仅使用7,000训练样本即达到SOTA性能

1. 泛化能力：

• 零样本迁移支持10种视觉任务（覆盖66,023测试样本）
• VQA任务未训练情况下仍超越基线模型

局限性

1. 数据规模瓶颈：训练集仅包含7,000样本，限制了模型对复杂场景的建模能力
1. 定位精度局限：在COCO等检测任务中仍落后于部分专用模型（如GroundingDINO）
1. 推理模式约束：过度采样会导致泛化能力下降，需平衡训练分布
1. 复杂交互限制：对需要深度物理推理或跨模态逻辑推导的任务处理效果待提升

深入阅读版

导读

大型视觉语言模型展现出处理多样化视觉感知任务的内生能力。在本文中介绍了VisionReasoner，一个能够在共享模型内推理和解决多种视觉感知任务的统一框架。具体而言，通过设计新颖的多目标认知学习策略和系统化的任务重构，VisionReasoner增强了其推理能力以分析视觉输入，并在统一框架内处理多样化的感知任务。该模型在生成结构化推理过程后，才会根据用户 Query 提供所需的输出。

为了严格评估统一的视觉感知能力，作者在涵盖检测、分割和计数3个关键领域的10个多样化任务上评估了VisionReasoner。实验结果表明，作为统一模型，VisionReasoner取得了优异的性能，在COCO（检测）上相较于Qwen2.5VL提升了29.1%，在ReasonSeg（分割）上提升了22.1%，在CountBench（计数）上提升了15.3%。

1 引言

大型视觉语言模型（LVLMs）[1, 44, 7, 31]的最新进展在视觉对话方面展现了卓越的能力。随着该领域的不断发展，研究行人正越来越多地将LVLMs应用于更广泛的视觉感知任务，例如视觉定位[35]和推理分割[12, 24]，通常包含特定任务的模块或技术。

受大语言模型（LLMs）涌现的测试时推理能力[8, 30]的启发，近期研究探索了将强化学习（RL）与视觉语言模型（LVLMs）[43, 25, 24, 50]相结合。VisualRFT和Seg-Zero等研究证明了RL能够增强视觉感知任务的推理能力。然而，这些方法通常以任务特定的方式使用RL，依赖于不同的任务 Reward 函数，这限制了它们的可扩展性和泛化能力。

通过对多种视觉感知任务的分析，作者观察到许多任务可以归为三种基本类型：

• 检测（例如，目标检测、视觉定位）
• 分割（例如，指代表达分割、推理分割）
• 计数（例如，目标计数）

值得注意的是，作者的分析揭示这三种任务类型具有共同的结构，作为多目标认知问题，表明它们可以通过统一的框架来解决。

基于这一见解，作者提出了VisionReasoner，一个通过共享架构处理多样化视觉感知任务的统一框架。该框架的核心能力，包括High-Level推理和多目标认知，通过精心设计的 Reward 机制得以实现。格式 Reward 包括促进结构化推理的思考 Reward 和防止冗余推理模式的非重复 Reward 。准确度 Reward 包括多目标IoU Reward 和用于精确定位的L1 Reward ，以加强多目标认知。与作者之前使用交叉熵损失的方法，VisionReasoner要求最优的预测到真实标签的匹配。作者通过实现一个结合批量计算和匈牙利算法的高效匹配流程来解决这一挑战，显著提高了计算效率，同时保持了匹配准确度。

为了全面评估模型性能，作者在涵盖检测、分割和计数三种基本类型的10项不同任务上对VisionReasoner进行了广泛的实验。值得注意的是，尽管仅在7,000个样本上进行训练，VisionReasoner-7B模型仍取得了优异的性能，展示了强大的推理能力和有效的多任务泛化能力，如图1 (a)-(b)所示。实验结果表明，与 Baseline 模型相比，VisionReasoner取得了显著提升，在COCO-val（检测）上相对提升了29.1%，在ReasonSeg-test（分割）上相对提升了22.1%，在CountBench-test（计数）上相对提升了15.3%，验证了作者统一方法的有效性。此外，VisionReasoner展现出与最先进模型相当的可视化问答能力，如图1 (c)所示。

本文的贡献总结如下：

• 作者提出了VisionReasoner，一个用于视觉感知任务的统一框架。通过精心设计的 Reward 机制和训练策略，VisionReasoner具备强大的多任务能力，能够在共享模型中处理多种视觉感知任务。
• 实验结果表明，VisionReasoner在单一统一框架下，在10个多样化的视觉感知任务中均取得了优异性能，显著优于 Baseline 模型。
• 通过广泛的消融研究，作者验证了设计的有效性，并就强化学习在大型视觉语言模型中的应用提供了关键见解。

2 相关工作

2.1 大型视觉语言模型

在LLaVA对大型视觉语言模型进行视觉指令微调的开创性工作之后，后续研究 [44, 28, 31, 1, 16, 51] 采用了这一范式进行视觉语言对话。除了视觉对话任务之外，视觉语言模型已被扩展到多种视觉应用中，包括视觉定位和推理分割。值得注意的是，最近的GPT-4.1 在多模态信息处理和视觉推理方面展现了最先进的性能。尽管这些模型在特定任务上进行了评估，但它们在统一的视觉感知框架下的性能尚未得到系统性的评估。

2.2 大型模型中的强化学习

在大语言模型（LLMs）领域，多种强化学习（RL）算法被用于提升模型性能，例如人类反馈强化学习（RLHF）、直接偏好优化（DPO）和近端策略优化（PPO）。近期使用GRPO训练的DeepSeek R1展现了卓越的测试时扩展能力，显著提升了推理能力和整体性能。

基于这些进展，研究行人尝试将这些RL技术应用于视觉语言模型（LVLMs）。值得关注的努力包括Visual-RFT、EasyR1和Seg-Zero[24]，这些模型均表现出强大的推理能力，并取得了令人印象深刻的性能表现。

3 方法

为开发一个能够解决多样化视觉任务的统一视觉感知模型：

• 首先识别并分析了具有代表性的视觉感知任务，然后将它们的输入和输出重新表述为三类基本任务类别（第3.1节）。
• 接下来，详细阐述了VisionReasoner模型的架构（第3.2节）。此外，介绍了用于训练VisionReasoner的 Reward 函数（第3.3节）。
• 最后，详细说明了新颖的多目标认知训练策略（第3.4节）。

3.1 任务重述与分类

作者对Papers With Code中列出的视觉任务进行的分析表明，大约有50种任务类型（约占500种已分类视觉任务类型的10%）可以被归为三种基本任务类型。这表明，一个能够处理这些基本任务类型的单一模型有可能解决现有10%的视觉任务。更多细节请参见补充材料。

检测。给定图像I和文本 Query

，检测任务类型旨在生成一组边界框

以定位感兴趣的目标。此类任务需要多目标认知能力。该类别包括视觉定位[48, 11]和目标检测[17]等任务。

分割。给定图像I和文本 Query

，分割任务类型旨在生成一组二值分割 Mask

，以识别感兴趣区域。作者通过检测-分割范式来处理此类任务。该类别包括指代表达分割[11, 48]和推理分割[12, 46]等任务。

计数。给定图像I和文本 Query

，计数任务类型旨在估计 Query 指定的目标目标数量。作者通过检测后计数范式来处理此类任务。该类别包括目标计数[5, 33]等任务。

3.2 视觉推理器模型

VisionReasoner

模型包含一个推理模块，该模块处理图像并定位目标目标，以及一个分割模块，在需要时生成分割 Mask 。整个架构如图2（a）所示。

作者基于Seg-Zero实现VisionReasoner，因为它在单目标分割任务中表现出色。为了扩大其适用范围，为其增加了多目标认知能力。这一关键增强使VisionReasoner能够处理三种基本任务类型：检测、分割、计数。

具体而言，给定图像I和文本 Query

，VisionReasoner

会生成一个可解释的推理过程，然后生成与

对应的预期输出。模型输出以结构化格式

表示，其中

表示边界框（bbox），

表示目标目标的二值 Mask 。请注意，

是由分割模块使用

和中心点

作为 Prompt 生成的。这个过程可以表示为：

( { Bᵢ, Mᵢ } ) \_{i=1}^{N} = F( I, T ).

在推理过程中，用户提供输入图像

和文本 Prompt

，并定义指定的任务类型

检测, 分割, 计数

。系统随后按照以下方式生成预期输出：

输

出

通过这种方式，VisionReasoner能够在共享框架内统一处理多种感知任务。

3.3 Reward 函数

Reward 函数包含两种类型：

• 格式 Reward
• 准确率 Reward

遵循Seg-Zero，使用目标目标边界框和中心点来计算 Reward ，而不是二值 Mask 。这些 Reward 通过强化结构正确性和多目标识别性能，共同指导优化过程。

思考格式 Reward 。该 Reward 约束模型在和标签之间输出思考过程，并在和标签之间输出最终答案。

答案格式 Reward 。作者使用边界框

和点

作为答案，因为它具有更好的训练效率。因此，这种 Reward 会限制模型输出答案在

' 点

非重复 Reward 。为了避免重复模式，作者将推理过程拆分为单个句子，并优先考虑具有独特或非重复思维过程的句子。

Bboxes IoU Reward 。给定一组

个真实边界框和

个预测边界框，此 Reward 计算它们最优的一对一匹配IoU分数。对于每个IoU大于0.5的匹配， Reward 为max{N,K}。

Bboxes L1 Reward 。给定一组

个真实边界框和

个预测边界框，此 Reward 计算它们一对一匹配的L1距离。对于每个L1距离低于10像素的匹配， Reward 为max{N, K}。

L1距离 Reward 点 。给定一组

个真实点和

个预测点，该 Reward 计算它们的一对一匹配L1距离。对于每个低于30像素阈值的L1距离，作者将 Reward 增加max{N,K}

3.4 多目标认知

多目标数据准备 。作者从现有分割数据集中的原始 Mask 标注中直接导出边界框和点（例如

、LISA++ ）。具体而言，对于给定目标的二值 Mask ，作者通过提取最左侧、最顶部、最右侧和最底部的像素坐标来确定其边界框。此外，作者计算 Mask 的中心点坐标。

与 Seg-Zero 的单目标公式不同，作者通过以下方式处理每张图像中的多个目标：

• 使用一个中心点
• 使用连词 "and" 将所有文本描述连接起来
• 将所有相关的边界框和中心点按图像合并到列表中

多目标匹配 。训练VisionReasoner的一个关键挑战是其多目标匹配机制。VisionReasoner通过批量计算和匈牙利算法解决这一问题，该算法能够最优地解决边界框IoU Reward 、边界框L1 Reward 和点L1 Reward 的许多对许多匹配问题。如图2(b)所示，对于每个观测值

，其中包含边界框列表

和点

，作者通过批量计算，使用真实边界框

和点

计算其 Reward 分数。然后作者使用匈牙利算法计算最优的一对一匹配。这些设计保证了预测与真实标注之间的最优分配，同时实现了高计算效率。

4 实验

4.1 评估基准

作者使用10个基准来评估模型在通用视觉感知任务上的性能。作者的评估包括三种基本任务类型：检测、分割和计数。

具体来说，使用COCO 和 Ref

进行检测评估；Re

和 ReasonSeg 进行分割评估；PixMo-Count 和 CountBench 进行计数评估。

• 标注准备 。为确保所有评估任务的一致性，作者通过将所有样本转换为统一的跨模态对话格式并移除潜在的信息泄露来标准化评估数据。此预处理过程包括：将COCO中的数值类别标签转换为文本描述；从CountBench的文本描述中移除显式的数值引用；在所有数据集上应用一致的格式以保持评估公平性。
• 评估指标 。在COCO数据集上进行目标检测时，采用通过COCO API计算的标准AP指标。对于在

数据集上的指代目标定位任务，使用bbox AP，该指标在IoU阈值为0.5时衡量检测精度。对于在

和ReasonSeg数据集上的目标分割任务，使用gIoU，其计算方式为所有分割 Mask 的IoU均值。对于计数任务，作者使用计数准确率作为评估指标。

• 统计与可视化 。在表1中展示了统计数据。对于检测和分割任务，作者报告了有效实例的数量。对于计数任务，作者提供了测试样本的总数。作者的评估总共包含66,023个测试样本，涵盖三种基本视觉感知任务类型和10个具体任务。作者在图3中展示了部分示例。

4.2 实验设置

训练数据 。训练数据来源于四个数据集：LVIS、RefCOCOg、gRefCOCO 和 LISA++，遵循第3.4节中概述的策略。这些数据集提供了多样化的文本标注：LVIS 使用简单的类别名称作为文本，RefCOCOg 包含指代表达式，其中每个文本对应单个目标，gRefCOCO 包含可能指向多个目标的表述，而 LISA++ 具有需要推理的文本。这些数据集共同构成了多样化的文本类型，总共有大约7,000个训练样本。

强化学习 。使用GRPO算法训练VisionReasoner。在训练过程中，策略模型为每个输入生成多个响应样本。这些样本由 Reward 函数进行评估，策略模型通过KL散度正则化来优化其参数，以在保持与参考模型接近的同时最大化 Reward 。

实现细节 。使用与Seg-Zero类似的设置初始化VisionReasoner，采用批处理大小为16和学习率为1e-6。整个训练过程耗时6小时。

4.3 主要结果

作者将结果与LVLMs和特定任务模型在三种基本任务类型中的每一种进行了比较。值得注意的是，VisionReasoner能够在同一模型中处理不同任务，并以零样本方式进行评估。

检测。将VisionReasoner与几种最先进的LVLMs进行比较，包括Shikra、Qwen2-VL-7B和Qwen2.5VL-7B。对于特定任务的模型，将其与VGTR、TransVG、RefTR、MDETR、OWL-ViT、YOLO-World、GroundingDINO、DQ-DETR、GLIP进行评估。由于LVLMs不输出置信度分数，作者使用边界框面积与图像总面积的比值（bbox_area / image_area）来近似它，以实现与COCOAPI的兼容性。然而，这种粗略的近似会导致AP分数被低估。

如表2所示，VisionReasoner在LVLMs中实现了优异的性能。虽然VisionReasoner在COCO数据集上与一些特定任务的 Baseline 模型存在性能差距，但由于其优越的泛化能力，它仍然保持着具有竞争力的优势。

分割。作者评估VisionReasoner与最先进的LVLMs，包括LISA、GLaMM、PixelLM、Seg-Zero、Qwen2-VL和Qwen2.5VL。对于这些LVLMs，首先提取边界框预测，随后将它们发送到SAM2以生成分割 Mask 。作者还比较了特定任务的模型，包括LAVT和ReLA。对于未报告gIoU的模型，作者报告其cIoU作为替代。如表3所示，VisionReasoner实现了最先进的性能，在通用LVLMs和特定任务方法方面均表现优异。

计数。作者评估VisionReasoner与最先进的LVLMs，包括LLaVA-OneVision、Qwen2-VL-7B和Qwen2.5VL-7B。作者以先检测后计数的方式评估这些LVLMs。如表3所示，VisionReasoner达到了最先进的性能。

4.4 消融实验

作者进行了消融研究，以评估作者的设计的有效性，并验证VisionReasoner的最佳超参数选择和训练配方设计。作者还对VisionReasoner在VQA任务上进行了评估。

推理长度 。如表4所示，分析表明，模型的推理长度会根据文本 Query 的复杂度动态调整。具体而言，对于COCO中的简单类别名称和RefCOCOg中的短句，推理过程相对简洁。相比之下，ReasonSeg中的复杂推理密集型 Query 需要更长的推理过程。

多目标匹配 。作者定量评估了多目标匹配的两个关键设计选择——匈牙利算法和批量计算的效率。在一个包含30个目标的场景中，表5表明随机排列和简单匹配需要超过

秒（即

年）才能完成，而作者的优化方法仅需

秒——速度提升了

倍。

非重复 Reward 。图4（a）展示了使用与非使用非重复 Reward 的性能比较。模型仅使用来自

的2,000个样本进行训练。使用非重复 Reward 进行训练的模型取得了更好的结果。此外，未使用非重复 Reward 的模型倾向于生成更长的推理过程，如图4（b）所示，并且在推理过程中作者观察到重复的推理模式。

不同的训练数据 。作者对不同的训练数据集进行了消融研究，结果如表6所示。这四个数据集提供了多样化的文本标注：LVIS使用简单的类别名称，

包含单目标指代表达式，gRefCOCO包括可能指向多个目标的表达式，而LISA++ 特征需要推理的文本。作者的实验表明，这些数据集始终提升了模型性能。

视觉问答能力 。作者还比较了VisionReasoner的VQA能力与Qwen2VL以及 Baseline 模型Qwen2.5VL。如表7所示，即使没有在VQA数据上进行训练，VisionReasoner也实现了轻微的性能提升。

采样数量 。图5展示了不同采样数量下的性能比较。所有模型均使用全部7,000个训练样本进行训练。作者观察到随着采样数量的增加，性能先出现提升，随后出现显著下降，这表明过度采样可能导致模型对训练分布过拟合，从而降低泛化能力。

推理。图6比较了具有和不具有推理能力的模型的性能。作者通过移除思考 Reward 来实现无推理。模型使用全部7,000个训练样本进行训练。作者的结果表明，两种方法都优于 Baseline 。推理增强模型在复杂的推理分割数据上表现出显著提升。

4.5 定性结果

在图7中展示了部分结果。值得注意的是，VisionReasoner在一个共享模型中处理多个视觉感知任务。VisionReasoner在生成预期输出的同时，为所有任务生成了全面的推理过程。作者发现VisionReasoner能够有效区分相似物体，如图像定位和指代表达分割所示。VisionReasoner还能准确定位多个目标，如图像检测和计数所示。作者还观察到推理过程的长度会动态适应：更复杂的图像 Query 对会引出详细的推理，而简单的输入则产生简洁的解释。

参考

[1]. VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image