点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
视觉目标跟踪任务的灵活性与泛化能力不足 :传统方法(如相关滤波、双流网络、单流ViT)依赖大量监督训练,且仅适用于单一跟踪任务,缺乏对多样化输入(如文本描述)的支持。
多模态大语言模型(MLLMs)在视觉跟踪任务中的直接应用效果不佳 :尽管Qwen2.5-VL等开源MLLM具备多种下游任务能力,但其在图像对之间的模板匹配任务中表现较差。
如何在不破坏原始模型通用能力的前提下增强MLLM的跟踪能力 :传统的监督微调(SFT)存在灾难性遗忘风险,难以满足细粒度定位需求。
本文的核心创新
首次探索将强化学习(RL)应用于MLLM以提升视觉跟踪性能 :采用GRPO(Group Relative Policy Optimization)算法,结合基于规则的Reward函数进行参数更新,避免了对评价模型的依赖。
设计针对视觉跟踪任务的多维度 Reward 函数 :包括格式 Reward、答案 Reward(基于GIoU)、长度 Reward,有效引导模型输出符合要求的边界框。
实现支持灵活初始化的R1-Track模型 :既可通过边界框初始化,也可通过文本描述初始化,保留了原始MLLM的基础能力。
构建专用数据集 R1-Track-5k 和 R1-Track-100k :用于训练和评估,支持不同分辨率和尺度因子,为后续研究提供基础资源。
结果相较于以前的方法有哪些提升
在GOT-10k基准上取得显著性能 :R1-Track在AO(平均重叠)指标上达到0.68,远高于原始Qwen2.5-VL模型。
使用更少的数据获得可比甚至更优的性能 :相比传统专家模型通常需要50倍以上的训练数据,R1-Track仅使用10万对图像即可达到相近性能。
微调过程中保护原始模型能力 :通过GRPO优化策略,在提升跟踪能力的同时保留了原始Qwen2.5-VL的通用多模态处理能力。
支持多样化的初始化方式 :不仅支持标准边界框初始化,还可通过自然语言描述获取初始目标位置,拓展了应用场景。
局限性总结
性能仍落后于最先进的专门跟踪器 :虽然R1-Track在GOT-10k上表现良好,但与当前最先进的跟踪方法仍有差距。
模型规模限制推理能力 :实验发现,3B参数的小型模型在“思考”模式下表现不如直接输出模式,可能受限于容量和冷启动数据质量。
缺乏时间建模能力 :当前模型基于单帧输入,未引入视频序列建模机制,限制了对目标运动轨迹的预测能力。
训练数据覆盖范围有限 :目前主要基于GOT-10k构建数据集,尚未扩展至多模态(如RGB-T、RGB-D)或复杂场景。
导读
视觉单目标跟踪旨在仅根据第一帧中的初始状态,在后续视频帧中持续定位和估计目标的大小。这项任务传统上被框定为模板匹配问题,经历了包括相关滤波器、双流网络和单流网络等主要阶段,并取得了显著进展。然而,这些方法通常需要显式的分类和回归建模,依赖于大规模数据集的监督训练,并且仅限于跟踪这一单一任务,缺乏灵活性。近年来,多模态大语言模型(MLLMs)发展迅速。开源模型Qwen2.5-VL作为具有强大基础能力的旗舰MLLMs,在基础任务中表现出色。这激发了将此类模型直接应用于视觉跟踪的兴趣。然而,实验表明Qwen2.5-VL在图像对之间的模板匹配(即跟踪任务)方面存在困难。受deepseek-R1的启发,作者使用基于规则的 Reward 函数,在小型数据集上采用组相对策略优化(GRPO)强化学习方法对Qwen2.5-VL进行微调。得到的模型R1-Track在GOT-10k基准测试中取得了显著性能。R1-Track支持通过边界框或文本描述进行灵活初始化,同时保留了大部分原始模型的一般能力。作者还进一步讨论了R1-Track的潜在改进方案。这份粗略的技术报告总结了截至2025年5月的研究成果。
1 引言
视觉目标跟踪是计算机视觉和机器人学中的一个基本任务,其目标是仅根据目标在第一帧中的初始状态,在视频帧中连续估计目标的位置和尺度。大多数现有的跟踪方法主要依赖于模板匹配框架,这些方法从初始帧中提取目标区域作为模板,并在后续帧的搜索区域内执行相似性比较。该领域经历了三个主要范式的发展:相关滤波[1, 2]、双流Siamese网络[3, 4]和单流ViT架构[5]。值得注意的是,该领域的基于深度学习的方法通常需要在大规模标注数据集上进行监督训练,以进行显式的分类和回归建模。然而,这些模型通常包含启发式设计选择,这限制了它们的灵活性,并阻碍了它们对多样化任务的泛化能力。
自从GPT-3发布以来[6],大语言模型(LLMs)受到了广泛关注并迅速发展。随着这一进展,多模态大语言模型(MLLMs)也取得了显著进步,催生了如LLaVA[7]、InternVL[8]和Qwen2.5-VL[9]等高性能开源模型。这些模型通常能够处理多种模态——包括文本、图像和视频——并能有效执行多种下游任务,如目标检测、OCR、数学计算等。
这自然地引出了以下问题: MLLMs能否直接应用于视觉目标跟踪任务?
遗憾的是,作者的实验表明Qwen2.5-VL在目标跟踪方面并不有效。具体来说,即使经过大量的 Prompt 工程尝试,原生Qwen2.5-VL模型仍然无法在图像对之间重新定位指定目标。
一种直接的方法是对多语言大语言模型(MLLMs)进行监督微调(SFT),尽管这可能不是最优的。首先,SFT存在灾难性遗忘的风险,这会削弱模型的一般能力。其次,SFT需要对每个坐标点(例如
)进行硬监督,这使得它在细粒度定位任务中不太适用。近年来,在大语言模型(LLMs)领域中强化学习(RL)的应用取得了显著进展。O1 [10]表明,测试时缩放策略的实施在增强LLMs的复杂推理能力方面显示出巨大潜力。随后,DeepSeek-R1-Zero [11]揭示,即使没有广泛的SFT,通过策略性地应用基于规则的 Reward 系统进行 Reward 建模,也可以有效地利用RL来解锁LLMs的卓越推理和认知能力。
因此,作者也采用强化学习框架来微调多模态语言模型(MLLMs),使用GIoU指标作为软 Reward 函数来指导参数更新。作者探索了“思考”和“不思考”两种训练策略。与Deepseek-R1保持一致,作者实现了群体相对策略优化(GRPO)[12]作为强化学习优化算法,将得到的模型命名为R1-Track。
R1-Track在视觉目标跟踪任务中取得了卓越的性能,在GOT10k [13]基准测试上获得了平均重叠(AO)分数0.68。
作者的贡献总结如下:
- • 作者研究了直接将MLLMs应用于视觉目标跟踪任务,通过从GOT10k训练集中采样来构建专门的数据库;
- • 作者实现了SFT和RL策略,用于微调MLLM以获取跟踪能力,同时支持灵活的初始化协议;
- • 作者进行了全面的实验分析,并在讨论未来研究方向的同时,公开了作者的代码、数据集和模型权重。
2 数据
在此,作者介绍了用于R1-Track训练和测试的数据集。训练数据包括从R1-Track-5k、R1-Track-100k和冷启动数据中采样。测试数据是GOT-10k [13]官方基准数据集。
R1-Track-5k. R1-Track-
是一个为初步实验验证设计的简单数据集,包含5,000对模板搜索图像。作者从GOT-10k训练集中随机选择了5,000个视频,并从每个视频中提取两个随机帧。以每个帧中的目标物体为中心,作者进行了随机裁剪,并将裁剪后的区域调整为336×336像素。需要注意的是,R1-Track-5k有一个显著的限制:所有调整大小后的图像中的目标物体都被强制调整为1:1的宽高比。
图1展示了R1-Track-5k的可视化结果。在“思考”模式下, Prompt 词需要满足额外的格式要求,而“不思考”模式下的 Prompt 词则没有这一要求。
R1-Track-100k是一个更大规模的数据库,包含100,000对模板搜索图像,涵盖了GOT-10k训练数据集中的所有视频。它支持多种输入分辨率,包括112×112、224×224、336×336和448×448。在采样过程中,作者将搜索区域尺度因子设置为2-8,中心偏移因子设置为0-0.2,帧间隔从1到视频总帧数。任务 Prompt 更新为:
-
- 分析并识别由边界框 在 <image_
中 Token 的目标目标。
-
- 将此目标重新定位在 <image_
.3. 返回目标在<image_
中的[x_min, y_min, x_max, y_max]坐标。
格式 Prompt 与R1-Track-5k保持一致。
冷启动数据。SFT和RL微调过程使用相同的数据库集,差异仅存在于数据组装格式上。
在进行SFT或RL之前,作者对基础模型进行了简单的冷启动,这一过程也是通过SFT实现的。冷启动数据集包含100个“不思考”风格的数据点,仅有10个“思考”风格的数据点,旨在使模型具备基本的跟踪能力并加速训练过程。所有后续步骤都是基于冷启动模型进行进一步微调完成的。换句话说,训练工作流程遵循“基础模型
冷启动
”的路径。
3 方法论
作者首先简要回顾了群体相对策略优化(GRPO)[12]。然后,作者展示了如何设计GRPO的跟踪 Reward 以增强多语言大型模型(MLLMs)。最后,介绍了R1-Track跟踪器的架构和实现细节。
3.1 相对策略优化
相对策略优化(PPO)[14]在强化学习中的变体是组相对策略优化(GRPO)[12]。通过直接比较候选响应的组,GRPO消除了对评价模型的需求,并显著降低了训练资源。给定输入
问题
,GRPO首先通过策略采样生成
个不同的候选回复
。MLLM作为 Reward 函数来获取相应的分数
。
GRPO 计算它们的均值和标准差以进行归一化,并确定这些响应的质量:
其中
代表第
个答案的相对质量。GRPO 鼓励模型在组内优先选择得分较高的答案。最终的训练目标还通过添加KL散度项
来考虑防止优化策略
与基础MLLM(步骤0)参数
偏差过大。
其中
是正则化系数,在优化过程中防止过度偏离参考策略。
R1-Track的训练框架采用EasyR1[15],使用类似于DAPO[16]的token级策略梯度Loss。
3.2 追踪 Reward
作者探讨了如何使用GRPO来提升MLLM在视觉目标跟踪中的性能。整体 Reward 由三个部分组成:格式 Reward 、答案 Reward 和长度 Reward 。而 Reward 函数的设计会根据模型是否包含推理机制而略有不同。
总
体
答
案
格
式
长
度
格式化 Reward 。为了使模型能够以作者期望的格式输出响应。“无思考”模式下,作者期望模型直接输出标准边界框坐标,表示为
。相比之下,“思考”模式下,模型应生成以下格式的输出:
。作者使用正则表达式匹配来确定模型是否遵循作者指定的格式:
答案 Reward 与大多数跟踪方法一致,作者使用GIoU [17]来测量预测边界框与真实边界框之间的重叠度。答案 Reward 是一个以GIoU为自变量的分段函数。
长度 Reward 在“思考”模式下,作者引入了一个额外的长度 Reward 来防止过长或过短的回复。其定义如下:
图片
图2:R1-Track的整体框架
3.3 R1-Track
R1-Track的整体框架如图2所示。
在考虑性能和速度的情况下,作者选择了轻量级的Qwen2.5-VL-3B-Instruct作为R1-Track微调的基础模型。首先,使用相对较低的学习率在冷启动数据上对模型进行微调。随后,进行更精细的SFT或RL微调。值得注意的是,联合微调视觉编码器和LLM可以显著提高性能。更详细的参数设置可以在作者提供的代码仓库中找到。
在推理过程中,作者推荐使用vLLM [18] 部署服务,并按需调用以跟踪任务。遵循传统跟踪器的单次原则,R1-Track 假设目标在第一帧中作为边界框提供。基于此初始输入,裁剪并缓存一个模板。然后,模型通过图像理解、推理和定位逐帧进行跟踪。在整个过程中,模板保持固定,且不应用任何目标重新定位策略。
当第一帧中仅提供了目标的文本描述时,R1-Track首先可以通过问答机制获取相应的边界框,然后按照上述描述的相同步骤继续进行跟踪任务。作者为这种情况设置了 Prompt :
请以JSON格式返回{text_description}的坐标。
4 实验
作者在GOT-10k基准上进行了评估。为了遵守其测试协议,作者所有的训练数据均仅来自GOT-10k训练集。基于所使用的数据集、训练算法以及是否启用了“思考”模式,作者共开发了六个模型,并分别评估了它们的性能,如表1所示。值得注意的是,在推理过程中,模板和搜索图像在输入前均被调整至
像素。
被输入到R1-Track中,同时输入 Prompt 。有关跟踪结果的视频演示可在 https://www.youtube.com/watch?v
jJUT1lQHYEE 查看
图片
表1:GOT-10k上的结果。*符号表示这些跟踪方法的训练数据量通常比R1-Track-100k多50倍以上。
如表1所示,原始的Qwen2.5-VL模型在跟踪任务上的表现不佳。然而,通过SFT仅微调5k个低质量样本即可显著提升性能。当扩大训练数据规模时,GOT-10k基准测试中的AO分数额外提升了12%。结果还显示,使用GRPO和基于规则的 Reward 函数微调MLLM比SFT能获得更好的性能。
有趣的是,作者发现让3B基础模型直接输出结果,而不是遵循格式,会导致在GOT-10k上的得分更高。这种现象的潜在原因包括模型容量不足、冷启动数据有限或质量低下,或推理模型不适合跟踪任务。
此外,作者观察到R1-Track在仅使用显著更少微调数据的情况下,实现了与其他在远大数据集上训练的专家追踪器相当的性能。
5 结论与讨论
在这项工作中,作者探索了通过微调直接应用MLLMs进行视觉目标跟踪。虽然SFT和RL都是有效的,但使用GRPO和基于规则的 Reward 函数进行训练在跟踪性能上显示出更大的改进,并且对原始模型造成的损害较小。尽管R1-Track在GOT-10k基准测试中表现良好,但它仍然落后于最先进的专家模型。然而,作者的研究结果表明,未来的工作可能不需要训练专门的专家跟踪器;相反,在MLLMs的预训练或后训练阶段加入与跟踪相关的数据可能就足以实现有效的跟踪性能。
在以下内容中,作者讨论了改进R1-Track的潜在方向:
- • 利用推理轨迹生成更高质量的冷启动跟踪数据;
- • 探索具有7B或72B参数等更大基础模型;
- • 增强时间建模(例如,多帧或基于视频的方法)以改善序列辨别能力,这目前限制了性能;
- • 通过增加训练数据扩展模型的功能,以支持多种多模态跟踪任务,如RGB、RGB-T、RGB-E和RGB-D。
- • 通过工具调用或基于图像的推理方法(如“用图像思考”)探索性能提升。
参考
[1]. R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)