文档备案控制台登录立即注册

首页文章活动镜像站

发布

VLM + R1，开源圈又炸锅了？

大模型向量数据库机器学习

中午，看到三大顶会推了一个叫VLM-R1的仓库，评测的2个图看起来很漂亮，如下。左图是测试相同领域评测结果，右图是out-of-domain的评测结果。随着训练步骤增加，grpo相比sft都有明显优势，sft更容易过拟合。看完之后，问题就来了，r1是用的规则奖励函数，而vlm的训练数据，很多是这种格式的： q + image -> a，那vlm是怎么跟r1结合到一起的？所以笔者去瞧了瞧，简单分享下这个项目是怎么把grpo迁移到vlm上的。

picture.image

VLM-R1-evaluation

项目地址：https://github.com/om-ai-lab/VLM-R1/tree/main

关于数据，这个项目是基于一个目标检测数据集的，Refcoco+。以前没做过这块，所以我去搜了下，说是这么个格式的数据集，每张图，有一些框，然后针对这些框有一些描述。

picture.image

整个项目是基于open-r1项目的，那就很简单了，直接瞄准data处理和reward就完事了。

他的prompt这块跟文本的没啥太大区别，所以看不出来啥。

picture.image

https://github.com/om-ai-lab/VLM-R1/blob/main/src/open-r1-multimodal/src/open\_r1/grpo\_rec.py

滑到奖励函数，就清晰了。一个格式奖励函数，一个iou函数。iou是目标检测中一个常见的度量标准，简单来说两个框的交集面积除以并集面积的比值。判断是否大于0.5，给予奖励。

picture.image

因此，猜测这个数据构造应该就是把那个描述构造成问题，然后让模型预测框框的位置。

打开hf demo的app脚本，确实就是这样做的。

picture.image

https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression/blob/main/app.py

好像也不太好玩，别的不做过多介绍了，之前详细分析过open-r1的代码。这个项目的demo地址：https://huggingface.co/spaces/omlab/VLM-R1-Referral-Expression

picture.image

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

火山引擎大规模机器学习平台架构设计与应用实践

围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践，全面分享如何以开发者的极致体验为核心，进行机器学习平台的设计与实现。

相关产品

推荐阅读

2025春季火山引擎Force原动力大会 DeepSearch技术详解演讲全文

给你的 Trae智能体插上 selenium 的翅膀让他起飞

Kimi全新升级！Kimi Agent打造高效工作流！

李继刚全网首播干货分享整理 | Prompt（提示词）的道和术，另附分享彩蛋

扣子Coze收费前最后的1元套餐, 原价500, 可以再爽一年, 赶紧冲!

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论