R1-V开源,使用可验证奖励的强化学习(RLVR),2B 模型在仅 100 个训练步骤内,OOD 测试中优于 72B 模型,成本低于3刀。
代码、模型、数据集、更多细节以及所有开源资源都将共享。果然大佬是没有休息时间的~
项目地址:https://github.com/Deep-Agent/R1-V
R1-V开源,使用可验证奖励的强化学习(RLVR),2B 模型在仅 100 个训练步骤内,OOD 测试中优于 72B 模型,成本低于3刀。
代码、模型、数据集、更多细节以及所有开源资源都将共享。果然大佬是没有休息时间的~
项目地址:https://github.com/Deep-Agent/R1-V