Light-R1-32B又一个靠SFT打败R1-Distill的模型

大模型向量数据库机器学习

Light-R1-32B是以Qwen2.5-32B-Instruct作为基模,通过课程学习SFT+DPO,效果超过R1-Distill-32B模型。

link: https://huggingface.co/qihoo360/Light-R1-32B

SFT有两个阶段,第一个阶段使用76K的数据进行SFT,在AIME24、25上都没超过R1-Distill-32B,而第二个阶段从76K数据中筛选出3K更难的数据,继续进行SFT,在AIME24、25上都超过了R1-Distill-32B。

还进一步进行了DPO实验,数据量未知,但效果进一步提升。

最有意思的是,将多个模型进行模型融合(这不是比赛中常用的技巧嘛),也有提高,具体实验效果见图2和图3。

最后,NLP工作站 4群 成立啦!,欢迎进群交流~~

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论