Light-R1-32B是以Qwen2.5-32B-Instruct作为基模,通过课程学习SFT+DPO,效果超过R1-Distill-32B模型。
link: https://huggingface.co/qihoo360/Light-R1-32B
SFT有两个阶段,第一个阶段使用76K的数据进行SFT,在AIME24、25上都没超过R1-Distill-32B,而第二个阶段从76K数据中筛选出3K更难的数据,继续进行SFT,在AIME24、25上都超过了R1-Distill-32B。
还进一步进行了DPO实验,数据量未知,但效果进一步提升。
最有意思的是,将多个模型进行模型融合(这不是比赛中常用的技巧嘛),也有提高,具体实验效果见图2和图3。
最后,NLP工作站 4群 成立啦!,欢迎进群交流~~