文档备案控制台登录立即注册

首页文章活动镜像站

发布

Light-R1-32B又一个靠SFT打败R1-Distill的模型

大模型向量数据库机器学习

Light-R1-32B是以Qwen2.5-32B-Instruct作为基模，通过课程学习SFT+DPO，效果超过R1-Distill-32B模型。

link: https://huggingface.co/qihoo360/Light-R1-32B

SFT有两个阶段，第一个阶段使用76K的数据进行SFT，在AIME24、25上都没超过R1-Distill-32B，而第二个阶段从76K数据中筛选出3K更难的数据，继续进行SFT，在AIME24、25上都超过了R1-Distill-32B。

还进一步进行了DPO实验，数据量未知，但效果进一步提升。

最有意思的是，将多个模型进行模型融合（这不是比赛中常用的技巧嘛），也有提高，具体实验效果见图2和图3。

最后，NLP工作站 4群成立啦！，欢迎进群交流~~

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

在火山引擎云搜索服务上构建混合搜索的设计与实现

本次演讲将重点介绍字节跳动在混合搜索领域的探索，并探讨如何在多模态数据场景下进行海量数据搜索。

相关产品

推荐阅读

APIPark V1.6 上线：全面支持自定义渠道 AI 大模型接入！

大模型额度不够用？这份“薅羊毛”指南请收好！

深度解析：通过 AIBrix 多节点部署 DeepSeek-R1 671B 模型

LLM模型尺寸的秘密：模型大小如何影响性能、成本与实际应用？

火山引擎云上实战：QwQ-32B 大模型快速部署

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论