s1推理模型=数据筛选+推理预算强制,也提醒大家不要进入思维误区

大模型向量数据库机器学习

大家好,我是刘聪NLP。

随着deepseek的爆火,蒸馏推理模型的热度又被推向新高度,年前李飞飞团队的的一篇《s1: Simple test-time scaling》也火了起来。


        
          
paper: https://arxiv.org/abs/2501.19393  
data: https://huggingface.co/datasets/simplescaling/s1K  

      

这里要给大家先说几点,避免其他文章被带入到误区。

  • s1超过的是o1-preview,没有超过o1甚至o1-mini,有很大区别
  • s1的效果不敌deepseek-r1 800k数据蒸馏的32B模型,差了不少,不是媲美
  • s1即使使用全量59k数据的效果也没有提高很多,甚至在math上还有下降,所以核心是数据质量
  • 1k数据是从59K数据中筛选出来的,不是直接蒸馏1K数据就可以效果很好
  • s1使用1k数据是节省了训练时间,但蒸馏的难点在蒸馏数据的构造上

好了,下面开始介绍s1。

picture.image

s1的本质是数据筛选+推理预算强制。

有了deepseek-r1-distill之后,我们知道,在不使用RL的情况下,纯SFT也能获得效果较好的推理模型。

而deepseek-r1-distill是使用了80k 数据SFT训练得来,做了这么久的SFT,我们都知道,数据质量、复杂度、多样性直接影响最后微调效果。我之前也分享过一些数据筛选的分享:

s1d的数据筛选也是大同小异,对从16个不同的来源收集的59,029个样本进行数据筛选,

  • 质量筛选:删除API错误的问题、删除存在任何格式问题的数据
  • 难度筛选:删除Qwen2.5-7B-Instruct或Qwen2.5-32B-Instruct能够正确解答的问题
  • 多样性筛选:将所有问题按MSC系统分类,随机选择一个领域的更长推理链条的数据。

除了筛选SFT数据外,s1还提出一种预算强制方法,在推理过程中,强制结束或延长思考时间来控制推理计算时间,从而干预推理效果。

  • 强制结束:简单地添加“思考结束标记符”和““Final Answer:””
  • 强制思考:抑制生成“思考结束标记符”,并选择性添加“wait”字符到当前推理路径中,鼓励模型持续反思、生成。

picture.image

注意:s1的核心贡献还有开源了对应的训练数据。

s1的整体效果,如下图所示,比o1-preview、Sky-T1要好,AIME和MATH超过了QWQ,MATH和GPQA超过了Bespoke-32B。

同时,使用预算强制方法的效果十分有效,在三个数据集上均有不错的提高,甚至AIME上提高6.7%。

picture.image

数据筛选效果,1K数据的训练结果媲美全量数据训练结果,而并且远由于,随机选择数据、取最长数据等方法。

picture.image

最后,s1还有有点意思的,但是大家一定要理性看待技术,我太怕哪个甲方跟我说,1k数据训练出r1了,想想就难受!

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群(3群也满了,等开4群吧),交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论