心法利器[129] | deepseek-R1自测效果分析和选择建议

大模型向量数据库机器学习

心法利器

本栏目主要和大家一起讨论近期自己学习的心得和体会。具体介绍: 仓颉专项:飞机大炮我都会,利器心法我还有

2023年新的文章合集已经发布,获取方式看这里:又添十万字-CS的陋室2023年文章合集来袭,更有历史文章合集,欢迎下载。

往期回顾

DeepSeek网上这么火,肯定是要直接上手试试的,我在实践中进行了尝试,有关这里面的体验和感受,今天这篇文章会和大家聊一聊。

具体场景问题不方便讨论,这里忽略了大量实验细节,只给出结论性描述,篇幅比较短,希望对大家有用吧。

集中讲优点

优点应该挺多人都会聊到,这里我集中先说一下自己场景下发现的优点细节。

  • 对于需要强推理或者分析的任务,往往具有比较好的效果,例如某些数据的分析、推导、多信息或者复杂信息的总结和抽取。
  • 和第一条类似,数学类、代码类的问题效果提升明显,应该和这方面的专项训练和数据有强关系。
  • 长文本的处理和总结能力,效果会更好些,或者更严谨地说,长文本任务效果的衰减似乎会比其他模型要更慢。
  • 通用任务的整体效果是有提升的,主要集中在一些曾经被认为是hard case的部分。
  • DS的think部分价值有利于我们对prompt进行优化,提升优化效率。
  • 另外,有些分析探索,可以通过DS的think部分入手,很多时候能够发现很多难以发现的细节。
  • 尽管因为一些原因DS无法上生产,但把DS作为蒸馏模型的Teacher或者是用于挖掘,还是很合适的。

缺点

说完优点了,该说缺点了,这里的暗坑其实很多,而且用起来可能还算个硬伤,在方案选型时一定要注意。

  • 相反,简单的问题,DS容易想太多,想太多后容易把简单问题复杂化后出错,在比较简单的场景下效果反而不如其他模型,体验下来很可能会被认为是人工智障。
  • 抽取类的任务,如摘要、关键词抽取等,容易出现幻觉,原因同样是想太多。
  • 有些回答的内容可能在普通人视角觉得会很有道理,但是在实际业务视角看,可能是正确的废话,类似出现类似“下雨了要打伞”的回复,这是很多大模型共有的问题,需要通过prompt甚至是微调的方式才有机会解决。
  • 满血版的R1成本巨大。
  • DS的系列蒸馏模型感觉上还有很大的提升空间,一定因素和R1蒸馏的比较粗糙有关,还有待优化。
  • 耗时问题,对一些耗时要求较高的场景,耗时其实会更长。注意,不要以为吞吐量提升速度就会变快,因为模型的think非常长。

使用建议

如果是为了营销、推广,上DS无可厚非,某种程度也算是政治任务了,非常理解,但是从技术角度,理性地从实际出发,还是很有必要的,可以从下面几个角度考量。

  • 对于高并发、高耗时要求、低成本场景,基本一票否决,这点和大多数大模型的思路是类似的。
  • 不要被所谓的高性能、低消耗这类的说法给迷惑了!所谓的高性能是token的吞吐量,低消耗更多是指训练,推理的话也不能说没有,但是该多大模型还是得预留一定的空间的,不要期待太高,更不要以为就不花钱了,现在好多人以为是已经不用消耗多少资源了,绝对不是,他仍旧是大模型。
  • 对于问题比较简单的场景,一般的分类、抽取任务,可能要谨慎,一定要认真做bad case分析,有些时候DS很容易把很简单的问题做错,这个在实际场景会导致“人工智障”的产生,简单问题做错在用户视角下看是很难容忍的,另外简单问题磨磨唧唧地think半天也很让人血压高。
  • 复杂问题下,DS是值得付出成本的,用户视角这方面的效果很优秀。
  • 因为一些原因DS无法上生产,把DS作为蒸馏模型的Teacher也是非常适合的。

后记

最近几天和好几个朋友有聊过DS出来的变革问题,开始我的期待也挺高的,但是经过实测下来,个人的感受,其实和刘知远老师在一场线上分享中提到的观点类似。(https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA)

我们认为 DeepSeek-R1在历史上应该是更像是2023年的Meta Llama。它通过开源复现,并且把这些事情公开给全球,让大家能够快速建立起相关能力。 这是我们需要对DeepSeek-R1重要意义的一个准确认识。

所以,在应用大模型这个角度上,我自己的理解只是一个“更为优秀的大模型”,他仍旧是大模型,只是一个在一些方面更加优秀的大模型罢了,作为一名应用者,要把他放在qwen、chatglm、baichuan等各个开源大模型内一起进行综合评价和对比来进行合理选型,在他更有优势的时候再拿出来用(当然营销或者上级要求这种情况也算是一种加分项doge),考虑好实际场景的需求,选择最优方案,有时甚至还要把他们和bert甚至CNN、传统机器学习之类的模型进行综合对比选择。

而在研究上,R1的成果让大家对RL这条技术路线更有信心和热情,这是毫无疑问的,原来的RL可能只是我们锦上添花或者只是充当一种调味剂的角色,但现在的感觉,可以更大胆地进行尝试,类似GRPO,最近也有很多人再把它放在很多场景进行实验。

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论