只有我独宠Qwen系列模型?附最新QwQ-32B实测!

大模型向量数据库机器学习

大家好,我是刘聪NLP。

只有我独宠Qwen系列模型?不不不,大家都爱,客官请往下看~~

picture.image

昨天发了一篇篇帖子,主要x上有人通过获取"/opt/.manus/"文件,发现Manus的提示词和29个工具,也是引起了一片讨论,Manus的CEO Peak也是发帖回应,这里咱们不讨论Manus有没有护城河的问题,关心它内部还有多个Qwen微调过的模型,并且很早之前开源的模型是基于Qwen模型训练的推理类模型。

picture.image

跟通义的人闲聊,他们说确实Manus和通义千问在进行开源模型方面的合作,感觉不久的将来会有一些有意思的开源模型。

而且你会发现我之前分享的DS-R1的复现贴基本上是基于Qwen的模型的进行复现的,当然因为DS用的就是Qwen是因素之一,还有就是Qwen也是真好用,各种尺寸让你不管有多少资源,都可以进行复现操作。

当然,前几天开源的QwQ模型已经在HuggingFace 的Trending的榜首,喜爱度超过了DeepSeek-R1,哈哈哈。

picture.image

所以答案显而易见,大家都宠爱Qwen,哈哈哈哈。

picture.image

为啥?主要是三个方面吧!

  • 开源持久:量大管饱

千问从2023年开Qwen-7B开始,陆陆续续又开源VL系列模型,一直到现在,已经更新到2.5版本。各种尺寸应有尽有,0.5B、1.5B、3B、7B、14B、32B、72B,也有MoE模型(虽然不多,但马上开的Max应该MoE),VL模型也是多种尺寸。还有专项math、code、long-context,以及qwq-think模型。

万相前阵子也开源了Wan系列的文生图和文生视频的模型(有黑科技,看到不少人玩出花活)。

就这,每次开源,我就庆幸KPI又有着落了,老数据+新模型,效果又好了~

  • 设施齐全:喂到嘴里

每次有新的模型,transformer的pr提的贼快,vllm、sglang啥的适配的都无敌快,基本上不需要复杂操作,更新个包就行。

最良心的是,官方把AWQ、GGUF模型都给你转好,不需要自己再做量化啥的。官方总比野生更可靠,毕竟Post-Training Quantization时,它有原生数据呀,精度会损失的更小吧~

魔搭啥的训练教程也是都更新好,是不是喂到嘴边~

  • 扎实训练:兜住下限

Qwen系列模型训练都是很扎实的,安安静静的做数据工作,逐步增加pretrain、posting-train数据,按照openai的路子一点一点走。因为训练重复,所以基模底子好,所以才有这么多人喜欢二开。

聊完Qwen,我给大家补上前一段时间落下的QwQ-32B测试哈!在写这篇的时候,在HuggingFace上发现一个新的榜单,评估哪些大模型更适合Agent任务。QwQ-32B模型紧随R1之后,效果真不错~

picture.image

这篇测试后不久,估计很快就会迎来QwQ-max的测试,哈哈哈,这就是幸福的烦恼! 测试开始,不过该说不说,QwQ-32B的think是真的久。

  • 依旧做题。
  • 2024年年高考全国甲卷数学(文)试题

picture.image

说明:结果正确,-7/2,感觉普通试题已经难不住现在的大模型了。

picture.image

  • 验证满血R1的题目:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。

说明:结果正确,√3/3,这个还是蛮强的。

picture.image

  • 大数计算:178939247893 * 299281748617

说明:结果不正确,53553251005627872913981,DS我当时测试是不对的。中间做了多次验证,也不对,但知道用python写个代码计算,大数据计算还是得靠工具呀!

picture.image

  • 那道集伦理、生物、数据与一身的题目:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?

说明:直接给QwQ-32B推理蒙了,一共推理xx分钟,中间开始了无限循环(话说我自己训练的think模型也经常自我循环,然后出不来,大家有遇到吗),最后出来之后,最终答案也没有答对。不过中间think过程,有色盲相关的内容。

picture.image

  • 依旧弱智吧。
  • 生蚝煮熟了叫什么?

说明:一开始都说了“熟生蚝”很对,但是又自作聪明补充成了“熟蚝”,不过结尾得表情,是不是有说法呀!

picture.image

  • 用水来兑水,得到的是浓水还是稀水

说明:结果正确,依旧纯水~

picture.image

  • 依旧小红、依旧老鹰。
  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

说明:结果正确,相信评论区依旧有人对线,小红你怎么就认为是女生!!!

picture.image

  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

说明:回答错误,依旧老鹰不会飞各大模型好像都错了,经典中的经典

picture.image

  • 代码
  • 借鉴江树的case,用黑白手绘风格说明什么是机器学习的本质,用SVG+CSS实现,所有代码放到一个HTML中。

说明:画出了本质是输入输出,但是有点丑,感觉不如Claude,SVG画图Claude还是神级别的存在,没办法。感觉QwQ的代码还是可以进一步提高的。

picture.image

  • 创作
  • 仿照《过秦论》的风格写一篇《过美利坚论》

说明:有点意思哈!

picture.image

  • 用贴吧嘴臭老哥的风格点评大模型套壳现象

说明:还行,有那味儿了!!

picture.image

最后,整体测试还是不错的,毕竟32B大小,AWQ量化单卡推理不成问题,简直是本地部署的神!期待QwQ-Max的开源!!

PS:看到这里,如果觉得不错,可以来个 点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」, 加入交流群 ,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论