昨天和润总一起恰饭聊到一个小点,「 大模型的小型化一定是趋势,并且会很快,这也是我搞口袋AI的原因。 」
没想到这么快!今天就看到了!
阿里今天开源的QwQ模型,用32B参数就实现了比肩671B满血DeepSeek R1的性能!
https://qwenlm.github.io/blog/qwq-32b/
除了编程能力的LiveCodeBench上稍微差点,其他数据集的指标都略强一点。
最关键的是,在个人的电脑上已经可以跑起来了!
这是我用ollama在自己的16G MAC上,不使用GPU跑的截图,虽然有点慢,并且一度卡死,但是,确实是可以跑起来的!(提醒:保护电脑,小白不要轻易尝试!)
如果有 24G的 GPU,应该能流畅使用。
如果部署不起来 671B的 DeepSeek,可以尝试一下 32B 的 QWQ,性能无损,甚至略强。
对于个人PC,如果是14B模型,加上量化,应该就能流畅使用了!
很遗憾,这次QwQ系列的模型只提供了32B的版本,不像Qwen2.5一样提供了0.5b到72b各个尺寸的模型。
但是技术上应该是没有任何问题, 家用DeepSeek级的本地AI今年应该就能用上了,江树很期待!
实际体验
如果要体验,可以在线体验:https://chat.qwen.ai/
记得使用Qwen2.5-Max,开启Thinking。
代码能力测试
写一下代码,拿天气卡片基础测一下。
很可以,效果超出我预期了。
提示词是: 制作一个孟菲斯风格的天气卡片。
但是也不能太复杂,和claude还是有差距。
创意写作能力
写科幻小说效果可以,和DeepSeek接近,GPT的味儿淡了很多。
语言风格模仿
manus今天太火,拿不到邀请码让AI吐槽一下:
提示词:用贴吧嘴臭老哥的风格点评AI产品要内测邀请码
味儿是有的,但是攻击力还是deepseek强,并且感觉有点神经,有种咕噜咕噜的感觉。
联网搜索能力
支持联网搜索,数据源也是媒体文章居多。
网页数量相比deepseek官网少点,deepseek官网是50个,qwen这里是10个。
实际效果来看,写报告不论是信息还是文字还是长度,都有待提高。
最后
感谢千问团队对AI发展的贡献,QwQ 32B已经够用了,期待后续会发14B、7B的小模型。
还有一点江树个人的缺憾是:qwen系列虽然是一个各方面基础能力很强的模型,但是没有感受到模型独特的个性。
Claude优雅审美好,Grok真实灵动,DeepSeek最像人,Gemini的长文和搜索好,各家大模型越来越具有各自特色,也给了我很好的使用体验。
而曾经引领潮流的GPT,如今已沦为"正确但无趣"的代名词——这一曾经的革命性AI,如今只是流水线上的又一件标准品,江树已经很少使用了。
希望 qwen 一如既往的强大的同时也能找到自己的魂吧~
我是「云中江树」,这里每周为你分享AI工具、方法和观点。
👉 点赞、在看、分享三连支持 ,关注公众号,抢先获取更多AI知识!