大家好,我是刘聪NLP。
早起就看到Qwen又更新模型了,Qwen3-235B-A22B-Instruct-2507,是一个非推理模型。
参数跟之前的Qwen3-235B-A22B是一致的,
- 总参数数量,235B,激活 22B,非嵌入参数数量234B
- 层数,94
- 注意力头数量(GQA),Q 为 64 个,KV 为 4 个
- 专家数量128,激活专家数量:8
- 上下文长度262144 。
HF地址:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
MS地址: https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507
在think模型纵横的时代,Qwen这次,单独开了一个非think的模型,有点吃惊,
不过我本人是可以理解的,因为在一些场景中使用的适合,我都是强制不使用think,主要是输出时长的问题,当然现在不可否认,也都是大家公认的Test-Time Scaling,think模型的效果会更好一些。
看一下榜单效果,
这次更新的Qwen3-235B-A22B-Instruct-2507,相较于Qwen3-235B-A22B Non-thinking,是由很大的提高的,同时也超过了Kimi K2,DeepSeek-V3-0324,已经Claude Opus4 Non-thinking。
我之前得使用感受是,Qwen之前得混合推理得模型,在非推理上的效果并没有达到极致,而Qwen这次是重点提高。
马上安排测试,哈哈哈哈!!
最后,魔搭swift,还放了一个基于Qwen3-235B-A22B-Instruct-2507得整理数据集,问题来源是我之前开源得整理数据,开启魔幻联动,哈哈哈!
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!