千问又开源新模型: Qwen3-235B-A22B-Instruct-2507

技术

大家好,我是刘聪NLP。

早起就看到Qwen又更新模型了,Qwen3-235B-A22B-Instruct-2507,是一个非推理模型。

picture.image

参数跟之前的Qwen3-235B-A22B是一致的,

  • 总参数数量,235B,激活 22B,非嵌入参数数量234B
  • 层数,94
  • 注意力头数量(GQA),Q 为 64 个,KV 为 4 个
  • 专家数量128,激活专家数量:8
  • 上下文长度262144 。

HF地址:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

MS地址: https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

在think模型纵横的时代,Qwen这次,单独开了一个非think的模型,有点吃惊,

不过我本人是可以理解的,因为在一些场景中使用的适合,我都是强制不使用think,主要是输出时长的问题,当然现在不可否认,也都是大家公认的Test-Time Scaling,think模型的效果会更好一些。

看一下榜单效果,

这次更新的Qwen3-235B-A22B-Instruct-2507,相较于Qwen3-235B-A22B Non-thinking,是由很大的提高的,同时也超过了Kimi K2,DeepSeek-V3-0324,已经Claude Opus4 Non-thinking。

我之前得使用感受是,Qwen之前得混合推理得模型,在非推理上的效果并没有达到极致,而Qwen这次是重点提高。

马上安排测试,哈哈哈哈!!

最后,魔搭swift,还放了一个基于Qwen3-235B-A22B-Instruct-2507得整理数据集,问题来源是我之前开源得整理数据,开启魔幻联动,哈哈哈!

picture.image

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论