GPT-OSS-20B和Qwen3 30B-A3B,要选哪一个?实测对比告诉你!

大模型向量数据库机器学习

大家好,我是刘聪NLP。

OpenAI也开源了,两个模型,GPT-OSS-120B和GPT-OSS-20B,

HF:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4

HF上下载量,一天不到,冲上趋势榜第一第二,

picture.image

这个20B的模型,让我想到了23年的传言,说ChatGPT参数20B,感觉有迹可循呀。微软论文爆出ChatGPT为20B参数

不过实话实说,现在网上对GPT-OSS的风评属实一般,看完之后我都有点不想测了。

picture.image

但从一个从业者的角度,GPT我还是要尊重一下的,今天就对比一下GPT-OSS-20B和Qwen3-32B-A3B,看看到底哪个更强!

先说一下gpt-oss的技术细节,再进行横向实测对比。

GPT-OSS细节

有哪些值得注意的点呢?

  • 隔层 Sliding Widow:sliding_attention 和 full_attention 隔层交替,推理过程可以减少KV cache,提高效率;这种隔层交替,之前一般在混合线性大模型中出现,比如一层liner attention、一层full_attention ;
  • 很大的router_aux_loss_coef,就是强制让专家们尽可能都被使用,而Qwen3 30B的仅为0.001,更偏向让模型自己选择;
  • 原生 MXFP4 量化: 模型使用原生 MXFP4 精度针对 MoE 层进行训练,infra有一手
  • 推理分三档:low、medium、high,国内或其他都是两档
  • 还有一些其他的,比如,SwiGLU 带 clamping 和 residual connection,还有用YaRN做长度扩展,不过Qwen等也都用了,扩长度)

通过Qwen3 30B-A3B和GPT-OSS-20B参数对比上来看,Qwen3是高瘦型,GPT是矮胖型。这块结构设计上有懂得大佬欢迎拍砖~

picture.image

https://x.com/rasbt/status/1952842273848279364

实测对比

下面表述,用Qwen3代表Qwen3 30B-A3B,用GPT-OSS代表GPT-OSS-20B。

先说一下,我体验下来,GPT-OSS在简单通用任务、代码任务上简直是灾难,我觉得被Qwen3完爆。

本以为GPT-OSS会在创作上很独特,但不行,虽然Qwen3也不是特别出众,但比GPT-OSS强不少

不过一些数学推理任务上GPT-OSS还是有东西的,就刷数学是吧,不想给大家日常用是吧。

常规测试

Prompt:将“I love Qwen3-30B-A3B-Instruct-2507”这句话的所有内容反过来写

Qwen3:回答正确

picture.image

GPT-OSS:回答错误,是evol不是evlo

picture.image

角色扮演&创作

Prompt:用知乎风格写一段对比 gpt-oss-20b 和 qwen3-thinking-30b-a3b 的使用体验,语气轻松、略带吐槽。

Qwen3:谢邀很符合,是真嘲讽gpt-oss呀!但是说实话写的一般,但是你往下看,GPT-OSS的都没法看~

picture.image

GPT-OSS:反观你,是真嘲讽你自己呀,你也知道你自己不行是吧~

picture.image

Prompt:用甄嬛体吐槽地铁早高峰

Qwen3:写的还行,有那味er

picture.image

GPT-OSS:站在第三视角进行描述?写的不行,不如Qwen3

picture.image

Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗

Qwen3:写的不错,是小学的水平,表述也合理

picture.image

GPT-OSS:还是很重的味道

picture.image

知识理解

Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”

Qwen3:理解但丁和丁真

picture.image

GPT-OSS:跟我搁这儿绕,

picture.image

弱智吧

Prompt:生蚝煮熟了叫什么?

Qwen3:回答正确

picture.image

GPT-OSS:回答错误,依旧熟蚝

picture.image

Prompt:用水来兑水,得到的是浓水还是稀水

Qwen3:回答正确picture.image

依旧小红,依旧老鹰 Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

Qwen3:回答正确

picture.image

GPT-OSS:回答正确

picture.image

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

Qwen3:回答错误

picture.image

GPT-OSS:回答错误,但是提到了,老鹰本来会飞,但是这个讲得是奇妙飞行~

picture.image

数学

Prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何

Qwen3:回答错误

picture.image

GPT-OSS:回答正确

picture.image

Prompt:2024年年高考全国甲卷数学(文)试题

picture.image

Qwen3:回答正确

picture.image

GPT-OSS:回答正确

picture.image

代码

Prompt:创建一个红白机风格的贪吃蛇游戏

Qwen3:能玩,还行,美观度也可以,但是没用Qwen3-Coder好。

GPT-OSS:鬼畜起来了。

Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮「人人对战」和「人机对战」,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮 Q 萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D 插画风。

Qwen3:美观不错,人人ok,但是人机不行,不如Qwen3-coder

GPT-OSS:根本不能点

写在最后

整体来说,OpenAI这波开源是不及预期的,起码没到我的预期,

作为头部LLM公司,开的东西,不如现有开源模型,我是接受不了的,

不过侧面也看出了,我们国内的开源模型还是很强的。

另外,从GPT-OSS的结构上,并没看出很大创新,不过是有一些参数细节在的,不清楚他们闭源的模型有没有创新架构,比如MLA等。

120B我没测,因为我以后也本地部署不了,不过在100B左右,现在模型好不是很多,有Qwen的72,还有HunYuan的A13B,GPT-OSS的120算补尺寸了,后面需要的可以继续增量训练。

说回标题,我会选择Qwen3 30B-A3B。

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎音视频体验白皮书
火山引擎联合AMD发布了音视频体验白皮书,以抖音亿级日活用户实践和大规模场景落地经验,详细解读音视频体验评估指标和模型,分享火山引擎音视频实验室的评测方案和抖音在音视频体验优化上的典型策略、案例,助力企业优化用户体验,促进业务增长。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论