GPT-OSS-20B和Qwen3 30B-A3B，要选哪一个？实测对比告诉你！

大模型向量数据库机器学习

大家好，我是刘聪NLP。

OpenAI也开源了，两个模型，GPT-OSS-120B和GPT-OSS-20B，

HF：https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4

HF上下载量，一天不到，冲上趋势榜第一第二，

picture.image

这个20B的模型，让我想到了23年的传言，说ChatGPT参数20B，感觉有迹可循呀。微软论文爆出ChatGPT为20B参数

不过实话实说，现在网上对GPT-OSS的风评属实一般，看完之后我都有点不想测了。

picture.image

但从一个从业者的角度，GPT我还是要尊重一下的，今天就对比一下GPT-OSS-20B和Qwen3-32B-A3B，看看到底哪个更强！

先说一下gpt-oss的技术细节，再进行横向实测对比。

GPT-OSS细节

有哪些值得注意的点呢？

隔层 Sliding Widow：sliding_attention 和 full_attention 隔层交替，推理过程可以减少KV cache，提高效率；这种隔层交替，之前一般在混合线性大模型中出现，比如一层liner attention、一层full_attention ；
很大的router_aux_loss_coef，就是强制让专家们尽可能都被使用，而Qwen3 30B的仅为0.001，更偏向让模型自己选择；
原生 MXFP4 量化：模型使用原生 MXFP4 精度针对 MoE 层进行训练，infra有一手
推理分三档：low、medium、high，国内或其他都是两档
还有一些其他的，比如，SwiGLU 带 clamping 和 residual connection，还有用YaRN做长度扩展，不过Qwen等也都用了，扩长度）

通过Qwen3 30B-A3B和GPT-OSS-20B参数对比上来看，Qwen3是高瘦型，GPT是矮胖型。这块结构设计上有懂得大佬欢迎拍砖~

picture.image

https://x.com/rasbt/status/1952842273848279364

实测对比

下面表述，用Qwen3代表Qwen3 30B-A3B，用GPT-OSS代表GPT-OSS-20B。

先说一下，我体验下来，GPT-OSS在简单通用任务、代码任务上简直是灾难，我觉得被Qwen3完爆。

本以为GPT-OSS会在创作上很独特，但不行，虽然Qwen3也不是特别出众，但比GPT-OSS强不少

不过一些数学推理任务上GPT-OSS还是有东西的，就刷数学是吧，不想给大家日常用是吧。

常规测试

Prompt：将“I love Qwen3-30B-A3B-Instruct-2507”这句话的所有内容反过来写

Qwen3：回答正确

picture.image

GPT-OSS：回答错误，是evol不是evlo

picture.image

角色扮演&创作

Prompt：用知乎风格写一段对比 gpt-oss-20b 和 qwen3-thinking-30b-a3b 的使用体验，语气轻松、略带吐槽。

Qwen3：谢邀很符合，是真嘲讽gpt-oss呀！但是说实话写的一般，但是你往下看，GPT-OSS的都没法看~

picture.image

GPT-OSS：反观你，是真嘲讽你自己呀，你也知道你自己不行是吧~

picture.image

Prompt：用甄嬛体吐槽地铁早高峰

Qwen3：写的还行，有那味er

picture.image

GPT-OSS：站在第三视角进行描述？写的不行，不如Qwen3

picture.image

Prompt：帮小学生写一篇“我最讨厌的动物”作文，不能是猫狗

Qwen3：写的不错，是小学的水平，表述也合理

picture.image

GPT-OSS：还是很重的味道

picture.image

知识理解

Prompt：如何理解“但丁真不会说中国话，但丁真会说中国话”

Qwen3：理解但丁和丁真

picture.image

GPT-OSS：跟我搁这儿绕，

picture.image

弱智吧

Prompt：生蚝煮熟了叫什么？

Qwen3：回答正确

picture.image

GPT-OSS：回答错误，依旧熟蚝

picture.image

Prompt：用水来兑水，得到的是浓水还是稀水

Qwen3：回答正确 picture.image

依旧小红，依旧老鹰 Prompt：小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

Qwen3：回答正确

picture.image

GPT-OSS：回答正确

picture.image

Prompt：未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

Qwen3：回答错误

picture.image

GPT-OSS：回答错误，但是提到了，老鹰本来会飞，但是这个讲得是奇妙飞行~

picture.image

数学

Prompt：一个长五点五米的竹竿，能否穿过一扇高四米，宽三米的门？请考虑立体几何

Qwen3：回答错误

picture.image

GPT-OSS：回答正确

picture.image

Prompt：2024年年高考全国甲卷数学（文）试题

picture.image

Qwen3：回答正确

picture.image

GPT-OSS：回答正确

picture.image

代码

Prompt：创建一个红白机风格的贪吃蛇游戏

Qwen3：能玩，还行，美观度也可以，但是没用Qwen3-Coder好。

GPT-OSS：鬼畜起来了。

Prompt：可爱风格五子棋游戏界面，画面有两个模式按钮「人人对战」和「人机对战」，界面整体采用马卡龙色调，棋盘简洁清晰，棋子设计成卡通小动物（如猫咪和小熊），背景带有轻微渐变和星星点缀，界面边缘圆润，按钮 Q 萌，整体风格温馨可爱，适合儿童或休闲玩家使用，2D 插画风。

Qwen3：美观不错，人人ok，但是人机不行，不如Qwen3-coder

GPT-OSS：根本不能点

写在最后

整体来说，OpenAI这波开源是不及预期的，起码没到我的预期，

作为头部LLM公司，开的东西，不如现有开源模型，我是接受不了的，

不过侧面也看出了，我们国内的开源模型还是很强的。

另外，从GPT-OSS的结构上，并没看出很大创新，不过是有一些参数细节在的，不清楚他们闭源的模型有没有创新架构，比如MLA等。

120B我没测，因为我以后也本地部署不了，不过在100B左右，现在模型好不是很多，有Qwen的72，还有HunYuan的A13B，GPT-OSS的120算补尺寸了，后面需要的可以继续增量训练。

说回标题，我会选择Qwen3 30B-A3B。

PS：都看到这里，来个点赞、在看、关注吧。您的支持是我坚持的最大动力！

欢迎多多关注公众号「刘聪NLP」，加入交流群，交个朋友吧，一起学习，一起进步！

0

0

0

0

评论

未登录

暂无评论