Qwen3开源!悉数几大核心变动!

大模型向量数据库机器学习
Qwen3开源!悉数几大核心变动!

,

,

,

Qwen3,它终于来了!五一之前,加班走起~\x0a\x0a回想起2023年开源模型纵横的时候,到了2025年基本上只剩下那么几家还屹立不倒!而且,从Llama4陨落之后,国内开源模型是世界第一,谁赞成,谁反对!\x0a\x0a我一直都是Qwen的忠实粉丝,每一次模型更新,我是必写的,因为我确实从中受益了,大模型这些年的KPI,都在靠Qwen的更新,哈哈哈!毕竟是官方承认选手,见图5。\x0a\x0a说回千问3本身,这次开源模型有Dense模型,也有MoE模型,其中Dense模型有6个尺寸,0.6B、1.7B、4B、8B、14B和32B;MoE模型是两个30B总参激活3B和235B总参激活22B,见图2。\x0a\x0aPS:预训练数据增加到36T Tokens啦。\x0a\x0a旗舰版Qwen3-235B-A22B模型也是国产模型Top1,开源模型Top1,见图3。当然其他尺寸也是开源Sota,见图4。\x0a\x0a而Qwen3主要变动:混合推理模型、支持语言更丰富100+、工具调用更强Qwen-Agent支持MCP。\x0a\x0a本次开源的Qwen3是国内首个“混合推理模型”,这个概念最早是Claude3.7提出来的,Gemini2.5 Flash最新也支持了。说白了就是一个模型既可以推理,也可以不推理。\x0a\x0a主要就是解决,在简单问题,或者是对实效性要求较高的情况下,可以通过控制,不生成think过程,在不怎么影响效果的情况下,更快生成回复。\x0a\x0a之前基本上是没有太好的办法直接让推理模型不生成think过程,只能训练,提示词基本上控制不了。\x0a\x0a这次千问3有两种控制办法,硬切换设置enable_thinking为True or False,当为True时,还可以二次软切换,通过文本后面加/no_think或者/think来控制。\x0a\x0a同时Qwen还给了建议参数配置,防止走丢!\x0a\x0aThink模式:Temperature=0.6, TopP=0.95, TopK=20, MinP=0\x0a非Think模式:Temperature=0.7, TopP=0.8, TopK=20, MinP=0\x0a\x0a当然,Qwen3还在工具调用上做了专门训练,Qwen-Agent支持MCP。\x0a\x0a实测等我睡一会起来,再测,困了睡了!模型已经正在下载了!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
亿万用户下高可用融合直播的应用实践
直播融合 CDN 调度系统承担了公司内所有直播流量的接入工作,对高并发高带宽场景支持友好,有完善的体系进行容灾降级、质量优化、成本优化。本次演讲将带大家了解直播融合 CDN 调度系统的整体架构及在抖音上的应用。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论