大家好,我是刘聪NLP。
好起来,这两个月,阿里、腾讯、字节、百度、DeepSeek、智谱、阶跃、百川、小红书、知乎、昆仑万维等等等,你能想到的大模型公司,都开源了。
国内的环境真变了,国内国外基本上已经走上了两个极端!
昨天晚上,字节也开源了大模型-Seed-OSS,36B大小,有三个模型,
Seed-OSS-36B-Base:预训练模型,
Seed-OSS-36B-Base-woSyn:去除合成数据的预训练模型,
Seed-OSS-36B-Instrcut:指令模型。
HF:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd
Seed-OSS模型的预训练数据12T Tokens,知识截止时间为 2024 年 7 月,同时针对英语进行的优化和评估,其他语言的性能有限,且尚未经过严格的测试。
放出非合成数据版本模型,是一个亮点,大家都知道,在预训练阶段加入合成数据、指令数据,核心是为了给Base提点,榜单好看。
但Seed-OSS这么放出来,相当于端到了明面上,
也给很多人提供了更多的研究选择,值得夸一波。
但很可惜的是,训练语言,不知道为啥不在中文上也训练一下,36B完美的尺寸,
当然我还没有真正测试中文上的场景,但没有训练应该也不会太好,毕竟数据是12T,也不是太多。
然后模型参数结构如下,36B、GQA、SwiGLU等等,
模型特点是,增加了思维预算内容,支持用户根据需求灵活调整推理长度;在工具调用上做了专门的训练,agent任务表现出色。
在思维预算阶段,模型会不断反思,预估还有多少Token 预算可以使用,并在预算耗尽或者推理结束后给出最终答案。官方建议预算是512的倍数,不指定则无限推理。
<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot\_budget\_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot\_budget\_reflect>
Using the power rule, ... ...
<seed:cot\_budget\_reflect>I have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot\_budget\_reflect>
Alternatively, remember that ... ...
<seed:cot\_budget\_reflect>I have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot\_budget\_reflect>
Because if ... ...
<seed:cot\_budget\_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot\_budget\_reflect>
</seed:think>
To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).
模型如果需要vllm使用,需要装指定版本,
VLLM\_USE\_PRECOMPILED=1 VLLM\_TEST\_USE\_PRECOMPILED\_NIGHTLY\_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss
最后,从榜单上来看,是追着Qwen3-32B Dense模型打。
模型正在下载,后面测一测中文上效果到底如何~
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!