字节开源Seed-OSS模型，36B的理想尺寸，但中文好像不行 - 文章 - 开发者社区

大家好，我是刘聪NLP。

好起来，这两个月，阿里、腾讯、字节、百度、DeepSeek、智谱、阶跃、百川、小红书、知乎、昆仑万维等等等，你能想到的大模型公司，都开源了。

国内的环境真变了，国内国外基本上已经走上了两个极端！

昨天晚上，字节也开源了大模型-Seed-OSS，36B大小，有三个模型，

Seed-OSS-36B-Base：预训练模型，

Seed-OSS-36B-Base-woSyn：去除合成数据的预训练模型，

Seed-OSS-36B-Instrcut：指令模型。

HF：https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

Seed-OSS模型的预训练数据12T Tokens，知识截止时间为 2024 年 7 月，同时针对英语进行的优化和评估，其他语言的性能有限，且尚未经过严格的测试。

放出非合成数据版本模型，是一个亮点，大家都知道，在预训练阶段加入合成数据、指令数据，核心是为了给Base提点，榜单好看。

但Seed-OSS这么放出来，相当于端到了明面上，

也给很多人提供了更多的研究选择，值得夸一波。

但很可惜的是，训练语言，不知道为啥不在中文上也训练一下，36B完美的尺寸，

当然我还没有真正测试中文上的场景，但没有训练应该也不会太好，毕竟数据是12T，也不是太多。

picture.image

然后模型参数结构如下，36B、GQA、SwiGLU等等，

picture.image

模型特点是，增加了思维预算内容，支持用户根据需求灵活调整推理长度；在工具调用上做了专门的训练，agent任务表现出色。

在思维预算阶段，模型会不断反思，预估还有多少Token 预算可以使用，并在预算耗尽或者推理结束后给出最终答案。官方建议预算是512的倍数，不指定则无限推理。

  
<seed:think>  
Got it, let's try to solve this problem step by step. The problem says ... ...  
<seed:cot\_budget\_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot\_budget\_reflect>  
Using the power rule, ... ...  
<seed:cot\_budget\_reflect>I have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot\_budget\_reflect>  
Alternatively, remember that ... ...  
<seed:cot\_budget\_reflect>I have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot\_budget\_reflect>  
Because if ... ...  
<seed:cot\_budget\_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot\_budget\_reflect>  
</seed:think>  
To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

模型如果需要vllm使用，需要装指定版本，

  
VLLM\_USE\_PRECOMPILED=1 VLLM\_TEST\_USE\_PRECOMPILED\_NIGHTLY\_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss

最后，从榜单上来看，是追着Qwen3-32B Dense模型打。

picture.image

模型正在下载，后面测一测中文上效果到底如何~

PS：都看到这里，来个点赞、在看、关注吧。您的支持是我坚持的最大动力！

欢迎多多关注公众号「刘聪NLP」，加入交流群，交个朋友吧，一起学习，一起进步！