字节开源Seed-OSS模型,36B的理想尺寸,但中文好像不行

大模型向量数据库云安全

大家好,我是刘聪NLP。

好起来,这两个月,阿里、腾讯、字节、百度、DeepSeek、智谱、阶跃、百川、小红书、知乎、昆仑万维等等等,你能想到的大模型公司,都开源了。

国内的环境真变了,国内国外基本上已经走上了两个极端!

昨天晚上,字节也开源了大模型-Seed-OSS,36B大小,有三个模型,

Seed-OSS-36B-Base:预训练模型,

Seed-OSS-36B-Base-woSyn:去除合成数据的预训练模型,

Seed-OSS-36B-Instrcut:指令模型。

HF:https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

Seed-OSS模型的预训练数据12T Tokens,知识截止时间为 2024 年 7 月,同时针对英语进行的优化和评估,其他语言的性能有限,且尚未经过严格的测试。

放出非合成数据版本模型,是一个亮点,大家都知道,在预训练阶段加入合成数据、指令数据,核心是为了给Base提点,榜单好看。

但Seed-OSS这么放出来,相当于端到了明面上,

也给很多人提供了更多的研究选择,值得夸一波。

但很可惜的是,训练语言,不知道为啥不在中文上也训练一下,36B完美的尺寸,

当然我还没有真正测试中文上的场景,但没有训练应该也不会太好,毕竟数据是12T,也不是太多。

picture.image

然后模型参数结构如下,36B、GQA、SwiGLU等等,

picture.image

模型特点是,增加了思维预算内容,支持用户根据需求灵活调整推理长度;在工具调用上做了专门的训练,agent任务表现出色。

在思维预算阶段,模型会不断反思,预估还有多少Token 预算可以使用,并在预算耗尽或者推理结束后给出最终答案。官方建议预算是512的倍数,不指定则无限推理。

  
<seed:think>  
Got it, let's try to solve this problem step by step. The problem says ... ...  
<seed:cot\_budget\_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot\_budget\_reflect>  
Using the power rule, ... ...  
<seed:cot\_budget\_reflect>I have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot\_budget\_reflect>  
Alternatively, remember that ... ...  
<seed:cot\_budget\_reflect>I have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot\_budget\_reflect>  
Because if ... ...  
<seed:cot\_budget\_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot\_budget\_reflect>  
</seed:think>  
To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).  

模型如果需要vllm使用,需要装指定版本,

  
VLLM\_USE\_PRECOMPILED=1 VLLM\_TEST\_USE\_PRECOMPILED\_NIGHTLY\_WHEEL=1 pip install git+ssh://git@github.com/FoolPlayer/vllm.git@seed-oss  

最后,从榜单上来看,是追着Qwen3-32B Dense模型打。

picture.image

模型正在下载,后面测一测中文上效果到底如何~

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论