字节Doubao-Seed-Code来了!又一款国内顶级模型,附实测!

大模型开发与运维机器学习

大家好,我是刘聪NLP。

国内的Coding模型真是卷到飞起啦,还是程序员最懂程序员

这个双十一,字节火山发布了Doubao-Seed-Code模型,

官方的一些信息上来看,支持256K上下文,也是国内首个支持视觉理解能力的编程模型。

因为暂时没有技术报告,更多的细节可以去看一下,他们5月份开源的Seed-Coder模型,8B参数,我感觉应该会有一些关联,起码数据方面~

picture.image

https://arxiv.org/abs/2506.03524

里面有个部分,就是关于code预训练处理上的的内容,抛弃了之前的人工规则筛选&清洗方法,采用纯模型来去打分过滤,有一套数据处理流程,评分维度有四个,易读性、模块化、清晰度和可复用性。

picture.image

当然Post-traing部分也是十分重要的。PS:感兴趣的,可以去看一下原文。

啥也不说,我们先来看看,这次Doubao-Seed-Code整体模型效果。

先一个轻松愉快的小游戏,复刻经典黄金矿工,参考好友@袋鼠帝。

  
请生成一个经典的“黄金矿工”游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:  
核心玩法机制:  
钩爪摆动与发射: 游戏界面上方有一个矿工和他的卷轴,一个钩爪会自动左右来回摆动。当玩家按下任意键(或鼠标点击)时,钩爪会沿着当前方向直线发射出去。  
抓取与回收: 如果钩爪在伸出路径上碰到了地下的任何物品,它会抓住该物品并开始自动收回。回收的速度取决于所抓物品的重量,例如,小金块回收快,而巨大的岩石回收则非常慢。  
关卡目标: 每个关卡都有一个明确的时间限制(如60秒)和一个目标金额。玩家必须在规定时间内,抓取到总价值超过目标金额的物品才能成功过关。  
地下物品设定:  
黄金: 有多种不同尺寸和形状的金块。体积越大,价值越高,但也越重。  
钻石: 体积小,价值非常高,回收速度很快,是优先抓取的目标。  
石块: 价值极低,但异常沉重,抓到会浪费大量宝贵时间,应尽量避免。  
福袋(问号袋): 价值随机的袋子,可能开出高额金钱、力量药水或少量金钱。  
炸药桶: 如果钩爪不小心抓到它,它会立刻爆炸,并摧毁其周围一定范围内的所有物品(包括黄金和钻石)。  
商店与道具系统:  
在每个关卡成功结束后,会进入一个商店界面。玩家可以用当前关卡赚到的、超出目标金额的钱来购买道具,以备下一关使用。  
可购买的道具示例:  
炸药 (Dynamite): 当钩爪在回收过程中抓到了不想要的低价值物品(如石块)时,玩家可以按下一个特定按键使用炸药,将其在钩爪上直接炸毁,让钩爪立即空手收回,节省时间。  
力量药水 (Strength Potion): 在下一个关卡中,矿工的力量会增强,回收所有物品的速度都会显著提升。  
幸运草 (Lucky Clover): 在下一个关卡中,从福袋中获得好东西的概率会增加。  
视觉与界面要求:  
游戏应采用经典的2D卡通风格,矿工形象生动,黄金和钻石闪闪发光。  
用户界面必须清晰地显示三个核心信息:① 剩余时间、② 当前已获得的金额、③ 本关的目标金额。  
UI风格:漫画书风格,街机游戏UI,波普艺术,荧光粉和青色,半色调网点背景,粗描边字体,倾斜布局,高对比度,复古90年代,动态图形,硬阴影  

从整体效果上来看是不错的,交互逻辑、物理建模和页面理解都很到位。钩爪的摆动、抓取、计分、关卡目标这些都还原出来了。

逻辑上没有明显断层,物理建模上,没有叠在一起的黄金、石头或者钻石,钩爪的摆动速度曲线也很真实。同时UI配上上面也是符合描述,没有割裂感。

感觉稍微补点音效和节奏调优,就能拿去当成一个完整的可玩demo了,哈哈哈。

继续我们的N-Back实验,

  
你需要实现一个N-Back实验页面,  
N-Back实验的原理是,每隔1s闪烁一张图片,让用户判断当前的图片与前面第N张图片是否一致,一致选择是,不一致选择否。  
其中,图片为常见的10个中文汉字,["国", "火", "道", "市", "天", "家", "理", "态", "至", "心"]  
界面需要每次开始时,选N的值,选择为234,三种。  
需要用户点击30次,也就是不同N值时展现的图片个数不同,例如N=2,则需要32张图片,当第三张出现时,提醒用户开始点击。  
你需要记录两个内容,一个是用户点击是否准确,一个是出现图像到用户点击之间的时间,最后给出点击准确率和反应时间。  
注意:图片展示只有15次是N-back正确内容,防止实验过难或过于简单。  
实验过程,如果正确让用户点击“A”键,错误让用户点击“L”键。  
同时界面必须符合现代审美,实验结果可以导出下载。  

N-Back实验,依旧蓝紫色,虽然我说符合现代审美,也许现代审美就是蓝紫吧,哈哈哈,

不过所有功能都实现出来了,实验的基本结构,刺激呈现、反应判定、反馈统计。还有他的“正确”、“错误”显示还有阴影,显得不那么刺激视觉。

但其我之前有研究过,告知当前结果是否正确,其实会带来心里暗示,会更努力的去记忆。

还有就是上个月的真实需求,做合同信息抽取内容,除了抽取的本身核心功能之外,需要将抽取内容与原文关联,这样看起来更炫酷。最终的呈现,我也是比较满意的。

  
帮我实现一个合同信息抽取功能页面,  
你需要支持上传一个合同文件,这里包括docx和pdf格式,  
然后抽取文件中的甲方、乙方、甲方地址、乙方地址、合同编号、合同签署日期、合同签署地点、合同总金额等信息,  
所以抽取内容需要在文件展示的右侧进行逐条展示,  
核心是要支持原文关键信息定位,点击抽取信息即可定位对照原文,原文处高亮显示,如抽取错误可框选校正或手动编辑校正。  

当然,还可以加权限登录机制,我这了就没加了。一个真实可用的产品,还有很多丰富的内容要做,不过demo够用了,哈哈哈。

因为是字节,所以我们最后复刻一个简版抖音,哈哈哈哈!

还不错,登录、首页视频流、点赞、评论、等核心模块都还可以,还可以复刻上下滑动切换,但不知道为啥,视频有点雾蒙蒙的,看不太清楚,哈哈哈。

当然还有一些常用测试,比如小球、贪吃蛇、效果都很好,如下:

复刻word,

3D城市,

整体测试下来,能明显感受到模型的底层能力是扎实的。但单次生成有时会出现欠缺,不过在多轮交互、需求细化后,模型能迅速稳定地得到更好优化的结果,

当然本身在写代码的时候就是多次交互。Seed-Code的整体表现可以跟国内外的顶尖模型掰掰手腕。

当然,审美这一块没有到惊艳那种程度,但从风格一致性和完成度来说还是很不错的。

下面,是Claude Code快速地接入Doubao-Seed-Code,

最简单,就是直接改settings.json文件, Windows系统,一般路径是C:\Users\你的用户名.claude,

Mac系统,一般路径是~/.claude

  
{  
  "api\_key": "xxxxxxx",  
  "api\_url": "https://ark.cn-beijing.volces.com/api/compatible",  
  "model": "doubao-seed-code-preview-latest"  
}  

当然,环境变量也ok,

  
# linux或者mac运行  
export ANTHROPIC\_BASE\_URL="https://ark.cn-beijing.volces.com/api/compatible"  
export ANTHROPIC\_AUTH\_TOKEN="your bigmodel API keys"  
  
# windows运行  
$env:ANTHROPIC\_BASE\_URL="https://ark.cn-beijing.volces.com/api/compatible"  
$env:ANTHROPIC\_AUTH\_TOKEN="your bigmodel API keys"  

Doubao-Seed-Code模型榜单效果超越国内的模型,仅次于Sonnet4.5,Terminal、SWE、Multi-SWE等榜单如下,

picture.image

在价格上也是阶梯策略,0-32k、32-128k、128-256k三个挡位,还有全量透明cache,都知道code agent会有很多的cache,所以会更省钱。

还有就是火山也出了Coding Plan活动,Lite套餐,首购首月 9.9 元/月,后续续费40元/月;Pro套餐,首购首月仅需 49.9 元,后续续费200元/月;支持 Claude Code、Cursor、Cline、Codex CLI 等主流code工具。快速访问,点击文末阅读原文,即可跳转。

picture.image

最后想说,

字节的这波Doubao-Seed-Code现在出来,跟Trae用不了Claude,我觉得也有一定关系, 就像cursor现在也有自己的Composer模型一样,

卡脖子问题还是要解决的,

同时顶级的IDE工具,本身就会累计很多数据,很大用户真实场景,问法,

所以对于自身的迭代是很有帮助的。

字节的系列模型,真是除了不开源,其他的都很好,哈哈哈!

还有现在出现了一个新的词“大模型善后工程师”,现在AI从0到80做的很容易,但是从80-100确实有些难度,

大模型还需继续加油呀~

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论