Doubao-Seed-Code 模型功能测评

AI开放平台

picture.image

picture.image

火山引擎正式发布豆包编程模型( Doubao-Seed-Code) :专为 Agentic 编程任务深度优化,在 SWE-Bench-Verified 官方榜单中刷新 SOTA ,更兼容 Anthropic API 等主流开发环境。

详情使用请到官网查看: 火山引擎-云上增长新动力

picture.image

Doubao-Seed-Code 自带视觉理解能力,非工具调用实现,这在国内编程模型中为“首发”。VLM训练需要专业团队和数据积累,有一定技术壁垒,doubao 系列模型一直以来视觉理解能力非常强,Seed-Code 模型保持了这个优势。

  • 国内市场:DeepSeek V3.1、Kimi K2、GLM 4.6、MiniMax M2 等 Coding 模型均不具备视觉理解能力,或需要依赖MCP实现,将图片转化成语义描述供模型理解,过程中信息折损会很大,效果远不及原生VLM能力

在之前,我是用过其他模型去生成一个地球地球自转的效果的,但是实现的效果并不是太好,我花费了大量的精力去和模型沟通过并调整代码,通过three.js等等方式来实现我想要的效果,但是结果还是。。。

picture.image

代码也是非常长的,新的豆包模型Doubao-Seed-Code在视觉能力上看起来表现出来了 足够强的能力。同时对于上下文的支持程度也比较好,我准备用这个模型对之前的这套代码进行优化,看看是否能够展现出一个更好的地球自转模型。

选择这个模型我有以下的原因:

  1. 性能提升明显:处理大型项目没有特别大的压力

  • 256K 长上下文:AI 可以理解更长的代码逻辑,处理多模块、多依赖项目不再吃力。
  • 全量透明 Cache:在多轮调试中重复计算大幅减少,响应速度更快。

picture.image

2.价格便宜

  • 输入输出单价全线下降,综合成本比市场平均低 62.7%。
  • Coding Plan:Lite 版本首月最低 9.9 元,Pro 版本仅 49.9 元

picture.image

另外,Doubao-Seed-Code与字节跳动旗下IDE产品TRAE组合在一起有着更加亮眼的表现,在SWE-Bench-Verified中登顶SOTA;https://www.swebench.com/

picture.image

首月9.9也是毫无疑问可以用得起的,秉持的追寻能够提高代码开发效率工具的态度,开始对模型进行测评。测试的重点内容为前端。

作为国内首个支持视觉理解能力的编程模型,它可参照UI设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对,自主完成样式修复和Bug修复,大幅提升前端开发效率。

一、代码重构能力测试

既然模型是支持视觉理解能力的,我寻找了一张酷炫的地球自转的效果图丢给模型,让它根据效果图来进行代码改造,检验是否真的在视觉理解上有独特的能力。

不过地球自转的实现难度较大,主要依靠的并不是代码构建,而是需要不少的材质,我这个只是简单的一个html页面,并不是一个项目,所以这里只是看一下新模型对于代码的理解和优化能力。

picture.image

对于代办的任务,豆包模型给出了一个任务大纲。任务一旦过长了我就会担心在任务执行的过程中,模型对于环境上下文的理解是否会出现偏差,但好在新模型支持上下文足够支持这次任务的完成

picture.image

对于这几百行复杂的代码来说,等待的过程不长。

picture.image

第一次尝试。。。

模型输出了五百多行代码,第一次尝试的效果并不是很理想。

picture.image

第二次进行优化。。。

这次代码量直接膨胀到了一千多行。

picture.image

效果还是不错的,添加了星空的背景,地球可以进行缩放,而且还加上了光影效果。

最重要的是他竟然自己添加了一个新的星球在背景中,而且还完美的处理了球体之间的遮挡效果。

这个效果我是很满意的。

picture.image

picture.image

二、系统模块图理解能力

现在开始军训新模型,我将提供一个系统设计图出来,需要纯前端展示,不接入后端,来看看模型的能力。

picture.image

我不在去告诉模型我要做什么,我只告诉模型应该遵循的一些规则。

prompt:

请实现图中内容。要求:禁止使用任何改变应用结构或组件化范式的 JavaScript 框架/库(例如:React, Vue, Angular)。可以cdn引用第三方库以满足题目要求,如Three.js,p5js。最终产物必须是纯粹的 HTML、CSS 和 JS 文件。如果需要创建多个文件(HTML/CSS/JS),请确保所有文件引用均使用相对路径。
所有文件需要保存在workspace目录下

picture.image

不得不说简直就是复制出来的。

picture.image

而且并不是简单的将页面复刻出来,对于页面中的功能,全部都是支持的。模型在分析页面元素布局的同时,分析了页面元素的能力。

picture.image

对于这种单页面的应用看起来是没问题的。来试一下系统的模块图。

picture.image

请用可以在页面中通过实际操作模拟的方式演示图中内容。要求:禁止使用任何改变应用结构或组件化范式的 JavaScript 框架/库(例如:React, Vue, Angular)。可以cdn引用第三方库以满足题目要求,如Three.js,p5js。最终产物必须是纯粹的 HTML、CSS 和 JS 文件。如果需要创建多个文件(HTML/CSS/JS),请确保所有文件引用均使用相对路径。

所有文件需要保存在workspace目录下

picture.image

我们的关注点是操作系统中的三大核心部分控制器、运算器以及存储器。来看一下豆包模型的具象化能力。

picture.image

页面实现了,但是我的期望是页面可以展示出一个简易的运算器,并且展示运算的过程,现在我将调整prompt来完成我的预期。

此处省略一万字。。。。。。。。。。

我设置了两个入参去展示两数之和在cpu中的运算流程,我发现这个模型做的css效果真是不错。

picture.image

picture.image

三、项目生成能力

测试一个经典游戏生成的效果。

编写一个飞机大战游戏要求:禁止使用任何改变应用结构或组件化范式的 JavaScript 框架/库(例如:React, Vue, Angular)。可以cdn引用第三方库以满足题目要求,如Three.js,p5js。最终产物必须是纯粹的 HTML、CSS 和 JS 文件。如果需要创建多个文件(HTML/CSS/JS),请确保所有文件引用均使用相对路径。

所有文件需要保存在workspace目录下

picture.image

第一次生成的效果较为简单。

picture.image

picture.image

调整prompt后再次尝试,不断地给模型输入 炫酷!炫酷!炫酷!

picture.image

picture.image

这次颜色更改了,背景也变成了星空特效,还增加了击打特效,不过gif图片看不清楚,我会让模型继续调整,放大窗口并添加敌人子弹射击逻辑。

picture.image

picture.image

四、轻量级使用

如果只是轻量级使用,可以到官网进行测试,我在使用的过程中发现了比较有趣的功能。

picture.image

插入视频的首帧和尾帧,用于一段视频的变换,一个邪恶的计划出现在我的脑海中。

picture.image

结果我就不再展示了

3d生成的效果也是不错的。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
从客户痛点到工程化产品:火山方舟 PromptPilot 落地实践启示录
本次分享将结合火山引擎服务多行业客户的实战洞察,剖析大模型落地中的核心挑战,详解火山方舟 PromptPilot 如何构建四大核心 “超能力模块”,助力产品成为 AI 能力进化的多维引擎,分享从定制化服务到工程化产品的决策逻辑与实践细节,并沉淀可复用的技术架构与产品化启示。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论