Doubao-Seed-Code 模型功能测评 - 文章 - 开发者社区

picture.image

火山引擎正式发布豆包编程模型（ Doubao-Seed-Code） ：专为 Agentic 编程任务深度优化，在 SWE-Bench-Verified 官方榜单中刷新 SOTA ，更兼容 Anthropic API 等主流开发环境。

详情使用请到官网查看： 火山引擎-云上增长新动力

picture.image

Doubao-Seed-Code 自带视觉理解能力，非工具调用实现，这在国内编程模型中为“首发”。VLM训练需要专业团队和数据积累，有一定技术壁垒，doubao 系列模型一直以来视觉理解能力非常强，Seed-Code 模型保持了这个优势。

国内市场：DeepSeek V3.1、Kimi K2、GLM 4.6、MiniMax M2 等 Coding 模型均不具备视觉理解能力，或需要依赖MCP实现，将图片转化成语义描述供模型理解，过程中信息折损会很大，效果远不及原生VLM能力

在之前，我是用过其他模型去生成一个地球地球自转的效果的，但是实现的效果并不是太好，我花费了大量的精力去和模型沟通过并调整代码，通过three.js等等方式来实现我想要的效果，但是结果还是。。。

picture.image

代码也是非常长的，新的豆包模型Doubao-Seed-Code在视觉能力上看起来表现出来了足够强的能力。同时对于上下文的支持程度也比较好，我准备用这个模型对之前的这套代码进行优化，看看是否能够展现出一个更好的地球自转模型。

选择这个模型我有以下的原因：

性能提升明显：处理大型项目没有特别大的压力

256K 长上下文：AI 可以理解更长的代码逻辑，处理多模块、多依赖项目不再吃力。
全量透明 Cache：在多轮调试中重复计算大幅减少，响应速度更快。

picture.image

2.价格便宜

输入输出单价全线下降，综合成本比市场平均低 62.7%。
Coding Plan：Lite 版本首月最低 9.9 元，Pro 版本仅 49.9 元。

picture.image

另外，Doubao-Seed-Code与字节跳动旗下IDE产品TRAE组合在一起有着更加亮眼的表现，在SWE-Bench-Verified中登顶SOTA；https://www.swebench.com/

picture.image

首月9.9也是毫无疑问可以用得起的，秉持的追寻能够提高代码开发效率工具的态度，开始对模型进行测评。测试的重点内容为前端。

作为国内首个支持视觉理解能力的编程模型，它可参照UI设计稿、截图或手绘草图生成代码，或对生成页面进行视觉比对，自主完成样式修复和Bug修复，大幅提升前端开发效率。

一、代码重构能力测试

既然模型是支持视觉理解能力的，我寻找了一张酷炫的地球自转的效果图丢给模型，让它根据效果图来进行代码改造，检验是否真的在视觉理解上有独特的能力。

不过地球自转的实现难度较大，主要依靠的并不是代码构建，而是需要不少的材质，我这个只是简单的一个html页面，并不是一个项目，所以这里只是看一下新模型对于代码的理解和优化能力。

picture.image

对于代办的任务，豆包模型给出了一个任务大纲。任务一旦过长了我就会担心在任务执行的过程中，模型对于环境上下文的理解是否会出现偏差，但好在新模型支持上下文足够支持这次任务的完成

picture.image

对于这几百行复杂的代码来说，等待的过程不长。

picture.image

第一次尝试。。。

模型输出了五百多行代码，第一次尝试的效果并不是很理想。

picture.image

第二次进行优化。。。

这次代码量直接膨胀到了一千多行。

picture.image

效果还是不错的，添加了星空的背景，地球可以进行缩放，而且还加上了光影效果。

最重要的是他竟然自己添加了一个新的星球在背景中，而且还完美的处理了球体之间的遮挡效果。

这个效果我是很满意的。

picture.image

二、系统模块图理解能力

现在开始军训新模型，我将提供一个系统设计图出来，需要纯前端展示，不接入后端，来看看模型的能力。

picture.image

我不在去告诉模型我要做什么，我只告诉模型应该遵循的一些规则。

prompt：

请实现图中内容。要求：禁止使用任何改变应用结构或组件化范式的 JavaScript 框架/库（例如：React, Vue, Angular）。可以cdn引用第三方库以满足题目要求，如Three.js，p5js。最终产物必须是纯粹的 HTML、CSS 和 JS 文件。如果需要创建多个文件（HTML/CSS/JS），请确保所有文件引用均使用相对路径。
所有文件需要保存在workspace目录下

picture.image

不得不说简直就是复制出来的。

picture.image

而且并不是简单的将页面复刻出来，对于页面中的功能，全部都是支持的。模型在分析页面元素布局的同时，分析了页面元素的能力。

picture.image

对于这种单页面的应用看起来是没问题的。来试一下系统的模块图。

picture.image

请用可以在页面中通过实际操作模拟的方式演示图中内容。要求：禁止使用任何改变应用结构或组件化范式的 JavaScript 框架/库（例如：React, Vue, Angular）。可以cdn引用第三方库以满足题目要求，如Three.js，p5js。最终产物必须是纯粹的 HTML、CSS 和 JS 文件。如果需要创建多个文件（HTML/CSS/JS），请确保所有文件引用均使用相对路径。

所有文件需要保存在workspace目录下

picture.image

我们的关注点是操作系统中的三大核心部分控制器、运算器以及存储器。来看一下豆包模型的具象化能力。

picture.image

页面实现了，但是我的期望是页面可以展示出一个简易的运算器，并且展示运算的过程，现在我将调整prompt来完成我的预期。

此处省略一万字。。。。。。。。。。

我设置了两个入参去展示两数之和在cpu中的运算流程，我发现这个模型做的css效果真是不错。

picture.image

三、项目生成能力

测试一个经典游戏生成的效果。

编写一个飞机大战游戏要求：禁止使用任何改变应用结构或组件化范式的 JavaScript 框架/库（例如：React, Vue, Angular）。可以cdn引用第三方库以满足题目要求，如Three.js，p5js。最终产物必须是纯粹的 HTML、CSS 和 JS 文件。如果需要创建多个文件（HTML/CSS/JS），请确保所有文件引用均使用相对路径。

所有文件需要保存在workspace目录下

picture.image