9块9元包月的Doubao Seed Code没想到能这么稳,复杂需求一次就对了

AIGC

大家好,我是子昕。

我最近一直在找Claude Code的替代品,测了GLM-4.6、Kimi K2 thinking。

11号火山引擎又出了Doubao Seed Code。

这次测完,任务管理那个复杂需求一轮全对,我是真没想到。

核心要点

  1. SWE-Bench Verified登顶(配合TRAE达78.80%),国产编程模型第一梯队
  2. 任务管理一次写对:子任务时间约束、四象限视图、进度条,所有逻辑第一轮就对,打95分
  3. 256K长上下文:后端递归问题,它自己找出所有相关代码文件并分析,给出的方案和Codex一模一样,打90分
  4. 价格确实低:官方测算综合成本0.34元,比GLM-4.6(0.77元)还低一半,Coding Plan首月9.9元
  5. 多轮对话+美观度指令有效:Notion项目第一版简陋,加了“现代/精美”后才好看,打75分
  6. 国内首个视觉编程模型:能看UI稿生成代码,我没深测,有测过的可以评论区分享

真诚地说,Doubao代码能力在国产第一梯队,但和Claude Sonnet 4.5还是有差距的。不过响应速度稍慢但能接受,价格便宜,稳定不封号,日常开发完全够用。

一、为什么又在测模型?

Claude Code用了大半年,今年的情况大家都懂:价格涨、限流、封号。

从那时候我就开始找替代品。先测了GLM-4.6,智谱说是“最强代码模型”。日常开发够用,但遇到复杂多模块依赖,理解能力还是差点。

上个月Kimi K2 Thinking出了,我也测了,前端能力强。

11号火山引擎发布Doubao Seed Code,SWE-Bench Verified登顶SOTA,说价格国内最低。我想着正好测一轮,看看这三个(GLM、Kimi K2、Doubao)哪个最适合日常用。

二、接入方式:30秒切换Claude Code

在终端配置环境变量,启动Claude Code前输入

export ANTHROPIC_BASE_URL=https://ark.cn-beijing.volces.com/api/coding
export ANTHROPIC_AUTH_TOKEN=<你的ARK-API-KEY>
export ANTHROPIC_MODEL=doubao-seed-code-preview-latest

如果长期使用,可以直接修改配置文件:

~/.claude/settings.json

修改为:

{
  "api_key": "你的API-KEY""api_url": "https://ark.cn-beijing.volces.com/api/coding",
  "model": "doubao-seed-code-preview-latest"
}

我是在Claude Code里测的。

据官方说明,在TRAE里测试效果可能还会更好,我没试过,有用TRAE测过的可以评论区分享下体验。

三、实测项目:任务管理一次全对,真没想到

我测了四个项目,重点说两个。

任务管理应用:一次写对,打95分

这个需求最复杂,我给了非常完整的说明:主任务+子任务层级,子任务时间必须在父任务范围内(这个约束很容易出bug),列表视图+四象限视图切换,倒计时+进度条动态更新,排序和过滤。

看我的提示词感受下:

picture.image picture.image

picture.image

由于需求描述非常详细,一轮实现的效果就很好。所有功能、约束和页面展示全部正确,我一次都没调。

子任务时间约束这个逻辑,第一轮就对了。如果父任务是9:00-12:00,子任务只能在这区间设置,边界条件处理到位。四象限视图的拖拽、进度条更新、localStorage持久化,全没问题。

这个真的惊到我了。 之前用其他工具做类似需求,边界条件总要调一两轮。这次一次就对,说明Doubao对复杂业务逻辑的理解是到位的。

我给这个项目打95分。扣5分是响应稍慢,但完全能接受。

Notion笔记应用:调了几轮,打75分

需求:侧边栏树形目录、Markdown编辑器、拖拽排序、搜索。

picture.image

这是调了几轮后的效果。 第一版界面简陋,树形目录展开收起有bug,拖拽也不流畅。

反复沟通几轮,并在Prompt里加“界面要现代/高级/精美”后,才达到现在这样。

官方说的多轮对话+美观度指令,是真的有效。 复杂项目不要一次性扔所有需求,分轮调整效果更好。

期货交易模拟器+超级玛丽:一次成型

picture.image

期货交易模拟器,要求用Three.js做可视化,实时K线图、订单簿、持仓显示、买卖交易逻辑。看gif感受下,K线图更新流畅,订单簿数据准确,交易逻辑没bug。这个项目我基本也没调试过,一次成型。

picture.image

超级玛丽小游戏,原生JS写的,碰撞检测、跳跃物理、分数计算、方向键移动、空格跳跃响应正常,帧率稳定。同样是一次成型,效果也很不错。

四、后端实战:256K长上下文,自己找出所有相关文件

我手里项目有个复杂问题,之前用Codex解决过,这次想看Doubao能不能给出同样方案。

问题场景

后端有个路径管理模块,类似网盘的文件夹结构,父子关系+权限控制。现在要查询某个资源时显示完整路径(比如A/B/C这种),但当前设计涉及递归查询,性能很差。

我只是描述了这个问题,没有告诉它具体哪些文件、哪些表。

Doubao做的第一件事:自己去项目里找相关代码文件。

它找出了路径管理模块的几个核心文件,包括路径节点的数据结构定义、关系维护逻辑、查询接口等。

然后自己分析出了整个设计:怎么存储节点关系的,怎么处理父子关系的,现在的查询逻辑为什么慢。

这个完全是它自己找的文件,自己分析出来的。我只描述了问题。

然后它给出方案:利用一种特殊的关系表来存储所有祖先-后代关系,查询时直接关联这个表,按层级排序拼接,避免递归。

关键的是,这个方案和我之前用Codex得出的一模一样。 包括表设计思路、查询逻辑、性能优化点,完全一致。

这里特别体现了256K长上下文的价值。 它能在项目里自己找相关文件,完整理解代码结构,给出系统性方案。处理真实项目时,这个能力太重要了。

我给这个实战打90分。方案完整,和Codex一致,能力没让人失望。

五、价格对比:比GLM-4.6还低

Doubao采用分层定价,0-32k区间输入1.20元/百万tokens、输出8.00元,配合全量透明Cache,综合成本降62.7%。

官方测算(创建英语学习网站,0-32k区间):

  • Claude Sonnet 4.5:约4.05元
  • GLM-4.6:约0.77元
  • Doubao:约0.34元

单看价格,Doubao输入比GLM贵0.4元、输出贵6元。但架不住Cache省得多,综合成本比GLM低一半多。

Coding Plan套餐:、

  • Lite首月9.9元、续费40元/月(中等强度)
  • Pro首月49.9元、续费200元/月(复杂项目)。

支持Claude Code、Cursor、Cline、Codex CLI等。

六、硬实力:SWE-Bench登顶+国内首个视觉模型

SWE-Bench Verified榜单:Doubao配合TRAE达78.80%,登顶SOTA。这个榜单评估真实GitHub项目修Bug能力,含金量高。

picture.image

在TerminalBench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands等多项测试中,Doubao表现优异,领先国内同类模型。

256K长上下文:比Claude的200K、GLM的200K都长。后端多模块项目很友好。

国内首个视觉编程模型

能看UI稿、截图或手绘草图生成代码,对生成页面做视觉比对修复。

这个能力目前国内其他编程模型都没有。我还没深度测试视觉编程能力,有测过的可以评论区分享下效果。

七、使用建议

实测经验

  1. 多轮对话效果更好:Notion就是例子,复杂项目第一轮搭基础,后面几轮调细节
  2. Prompt加美观度指令:比如“现代”“精美”“酷炫”,界面确实会好看很多
  3. 需求描述越详细越好:任务管理一次对,就是因为PRD很详细
  4. 响应速度:稍慢但能接受,不是卡死的慢,就是思考时间长点

八、总结

测了GLM-4.6、Kimi K2、Doubao,几个收获:

  1. 能力在线:任务管理一次全对(所有约束逻辑),后端问题自己找文件分析,方案和Codex一致,SWE-Bench登顶不是吹的
  2. 256K长上下文真有用:不用告诉它哪些文件,它能自己找出来分析。真实项目太需要这能力了
  3. 多轮对话+美观度指令有效:Notion就是证明
  4. 价格真香:综合成本0.34元,比GLM(0.77元)低一半,首月9.9元

如果你也在纠结Claude贵+限流,或在GLM、Kimi K2之间选,试试Doubao。首月9.9元,试错成本低。

欢迎测过的朋友评论区分享

  • 在TRAE里用Doubao的效果怎么样?
  • 视觉编程能力(看图写代码)体验如何?
0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论