大家好,我是子昕。
我最近一直在找Claude Code的替代品,测了GLM-4.6、Kimi K2 thinking。
11号火山引擎又出了Doubao Seed Code。
这次测完,任务管理那个复杂需求一轮全对,我是真没想到。
核心要点
- SWE-Bench Verified登顶(配合TRAE达78.80%),国产编程模型第一梯队
- 任务管理一次写对:子任务时间约束、四象限视图、进度条,所有逻辑第一轮就对,打95分
- 256K长上下文:后端递归问题,它自己找出所有相关代码文件并分析,给出的方案和Codex一模一样,打90分
- 价格确实低:官方测算综合成本0.34元,比GLM-4.6(0.77元)还低一半,Coding Plan首月9.9元
- 多轮对话+美观度指令有效:Notion项目第一版简陋,加了“现代/精美”后才好看,打75分
- 国内首个视觉编程模型:能看UI稿生成代码,我没深测,有测过的可以评论区分享
真诚地说,Doubao代码能力在国产第一梯队,但和Claude Sonnet 4.5还是有差距的。不过响应速度稍慢但能接受,价格便宜,稳定不封号,日常开发完全够用。
一、为什么又在测模型?
Claude Code用了大半年,今年的情况大家都懂:价格涨、限流、封号。
从那时候我就开始找替代品。先测了GLM-4.6,智谱说是“最强代码模型”。日常开发够用,但遇到复杂多模块依赖,理解能力还是差点。
上个月Kimi K2 Thinking出了,我也测了,前端能力强。
11号火山引擎发布Doubao Seed Code,SWE-Bench Verified登顶SOTA,说价格国内最低。我想着正好测一轮,看看这三个(GLM、Kimi K2、Doubao)哪个最适合日常用。
二、接入方式:30秒切换Claude Code
在终端配置环境变量,启动Claude Code前输入:
export ANTHROPIC_BASE_URL=https://ark.cn-beijing.volces.com/api/coding
export ANTHROPIC_AUTH_TOKEN=<你的ARK-API-KEY>
export ANTHROPIC_MODEL=doubao-seed-code-preview-latest
如果长期使用,可以直接修改配置文件:
~/.claude/settings.json
修改为:
{
"api_key": "你的API-KEY",
"api_url": "https://ark.cn-beijing.volces.com/api/coding",
"model": "doubao-seed-code-preview-latest"
}
我是在Claude Code里测的。
据官方说明,在TRAE里测试效果可能还会更好,我没试过,有用TRAE测过的可以评论区分享下体验。
三、实测项目:任务管理一次全对,真没想到
我测了四个项目,重点说两个。
任务管理应用:一次写对,打95分
这个需求最复杂,我给了非常完整的说明:主任务+子任务层级,子任务时间必须在父任务范围内(这个约束很容易出bug),列表视图+四象限视图切换,倒计时+进度条动态更新,排序和过滤。
看我的提示词感受下:
由于需求描述非常详细,一轮实现的效果就很好。所有功能、约束和页面展示全部正确,我一次都没调。
子任务时间约束这个逻辑,第一轮就对了。如果父任务是9:00-12:00,子任务只能在这区间设置,边界条件处理到位。四象限视图的拖拽、进度条更新、localStorage持久化,全没问题。
这个真的惊到我了。 之前用其他工具做类似需求,边界条件总要调一两轮。这次一次就对,说明Doubao对复杂业务逻辑的理解是到位的。
我给这个项目打95分。扣5分是响应稍慢,但完全能接受。
Notion笔记应用:调了几轮,打75分
需求:侧边栏树形目录、Markdown编辑器、拖拽排序、搜索。
这是调了几轮后的效果。 第一版界面简陋,树形目录展开收起有bug,拖拽也不流畅。
反复沟通几轮,并在Prompt里加“界面要现代/高级/精美”后,才达到现在这样。
官方说的多轮对话+美观度指令,是真的有效。 复杂项目不要一次性扔所有需求,分轮调整效果更好。
期货交易模拟器+超级玛丽:一次成型
期货交易模拟器,要求用Three.js做可视化,实时K线图、订单簿、持仓显示、买卖交易逻辑。看gif感受下,K线图更新流畅,订单簿数据准确,交易逻辑没bug。这个项目我基本也没调试过,一次成型。
超级玛丽小游戏,原生JS写的,碰撞检测、跳跃物理、分数计算、方向键移动、空格跳跃响应正常,帧率稳定。同样是一次成型,效果也很不错。
四、后端实战:256K长上下文,自己找出所有相关文件
我手里项目有个复杂问题,之前用Codex解决过,这次想看Doubao能不能给出同样方案。
问题场景:
后端有个路径管理模块,类似网盘的文件夹结构,父子关系+权限控制。现在要查询某个资源时显示完整路径(比如A/B/C这种),但当前设计涉及递归查询,性能很差。
我只是描述了这个问题,没有告诉它具体哪些文件、哪些表。
Doubao做的第一件事:自己去项目里找相关代码文件。
它找出了路径管理模块的几个核心文件,包括路径节点的数据结构定义、关系维护逻辑、查询接口等。
然后自己分析出了整个设计:怎么存储节点关系的,怎么处理父子关系的,现在的查询逻辑为什么慢。
这个完全是它自己找的文件,自己分析出来的。我只描述了问题。
然后它给出方案:利用一种特殊的关系表来存储所有祖先-后代关系,查询时直接关联这个表,按层级排序拼接,避免递归。
关键的是,这个方案和我之前用Codex得出的一模一样。 包括表设计思路、查询逻辑、性能优化点,完全一致。
这里特别体现了256K长上下文的价值。 它能在项目里自己找相关文件,完整理解代码结构,给出系统性方案。处理真实项目时,这个能力太重要了。
我给这个实战打90分。方案完整,和Codex一致,能力没让人失望。
五、价格对比:比GLM-4.6还低
Doubao采用分层定价,0-32k区间输入1.20元/百万tokens、输出8.00元,配合全量透明Cache,综合成本降62.7%。
官方测算(创建英语学习网站,0-32k区间):
- Claude Sonnet 4.5:约4.05元
- GLM-4.6:约0.77元
- Doubao:约0.34元
单看价格,Doubao输入比GLM贵0.4元、输出贵6元。但架不住Cache省得多,综合成本比GLM低一半多。
Coding Plan套餐:、
- Lite首月9.9元、续费40元/月(中等强度)
- Pro首月49.9元、续费200元/月(复杂项目)。
支持Claude Code、Cursor、Cline、Codex CLI等。
六、硬实力:SWE-Bench登顶+国内首个视觉模型
SWE-Bench Verified榜单:Doubao配合TRAE达78.80%,登顶SOTA。这个榜单评估真实GitHub项目修Bug能力,含金量高。
在TerminalBench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands等多项测试中,Doubao表现优异,领先国内同类模型。
256K长上下文:比Claude的200K、GLM的200K都长。后端多模块项目很友好。
国内首个视觉编程模型:
能看UI稿、截图或手绘草图生成代码,对生成页面做视觉比对修复。
这个能力目前国内其他编程模型都没有。我还没深度测试视觉编程能力,有测过的可以评论区分享下效果。
七、使用建议
实测经验:
- 多轮对话效果更好:Notion就是例子,复杂项目第一轮搭基础,后面几轮调细节
- Prompt加美观度指令:比如“现代”“精美”“酷炫”,界面确实会好看很多
- 需求描述越详细越好:任务管理一次对,就是因为PRD很详细
- 响应速度:稍慢但能接受,不是卡死的慢,就是思考时间长点
八、总结
测了GLM-4.6、Kimi K2、Doubao,几个收获:
- 能力在线:任务管理一次全对(所有约束逻辑),后端问题自己找文件分析,方案和Codex一致,SWE-Bench登顶不是吹的
- 256K长上下文真有用:不用告诉它哪些文件,它能自己找出来分析。真实项目太需要这能力了
- 多轮对话+美观度指令有效:Notion就是证明
- 价格真香:综合成本0.34元,比GLM(0.77元)低一半,首月9.9元
如果你也在纠结Claude贵+限流,或在GLM、Kimi K2之间选,试试Doubao。首月9.9元,试错成本低。
欢迎测过的朋友评论区分享:
- 在TRAE里用Doubao的效果怎么样?
- 视觉编程能力(看图写代码)体验如何?
