双十一,火山引擎发布了一款专为 Agentic 编程任务深度优化,在SWE-Bench-Verified官方榜单中刷新SOTA的编程模型:
「 Doubao-Seed-Code 」
Doubao-Seed-Code 在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威评测中均表现突出,部分榜单甚至超过了 Claude 4.5 Sonnet。
与字节跳动自家的IDE产品TRAE组合在SWE-Bench-Verified中一举夺魁,登顶榜单SOTA。
同时,Doubao-Seed-Code也是国内首个支持视觉理解能力的编程模型,可参照UI设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对,自主完成样式修复和Bug修复,从而大幅提升前端开发效率。
这样的模型,首购首月9.9。
这还不算完,在调用价格上,Doubao-Seed-Code不仅在输入输出单价上给到最低,同时采用全量透明Cache,成本再降低80%。
在实际使用场景中,综合使用成本降低62.7%, 从而实现了目前国内最低价格。
我也第一时间上手测试,既然都能跟Claude 4.5 Sonnet掰手腕了,那么我们的所有Case都上点难度。
「 Case1:炸弹人小游戏 」
大家小时候是否玩过红白机,红白机里面,有一个著名的游戏《炸弹人》,是现在泡泡堂这类游戏的前身,就是小人放炸弹,用来炸掉砖块和炸死敌人,最终成功通关,我小时候玩的不亦乐乎。
既然是Agentic编程模型,我想他会懂我意思的,直接提出大白话需求:
你知道【炸弹人】小游戏吗?我想玩这个游戏,给我生成代码
三分钟后,一气呵成,无任何调整。效果如下:
蓝色的是玩家,红色是怪物,绿色是炸弹,炸弹会定时爆炸消灭敌人得分。
整体游戏逻辑全部完成,如果再把把蓝色块改成小人icon图,把红色块改成敌人icon图,还有一些细小的逻辑简单处理一下就直接能分享给别人玩了。
「 Case2:让AI优化AI代码 」
用过AI生成代码的小伙伴一定经历过,AI生成的代码,项目一时爽,维护火葬场。动不动写上几千行,经过多次修改后,虽然确实能跑起来,但是实际上去读代码的时候,就会发现:代码是一环套一环,一坑接一坑,逻辑那叫一个乱,不花个几个小时去读代码,根本都读不懂。
这一把,我们用魔法打败魔法🧙AI鼓捣的屎山还得AI搬。
这是一个2916行的html项目,实际逻辑并不复杂,但是因为是AI多轮生成的,导致大量代码是重复的逻辑,并且所有的逻辑(js、css等)都在这一个页面中。
我们之前在生成代码时,其实有试过让Claude 3.7 sonnet帮我们简化代码逻辑,但是优化完100%报错,只有Claude 4.5 sonnet尚有一战之力。这次借着Doubao-Seed-Code,尝试了一下让豆包帮忙重写。
简化这个文件。这里所有的js和css都 融在这一个文件中了,并且实现的逻辑很乱很复杂,希望你能帮我简化这段代码,把js和css的代码拆成单独的文件通过引用来实现,而不是全都杂糅在这一个文件中。
Doubao-Seed-Code经过接近10分钟的了解代码和修改代码。
这中间出现了两三次:超过上下文长度的提醒,我让他继续了三次。
经过豆包的优化,这个主文件从2916行降到了616行,并且把css和js拆到了不同的文件中,增加了对这些文件的引用。不过代码有多少行其实不重要,更重要的是修改的准确性。
测试后,不仅能正常启动,还没有出现新的bug,业务逻辑与之前完全一致。
牛逼,这把过关!
「 Case3:手搓PDF转Word工具 」
请开发一个功能完整、易用的PDF转Word小工具,具体要求如下:
### 一、核心功能
1. **PDF转Word**:支持将PDF文件转换为可编辑的Word文档(.docx格式)
2. **格式保留**:尽可能保留原始PDF的格式(排版、字体、图片、表格等)
3. **批量转换**:支持同时转换多个PDF文件
4. **转换设置**:可选设置(如是否保留图片、是否转换页码等)
5. **进度显示**:实时显示转换进度
6. **转换结果**:转换完成后可直接打开输出目录
### 二、技术栈选择
1. **开发语言**:Python(跨平台、易维护)
2. **界面框架**:PyQt5或Tkinter(选择其一即可,要求界面简洁美观)
3. **PDF处理库**:使用pdf2docx、PyPDF2或其他成熟库
4. **其他依赖**:根据需要选择合适的辅助库
### 三、界面设计要求
1. **主界面**:简洁直观,包含以下核心组件:
- 文件选择区:支持单个文件选择和文件夹选择
- 输出目录选择:默认与源文件同目录,可自定义
- 转换设置区:关键转换选项的复选框
- 开始/取消按钮:明显的操作按钮
- 进度显示区:进度条或文本显示转换进度
- 日志信息区:显示转换状态和结果
2. **交互流程**:
- 选择PDF文件或文件夹
- (可选)调整转换设置
- 选择输出目录
- 点击开始转换
- 查看转换进度和结果
- 转换完成后可打开输出目录
### 四、用户体验优化
1. **错误处理**:对无效文件、权限问题等进行友好提示
2. **拖放支持**:支持将PDF文件拖放到界面进行转换
3. **默认设置**:提供合理的默认转换设置,减少用户操作
4. **操作反馈**:转换过程中显示实时状态,避免用户等待焦虑
5. **日志记录**:保存转换日志,便于问题排查
### 五、输出要求
1. **完整代码**:包含所有必要的Python文件
2. **依赖说明**:requirements.txt文件,列出所有依赖库及其版本
3. **运行说明**:README.md文件,包含安装和使用步骤
4. **打包选项**:提供将代码打包为可执行文件(.exe/.app)的方法说明
### 六、其他要求
1. **跨平台支持**:确保在Windows、macOS和Linux上都能正常运行
2. **代码质量**:结构清晰、注释完善、易于维护
3. **性能优化**:针对大文件转换进行优化,避免内存占用过高
请按照上述要求开发工具,并提供完整的项目代码和说明文档。
一把完成,逻辑完整:
拿一篇带图的PDF测试一下,完全没问题,连空格格式都保持一致。
「 Case4:3D小猫 」
作为一名专精于Three.js的创意技术总监和可视化专家,你擅长将复杂信息转化为引人入胜的交互式3D体验。请为我提供的任何主题或内容创建一个令人惊艳的单页面HTML展示,融合高级视觉设计和沉浸式3D效果。
## 关键技术要素
使用以下技术栈构建沉浸式体验:
- Three.js (https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.min.js)
- 内嵌自定义控件代码,避免外部依赖问题
- Tailwind CSS (https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css)
- Font Awesome (https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css)
- 中文排版使用 Noto Serif SC 和 Noto Sans SC
- GSAP动画库 (https://cdnjs.cloudflare.com/ajax/libs/gsap/3.12.2/gsap.min.js)
## 3D场景设计
根据内容主题,设计一个完整的Three.js场景,可能包括:
- 适合主题的3D几何体、模型或粒子系统
- 动态相机和光照设置
- 基于滚动或用户交互的动画效果
- 在3D环境与2D内容之间建立有意义的联系
- 环境氛围(雾效、阴影、反射等)增强视觉深度
## UI与内容布局最佳实践
遵循以下布局原则,确保3D内容成为焦点:
- 3D场景应占据主要视觉空间,内容不应遮挡3D体验
- 使用可折叠侧边栏或模态框展示详细文字内容
- 鼠标放到侧边栏,自动展开,移开后缩回去。
- 为3D元素添加标签系统,允许用户了解各部分功能和意义
- 使用半透明UI元素,在提供信息的同时不阻断3D场景的可见性
## 交互提示系统
设计直观的交互引导体验:
- 添加简洁的初始操作提示,几秒后自动降低透明度
- 在用户执行操作时提供即时反馈,更新提示内容
- 为关键3D元素添加标签或高亮效果,帮助用户理解场景
- 设计清晰的控制按钮,具有明确的视觉状态变化
- 在复杂操作前提供简短教程或演示
- 3D模型自动循环,但速度要慢。
## 设计原则
遵循以下设计原则创建引人入胜的体验:
- 整合而非装饰:3D元素应直接服务于内容表达,而非仅作装饰
- 性能优先:确保复杂视觉效果不影响页面加载和运行速度
- 沉浸式叙事:利用3D效果构建内容的视觉叙事层次
- 交互深度:添加多层次交互,让用户通过探索发现内容
- 响应式适配:确保在所有设备上提供最佳体验,智能降级复杂效果
## 额外加分
可选择以下一种或多种创意方向拓展体验:
- 物理引擎模拟:使用cannon.js等物理引擎创建具有真实感的交互
## 输出成果
提供包含以下内容的完整解决方案:
1. 单一HTML文件,包含所有必要CSS和JavaScript(避免外部依赖)
2. 只输出HTML,不要其他任何引导语和介绍。
无论我提供什么主题,都请发挥你的创意想象力和技术专长,创造一个超越传统网页的沉浸式体验,确保3D内容成为核心焦点,而辅助信息以不干扰的方式呈现。
待处理主题:一只小猫
拖拽视角、放大缩小都没问题,但是小猫的胡子有点长歪了。瑕不掩瑜,还算可以。
「 Case5:祖传3D小球碰撞 」
我感觉下一次这个case就可以放弃了,大家基本上都要跑到极致效果,呈现趋近于一致了。不过同样的Case可以直观的看出豆包模型的进步还挺大的
编写一个 p5.js 脚本,模拟 100 个彩色小球在一个3D大球体内部弹跳。每个小球都应留下一条逐渐消失的轨迹。大球体应缓慢旋转,并显示透明的轮廓线。请确保实现适当的碰撞检测,使小球保持在球体内部。
实测能力的确不俗,究其原因,与因为豆包团队构建了的大规模 RL 系统不无关系。
**这是一个覆盖10万容器镜像的庞大训练数据集,支持端到端沙盒环境评测。具备万级并发沙盒 session 能力,依托千卡GPU集群实现高效并行训练。让模型直接在沙盒中端到端的强化学习,而不是依赖蒸馏过程。**
从端到端的训练过程评测结果上看, multi-swe-bench 和 swe-bench-verified 两个数据集上呈现一致的上升趋势,表明模型具有良好的泛化能力。甚至在SWE-bench基准测试中,模型仅依赖 RL训练就达到当前最优水平,这意味着强化学习在软件工程场景下也具备极大潜力。
如果你也迫不及待的想体验一下最新模型,在Trae中现已支持,可以直接选择使用。
同时Doubao-Seed-Code也面向 Claude Code、veCLI等主流 开发工具 做了特别优化,调用更稳定,如果你习惯用Claude Code可以参考下方步骤直接接入。小白可以移步参考更详细的教程:Claude断供,火山引擎助你一分钟“搬家”国产模型
老手直接打开 ~/.claude/settings.json 文件,替换为下方的内容配置上自己的方舟API key即可。
今天同步发布的火山方舟Coding Plan,是为开发者量身定制的AI Coding场景订阅服务,支持最新的Doubao-Seed-Code模型多款主流 AI 编码工具。
实话说,多模态模型这个价,9.9是绝对超值价!
(订阅地址放在文末)
-
Lite套餐适合大多数开发者,首购首月 9.9 元/月,后续续费40元/月;
-
复杂项目可选择Pro套餐,首购首月 49.9 元,后续续费200元/月;
「 最后 」
火山引擎这次双十一发布的Doubao-Seed-Code,确实是一款“专为实战”而生的模型。
无论是从零生成“炸弹人”,还是硬核重构“X山”代码,亦或是手搓工具,它都给出了符合预期的结果。这背后,是RL端到端训练和庞大数据集的硬实力支撑。
SOTA级的性能,加上9.9元的首月订阅价,对于追求高效编码的开发者而言,这无疑是当下最具性价比的选择。
文末点击“ 阅读原文 ”可直达方舟Coding Plan计划,推荐大家上手一试。
这是我的第101篇原创,好久不抽奖了。评论区留言「豆包」,抽20个小伙伴送9.9🧧畅玩Doubao-Seed-Code!
祝君好运,这里是梦飞 AI,我们下次见~
往期推荐
