国内首个支持视觉的 Agentic 编程模型来了!性能更强,价格更低

火山方舟大模型开发与运维

双十一,火山引擎发布了一款专为 Agentic 编程任务深度优化,在SWE-Bench-Verified官方榜单中刷新SOTA的编程模型:

「 Doubao-Seed-Code 」

Doubao-Seed-Code 在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威评测中均表现突出,部分榜单甚至超过了 Claude 4.5 Sonnet。

picture.image

与字节跳动自家的IDE产品TRAE组合在SWE-Bench-Verified中一举夺魁,登顶榜单SOTA。

picture.image

同时,Doubao-Seed-Code也是国内首个支持视觉理解能力的编程模型,可参照UI设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对,自主完成样式修复和Bug修复,从而大幅提升前端开发效率。

这样的模型,首购首月9.9。

这还不算完,在调用价格上,Doubao-Seed-Code不仅在输入输出单价上给到最低,同时采用全量透明Cache,成本再降低80%。

在实际使用场景中,综合使用成本降低62.7%, 从而实现了目前国内最低价格。

我也第一时间上手测试,既然都能跟Claude 4.5 Sonnet掰手腕了,那么我们的所有Case都上点难度。

「 Case1:炸弹人小游戏 」

大家小时候是否玩过红白机,红白机里面,有一个著名的游戏《炸弹人》,是现在泡泡堂这类游戏的前身,就是小人放炸弹,用来炸掉砖块和炸死敌人,最终成功通关,我小时候玩的不亦乐乎。

既然是Agentic编程模型,我想他会懂我意思的,直接提出大白话需求:

  

        
         
           
         
         你知道【炸弹人】小游戏吗?我想玩这个游戏,给我生成代码
        

picture.image

三分钟后,一气呵成,无任何调整。效果如下:

蓝色的是玩家,红色是怪物,绿色是炸弹,炸弹会定时爆炸消灭敌人得分。

整体游戏逻辑全部完成,如果再把把蓝色块改成小人icon图,把红色块改成敌人icon图,还有一些细小的逻辑简单处理一下就直接能分享给别人玩了。

「 Case2:让AI优化AI代码 」

用过AI生成代码的小伙伴一定经历过,AI生成的代码,项目一时爽,维护火葬场。动不动写上几千行,经过多次修改后,虽然确实能跑起来,但是实际上去读代码的时候,就会发现:代码是一环套一环,一坑接一坑,逻辑那叫一个乱,不花个几个小时去读代码,根本都读不懂。

这一把,我们用魔法打败魔法🧙AI鼓捣的屎山还得AI搬。

这是一个2916行的html项目,实际逻辑并不复杂,但是因为是AI多轮生成的,导致大量代码是重复的逻辑,并且所有的逻辑(js、css等)都在这一个页面中。

我们之前在生成代码时,其实有试过让Claude 3.7 sonnet帮我们简化代码逻辑,但是优化完100%报错,只有Claude 4.5 sonnet尚有一战之力。这次借着Doubao-Seed-Code,尝试了一下让豆包帮忙重写。

  
简化这个文件。这里所有的js和css都 融在这一个文件中了,并且实现的逻辑很乱很复杂,希望你能帮我简化这段代码,把js和css的代码拆成单独的文件通过引用来实现,而不是全都杂糅在这一个文件中。

picture.image

Doubao-Seed-Code经过接近10分钟的了解代码和修改代码。

picture.image

这中间出现了两三次:超过上下文长度的提醒,我让他继续了三次。

picture.image

经过豆包的优化,这个主文件从2916行降到了616行,并且把css和js拆到了不同的文件中,增加了对这些文件的引用。不过代码有多少行其实不重要,更重要的是修改的准确性。

测试后,不仅能正常启动,还没有出现新的bug,业务逻辑与之前完全一致。

牛逼,这把过关!

「 Case3:手搓PDF转Word工具 」

picture.image

  
请开发一个功能完整、易用的PDF转Word小工具,具体要求如下:  
### 一、核心功能  
1. **PDF转Word**:支持将PDF文件转换为可编辑的Word文档(.docx格式)  
2. **格式保留**:尽可能保留原始PDF的格式(排版、字体、图片、表格等)  
3. **批量转换**:支持同时转换多个PDF文件  
4. **转换设置**:可选设置(如是否保留图片、是否转换页码等)  
5. **进度显示**:实时显示转换进度  
6. **转换结果**:转换完成后可直接打开输出目录  
### 二、技术栈选择  
1. **开发语言**:Python(跨平台、易维护)  
2. **界面框架**:PyQt5或Tkinter(选择其一即可,要求界面简洁美观)  
3. **PDF处理库**:使用pdf2docx、PyPDF2或其他成熟库  
4. **其他依赖**:根据需要选择合适的辅助库  
### 三、界面设计要求  
1. **主界面**:简洁直观,包含以下核心组件:  
   - 文件选择区:支持单个文件选择和文件夹选择  
   - 输出目录选择:默认与源文件同目录,可自定义  
   - 转换设置区:关键转换选项的复选框  
   - 开始/取消按钮:明显的操作按钮  
   - 进度显示区:进度条或文本显示转换进度  
   - 日志信息区:显示转换状态和结果  
2. **交互流程**   - 选择PDF文件或文件夹  
   - (可选)调整转换设置  
   - 选择输出目录  
   - 点击开始转换  
   - 查看转换进度和结果  
   - 转换完成后可打开输出目录  
### 四、用户体验优化  
1. **错误处理**:对无效文件、权限问题等进行友好提示  
2. **拖放支持**:支持将PDF文件拖放到界面进行转换  
3. **默认设置**:提供合理的默认转换设置,减少用户操作  
4. **操作反馈**:转换过程中显示实时状态,避免用户等待焦虑  
5. **日志记录**:保存转换日志,便于问题排查  
### 五、输出要求  
1. **完整代码**:包含所有必要的Python文件  
2. **依赖说明**:requirements.txt文件,列出所有依赖库及其版本  
3. **运行说明**:README.md文件,包含安装和使用步骤  
4. **打包选项**:提供将代码打包为可执行文件(.exe/.app)的方法说明  
### 六、其他要求  
1. **跨平台支持**:确保在Windows、macOS和Linux上都能正常运行  
2. **代码质量**:结构清晰、注释完善、易于维护  
3. **性能优化**:针对大文件转换进行优化,避免内存占用过高  
请按照上述要求开发工具,并提供完整的项目代码和说明文档。

一把完成,逻辑完整:

picture.image

拿一篇带图的PDF测试一下,完全没问题,连空格格式都保持一致。

picture.image

「 Case4:3D小猫 」

  
作为一名专精于Three.js的创意技术总监和可视化专家,你擅长将复杂信息转化为引人入胜的交互式3D体验。请为我提供的任何主题或内容创建一个令人惊艳的单页面HTML展示,融合高级视觉设计和沉浸式3D效果。  
## 关键技术要素  
使用以下技术栈构建沉浸式体验:  
- Three.js (https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.min.js)  
- 内嵌自定义控件代码,避免外部依赖问题  
- Tailwind CSS (https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css)  
- Font Awesome (https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css)  
- 中文排版使用 Noto Serif SC 和 Noto Sans SC  
- GSAP动画库 (https://cdnjs.cloudflare.com/ajax/libs/gsap/3.12.2/gsap.min.js)  
## 3D场景设计  
根据内容主题,设计一个完整的Three.js场景,可能包括:  
- 适合主题的3D几何体、模型或粒子系统  
- 动态相机和光照设置  
- 基于滚动或用户交互的动画效果  
- 在3D环境与2D内容之间建立有意义的联系  
- 环境氛围(雾效、阴影、反射等)增强视觉深度  
## UI与内容布局最佳实践  
遵循以下布局原则,确保3D内容成为焦点:  
- 3D场景应占据主要视觉空间,内容不应遮挡3D体验  
- 使用可折叠侧边栏或模态框展示详细文字内容  
- 鼠标放到侧边栏,自动展开,移开后缩回去。  
- 为3D元素添加标签系统,允许用户了解各部分功能和意义  
- 使用半透明UI元素,在提供信息的同时不阻断3D场景的可见性  
## 交互提示系统  
设计直观的交互引导体验:  
- 添加简洁的初始操作提示,几秒后自动降低透明度  
- 在用户执行操作时提供即时反馈,更新提示内容  
- 为关键3D元素添加标签或高亮效果,帮助用户理解场景  
- 设计清晰的控制按钮,具有明确的视觉状态变化  
- 在复杂操作前提供简短教程或演示  
- 3D模型自动循环,但速度要慢。  
## 设计原则  
遵循以下设计原则创建引人入胜的体验:  
- 整合而非装饰:3D元素应直接服务于内容表达,而非仅作装饰  
- 性能优先:确保复杂视觉效果不影响页面加载和运行速度  
- 沉浸式叙事:利用3D效果构建内容的视觉叙事层次  
- 交互深度:添加多层次交互,让用户通过探索发现内容  
- 响应式适配:确保在所有设备上提供最佳体验,智能降级复杂效果  
## 额外加分  
可选择以下一种或多种创意方向拓展体验:  
- 物理引擎模拟:使用cannon.js等物理引擎创建具有真实感的交互  
## 输出成果  
提供包含以下内容的完整解决方案:  
1. 单一HTML文件,包含所有必要CSS和JavaScript(避免外部依赖)  
2. 只输出HTML,不要其他任何引导语和介绍。  
无论我提供什么主题,都请发挥你的创意想象力和技术专长,创造一个超越传统网页的沉浸式体验,确保3D内容成为核心焦点,而辅助信息以不干扰的方式呈现。  
待处理主题:一只小猫

拖拽视角、放大缩小都没问题,但是小猫的胡子有点长歪了。瑕不掩瑜,还算可以。

「 Case5:祖传3D小球碰撞 」

我感觉下一次这个case就可以放弃了,大家基本上都要跑到极致效果,呈现趋近于一致了。不过同样的Case可以直观的看出豆包模型的进步还挺大的

  
编写一个 p5.js 脚本,模拟 100 个彩色小球在一个3D大球体内部弹跳。每个小球都应留下一条逐渐消失的轨迹。大球体应缓慢旋转,并显示透明的轮廓线。请确保实现适当的碰撞检测,使小球保持在球体内部。

实测能力的确不俗,究其原因,与因为豆包团队构建了的大规模 RL 系统不无关系。

**这是一个覆盖10万容器镜像的庞大训练数据集,支持端到端沙盒环境评测。具备万级并发沙盒 session 能力,依托千卡GPU集群实现高效并行训练。让模型直接在沙盒中端到端的强化学习,而不是依赖蒸馏过程。**

picture.image

从端到端的训练过程评测结果上看, multi-swe-bench 和 swe-bench-verified 两个数据集上呈现一致的上升趋势,表明模型具有良好的泛化能力。甚至在SWE-bench基准测试中,模型仅依赖 RL训练就达到当前最优水平,这意味着强化学习在软件工程场景下也具备极大潜力。

如果你也迫不及待的想体验一下最新模型,在Trae中现已支持,可以直接选择使用。

picture.image

同时Doubao-Seed-Code也面向 Claude Code、veCLI等主流 开发工具 做了特别优化,调用更稳定,如果你习惯用Claude Code可以参考下方步骤直接接入。小白可以移步参考更详细的教程:Claude断供,火山引擎助你一分钟“搬家”国产模型

老手直接打开 ~/.claude/settings.json 文件,替换为下方的内容配置上自己的方舟API key即可。

picture.image

今天同步发布的火山方舟Coding Plan,是为开发者量身定制的AI Coding场景订阅服务,支持最新的Doubao-Seed-Code模型多款主流 AI 编码工具。

实话说,多模态模型这个价,9.9是绝对超值价!

picture.image

(订阅地址放在文末)

  • Lite套餐适合大多数开发者,首购首月 9.9 元/月,后续续费40元/月;

  • 复杂项目可选择Pro套餐,首购首月 49.9 元,后续续费200元/月;

「 最后 」

火山引擎这次双十一发布的Doubao-Seed-Code,确实是一款“专为实战”而生的模型。

无论是从零生成“炸弹人”,还是硬核重构“X山”代码,亦或是手搓工具,它都给出了符合预期的结果。这背后,是RL端到端训练和庞大数据集的硬实力支撑。

SOTA级的性能,加上9.9元的首月订阅价,对于追求高效编码的开发者而言,这无疑是当下最具性价比的选择。

文末点击“ 阅读原文 ”可直达方舟Coding Plan计划,推荐大家上手一试。

这是我的第101篇原创,好久不抽奖了。评论区留言「豆包」,抽20个小伙伴送9.9🧧畅玩Doubao-Seed-Code!

祝君好运,这里是梦飞 AI,我们下次见~

往期推荐

我是如何把AI从爱好做成“副业”和“全职”的

献给大学生的:开学第一节AI课

强主体弱镜头Seedance 1.0 Pro首尾帧测评

开了个盲盒,五大主流云Redis实测

如果做应用像刷抖音一样,会发生什么?

10分钟带货,这个智能体“搞钱”快到离谱!

用了两周,发现小米AI眼镜最有用的是这个

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大模型产品方案白皮书——PromptPilot
AI 正以空前速度重塑行业,大模型成为继移动互联网后的新科技浪潮。如何将其与业务深度融合,实现落地,仍是数字化转型的核心挑战。有效 Prompt 是驱动模型达成业务目标的关键,但业务诉求常模糊、缺乏标准答案,模型理解差异大。企业需让模型准确理解需求、稳定输出高质量结果,并在数据积累中持续优化性能与价值。 PromptPilot 应运而生,通过对话与任务用例自动生成高质量 Prompt 与评估标准,运行中持续识别并优化问题,释放大模型潜力,让非技术人员也能轻松驾驭大模型,推动落地与创新。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论