国内首个支持视觉的 Agentic 编程模型来了！性能更强，价格更低 - 文章 - 开发者社区

双十一，火山引擎发布了一款专为 Agentic 编程任务深度优化，在SWE-Bench-Verified官方榜单中刷新SOTA的编程模型：

「 Doubao-Seed-Code 」

Doubao-Seed-Code 在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威评测中均表现突出，部分榜单甚至超过了 Claude 4.5 Sonnet。

picture.image

与字节跳动自家的IDE产品TRAE组合在SWE-Bench-Verified中一举夺魁，登顶榜单SOTA。

picture.image

同时，Doubao-Seed-Code也是国内首个支持视觉理解能力的编程模型，可参照UI设计稿、截图或手绘草图生成代码，或对生成页面进行视觉比对，自主完成样式修复和Bug修复，从而大幅提升前端开发效率。

这样的模型，首购首月9.9。

这还不算完，在调用价格上，Doubao-Seed-Code不仅在输入输出单价上给到最低，同时采用全量透明Cache，成本再降低80%。

在实际使用场景中，综合使用成本降低62.7%， 从而实现了目前国内最低价格。

我也第一时间上手测试，既然都能跟Claude 4.5 Sonnet掰手腕了，那么我们的所有Case都上点难度。

「 Case1：炸弹人小游戏」

大家小时候是否玩过红白机，红白机里面，有一个著名的游戏《炸弹人》，是现在泡泡堂这类游戏的前身，就是小人放炸弹，用来炸掉砖块和炸死敌人，最终成功通关，我小时候玩的不亦乐乎。

既然是Agentic编程模型，我想他会懂我意思的，直接提出大白话需求：

  

        
         
           
         
         你知道【炸弹人】小游戏吗？我想玩这个游戏，给我生成代码

picture.image

三分钟后，一气呵成，无任何调整。效果如下：

蓝色的是玩家，红色是怪物，绿色是炸弹，炸弹会定时爆炸消灭敌人得分。

整体游戏逻辑全部完成，如果再把把蓝色块改成小人icon图，把红色块改成敌人icon图，还有一些细小的逻辑简单处理一下就直接能分享给别人玩了。

「 Case2：让AI优化AI代码」

用过AI生成代码的小伙伴一定经历过，AI生成的代码，项目一时爽，维护火葬场。动不动写上几千行，经过多次修改后，虽然确实能跑起来，但是实际上去读代码的时候，就会发现：代码是一环套一环，一坑接一坑，逻辑那叫一个乱，不花个几个小时去读代码，根本都读不懂。

这一把，我们用魔法打败魔法🧙AI鼓捣的屎山还得AI搬。

这是一个2916行的html项目，实际逻辑并不复杂，但是因为是AI多轮生成的，导致大量代码是重复的逻辑，并且所有的逻辑（js、css等）都在这一个页面中。

我们之前在生成代码时，其实有试过让Claude 3.7 sonnet帮我们简化代码逻辑，但是优化完100%报错，只有Claude 4.5 sonnet尚有一战之力。这次借着Doubao-Seed-Code，尝试了一下让豆包帮忙重写。

  
简化这个文件。这里所有的js和css都 融在这一个文件中了，并且实现的逻辑很乱很复杂，希望你能帮我简化这段代码，把js和css的代码拆成单独的文件通过引用来实现，而不是全都杂糅在这一个文件中。

picture.image

Doubao-Seed-Code经过接近10分钟的了解代码和修改代码。

picture.image

这中间出现了两三次：超过上下文长度的提醒，我让他继续了三次。

picture.image

经过豆包的优化，这个主文件从2916行降到了616行，并且把css和js拆到了不同的文件中，增加了对这些文件的引用。不过代码有多少行其实不重要，更重要的是修改的准确性。

测试后，不仅能正常启动，还没有出现新的bug，业务逻辑与之前完全一致。

牛逼，这把过关！

「 Case3:手搓PDF转Word工具」

picture.image

  
请开发一个功能完整、易用的PDF转Word小工具，具体要求如下：  
### 一、核心功能  
1. **PDF转Word**：支持将PDF文件转换为可编辑的Word文档（.docx格式）  
2. **格式保留**：尽可能保留原始PDF的格式（排版、字体、图片、表格等）  
3. **批量转换**：支持同时转换多个PDF文件  
4. **转换设置**：可选设置（如是否保留图片、是否转换页码等）  
5. **进度显示**：实时显示转换进度  
6. **转换结果**：转换完成后可直接打开输出目录  
### 二、技术栈选择  
1. **开发语言**：Python（跨平台、易维护）  
2. **界面框架**：PyQt5或Tkinter（选择其一即可，要求界面简洁美观）  
3. **PDF处理库**：使用pdf2docx、PyPDF2或其他成熟库  
4. **其他依赖**：根据需要选择合适的辅助库  
### 三、界面设计要求  
1. **主界面**：简洁直观，包含以下核心组件：  
   - 文件选择区：支持单个文件选择和文件夹选择  
   - 输出目录选择：默认与源文件同目录，可自定义  
   - 转换设置区：关键转换选项的复选框  
   - 开始/取消按钮：明显的操作按钮  
   - 进度显示区：进度条或文本显示转换进度  
   - 日志信息区：显示转换状态和结果  
2. **交互流程**：  
   - 选择PDF文件或文件夹  
   - （可选）调整转换设置  
   - 选择输出目录  
   - 点击开始转换  
   - 查看转换进度和结果  
   - 转换完成后可打开输出目录  
### 四、用户体验优化  
1. **错误处理**：对无效文件、权限问题等进行友好提示  
2. **拖放支持**：支持将PDF文件拖放到界面进行转换  
3. **默认设置**：提供合理的默认转换设置，减少用户操作  
4. **操作反馈**：转换过程中显示实时状态，避免用户等待焦虑  
5. **日志记录**：保存转换日志，便于问题排查  
### 五、输出要求  
1. **完整代码**：包含所有必要的Python文件  
2. **依赖说明**：requirements.txt文件，列出所有依赖库及其版本  
3. **运行说明**：README.md文件，包含安装和使用步骤  
4. **打包选项**：提供将代码打包为可执行文件（.exe/.app）的方法说明  
### 六、其他要求  
1. **跨平台支持**：确保在Windows、macOS和Linux上都能正常运行  
2. **代码质量**：结构清晰、注释完善、易于维护  
3. **性能优化**：针对大文件转换进行优化，避免内存占用过高  
请按照上述要求开发工具，并提供完整的项目代码和说明文档。

一把完成，逻辑完整：

picture.image

拿一篇带图的PDF测试一下，完全没问题，连空格格式都保持一致。

picture.image

「 Case4：3D小猫」

  
作为一名专精于Three.js的创意技术总监和可视化专家，你擅长将复杂信息转化为引人入胜的交互式3D体验。请为我提供的任何主题或内容创建一个令人惊艳的单页面HTML展示，融合高级视觉设计和沉浸式3D效果。  
## 关键技术要素  
使用以下技术栈构建沉浸式体验：  
- Three.js (https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.min.js)  
- 内嵌自定义控件代码，避免外部依赖问题  
- Tailwind CSS (https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css)  
- Font Awesome (https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css)  
- 中文排版使用 Noto Serif SC 和 Noto Sans SC  
- GSAP动画库 (https://cdnjs.cloudflare.com/ajax/libs/gsap/3.12.2/gsap.min.js)  
## 3D场景设计  
根据内容主题，设计一个完整的Three.js场景，可能包括：  
- 适合主题的3D几何体、模型或粒子系统  
- 动态相机和光照设置  
- 基于滚动或用户交互的动画效果  
- 在3D环境与2D内容之间建立有意义的联系  
- 环境氛围(雾效、阴影、反射等)增强视觉深度  
## UI与内容布局最佳实践  
遵循以下布局原则，确保3D内容成为焦点：  
- 3D场景应占据主要视觉空间，内容不应遮挡3D体验  
- 使用可折叠侧边栏或模态框展示详细文字内容  
- 鼠标放到侧边栏，自动展开，移开后缩回去。  
- 为3D元素添加标签系统，允许用户了解各部分功能和意义  
- 使用半透明UI元素，在提供信息的同时不阻断3D场景的可见性  
## 交互提示系统  
设计直观的交互引导体验：  
- 添加简洁的初始操作提示，几秒后自动降低透明度  
- 在用户执行操作时提供即时反馈，更新提示内容  
- 为关键3D元素添加标签或高亮效果，帮助用户理解场景  
- 设计清晰的控制按钮，具有明确的视觉状态变化  
- 在复杂操作前提供简短教程或演示  
- 3D模型自动循环，但速度要慢。  
## 设计原则  
遵循以下设计原则创建引人入胜的体验：  
- 整合而非装饰：3D元素应直接服务于内容表达，而非仅作装饰  
- 性能优先：确保复杂视觉效果不影响页面加载和运行速度  
- 沉浸式叙事：利用3D效果构建内容的视觉叙事层次  
- 交互深度：添加多层次交互，让用户通过探索发现内容  
- 响应式适配：确保在所有设备上提供最佳体验，智能降级复杂效果  
## 额外加分  
可选择以下一种或多种创意方向拓展体验：  
- 物理引擎模拟：使用cannon.js等物理引擎创建具有真实感的交互  
## 输出成果  
提供包含以下内容的完整解决方案：  
1. 单一HTML文件，包含所有必要CSS和JavaScript（避免外部依赖）  
2. 只输出HTML，不要其他任何引导语和介绍。  
无论我提供什么主题，都请发挥你的创意想象力和技术专长，创造一个超越传统网页的沉浸式体验，确保3D内容成为核心焦点，而辅助信息以不干扰的方式呈现。  
待处理主题：一只小猫

拖拽视角、放大缩小都没问题，但是小猫的胡子有点长歪了。瑕不掩瑜，还算可以。

「 Case5：祖传3D小球碰撞」

我感觉下一次这个case就可以放弃了，大家基本上都要跑到极致效果，呈现趋近于一致了。不过同样的Case可以直观的看出豆包模型的进步还挺大的

  
编写一个 p5.js 脚本，模拟 100 个彩色小球在一个3D大球体内部弹跳。每个小球都应留下一条逐渐消失的轨迹。大球体应缓慢旋转，并显示透明的轮廓线。请确保实现适当的碰撞检测，使小球保持在球体内部。

实测能力的确不俗，究其原因，与因为豆包团队构建了的大规模 RL 系统不无关系。

**这是一个覆盖10万容器镜像的庞大训练数据集，支持端到端沙盒环境评测。具备万级并发沙盒 session 能力，依托千卡GPU集群实现高效并行训练。让模型直接在沙盒中端到端的强化学习，而不是依赖蒸馏过程。**

picture.image

从端到端的训练过程评测结果上看， multi-swe-bench 和 swe-bench-verified 两个数据集上呈现一致的上升趋势，表明模型具有良好的泛化能力。甚至在SWE-bench基准测试中，模型仅依赖 RL训练就达到当前最优水平，这意味着强化学习在软件工程场景下也具备极大潜力。

如果你也迫不及待的想体验一下最新模型，在Trae中现已支持，可以直接选择使用。

picture.image

同时Doubao-Seed-Code也面向 Claude Code、veCLI等主流开发工具做了特别优化，调用更稳定，如果你习惯用Claude Code可以参考下方步骤直接接入。小白可以移步参考更详细的教程：Claude断供，火山引擎助你一分钟“搬家”国产模型

老手直接打开～/.claude/settings.json 文件，替换为下方的内容配置上自己的方舟API key即可。

picture.image

今天同步发布的火山方舟Coding Plan，是为开发者量身定制的AI Coding场景订阅服务，支持最新的Doubao-Seed-Code模型多款主流 AI 编码工具。

实话说，多模态模型这个价，9.9是绝对超值价！

picture.image

（订阅地址放在文末）

Lite套餐适合大多数开发者，首购首月 9.9 元/月，后续续费40元/月；
复杂项目可选择Pro套餐，首购首月 49.9 元，后续续费200元/月；

「最后」

火山引擎这次双十一发布的Doubao-Seed-Code，确实是一款“专为实战”而生的模型。

无论是从零生成“炸弹人”，还是硬核重构“X山”代码，亦或是手搓工具，它都给出了符合预期的结果。这背后，是RL端到端训练和庞大数据集的硬实力支撑。

SOTA级的性能，加上9.9元的首月订阅价，对于追求高效编码的开发者而言，这无疑是当下最具性价比的选择。

文末点击“ 阅读原文 ”可直达方舟Coding Plan计划，推荐大家上手一试。

这是我的第101篇原创，好久不抽奖了。评论区留言「豆包」，抽20个小伙伴送9.9🧧畅玩Doubao-Seed-Code！

祝君好运，这里是梦飞 AI，我们下次见~

往期推荐

我是如何把AI从爱好做成“副业”和“全职”的

献给大学生的：开学第一节AI课

强主体弱镜头Seedance 1.0 Pro首尾帧测评

开了个盲盒，五大主流云Redis实测

如果做应用像刷抖音一样，会发生什么？

10分钟带货，这个智能体“搞钱”快到离谱！

用了两周，发现小米AI眼镜最有用的是这个