国内首个“视觉编程模型”到底强不强?Doubao-Seed-Code实测体验

大模型前端UI

双十一这天,各种产品降价优惠,什么吃的喝的穿的了......

那我们程序员也不能亏待哈,必须安排上,然后字节这不就安排上活了嘛!

字节在这一天发布了豆包大模型家族的首款变成模型,Doubao-Seed-Code。

目前,已经在多项的权威测评中拿到了国内的领先成绩。

配合Trae的开发环境,在SWE-Bench Verified榜单上以78.8%的得分直接登顶。

picture.image

Doubao‑Seed‑Code,作为一款面向编程任务的专用模型,此次面向“Agentic Coding”人物进行了深度优化。

这次的重点不仅在于代码补全,更强调 “收到模糊需求->任务拆解->生成代码->自我修复” 这一流程。

核心的三大能力:

原生256K长上下文 也就是它可以一次性“读懂”非常长的代码以及跨模块结构,更好进行端到端自主编程。

• 视觉理解能力(VLM): 这是极具爆点的一个能力。

Doubao-Seed-Code 自带视觉理解能力,支持从UI设计稿、截图、手绘草图直接生成代码,或者进行样式修复。

而且该功能并不是靠工具的调用实现的,这在国内编程模型中为 “首发”

VLM的训练需要专业团队的训练以及数据的积累,存在着一定的技术壁垒,而Seed-Code模型就保持了这个优势。

在国内,DS v3.1,Kimi K2等Coding模型均还不支持视觉理解能力,或者就是需要依赖MCP,将图片转化为语义描述,然后提供给模型理解。

这一过程中就会造成信息的折损,效率自然比不上原生的VLM能力。

• 丝滑兼容Claude Code: Doubao-Seed-Code 原生兼容 Anthropic API。

目前大多数AI编程工作者都喜欢,并且习惯在Claude Code上进行开发操作,

这样的兼容能力,再加上亲民的价格,让很多的人都忍不住想去体验一番。

上手体验

今天,我实际上手去体验了一把,首先就是这个配置阶段,很流畅。

选择套餐

打开火山引擎控制台登录:

https://console.volcengine.com/

picture.image

在开通管理界面开通其中一款套餐,我这里开通的是Lite模型。

然后在下面的API管理栏申请一个密钥,保存好,下面要用。

picture.image

安装Claude Code

首先确保自己电脑上已经安装好了 Node.js 18 或以上版本环境,如果是window环境,需要安装好 Git for windows。

然后,在命令行界面输入以下代码:

npm install -g @anthropic-ai/claude-code

如果安装好以后,通过以下命令测试安装结果:

claude --version

设置环境变量

输入以下代码,将 ARK_API_KEY 切换为你在火山引擎获取的API密钥。

setx ANTHROPIC_AUTH_TOKEN ARK_API_KEY
setx ANTHROPIC_BASE_URL https://ark.cn-beijing.volces.com/api/coding
setx ANTHROPIC_MODEL doubao-seed-code-preview-latest

配置好以后,在新的命令行窗口检测环境变量是否生效:

echo %ANTHROPIC_AUTH_TOKEN%
echo %ANTHROPIC_BASE_URL%
echo %CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC%
echo %ANTHROPIC_MODEL%

然后,打开你的项目文件夹,执行命令 claude 即可开始使用。

picture.image

做几个项目看看

因为前面提到了,本次的最大亮点是自带视觉理解能力,所以这里我直接抛给一个工具站的截图,让他仿照一下。

picture.image

这里能够看到他找到了我们声明的图片文件,并且完成了理解,接下来的就是开发了。

picture.image

picture.image

还原的还可以,圆角没有处理,感觉有点老气。

Dashboard设计

很多地方会用到这种很具科技感的仪表盘,这里让它来仿照一个。

picture.image

依旧是图片分析,然后开始开发。

picture.image

picture.image

看下这里的效果,应该是还有比较大的提升空间的。

视觉功能的大致效果体验到这儿,接下来试试制作一些简单的小游戏。

多边形内跳动的小球

给他一段提示词:

帮我写一个html程序,显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹

picture.image

这里给他操作全部文件的权限。

picture.image

这里发现它好像是在一直优化,我也还没再下达其他的命令。

picture.image

picture.image

picture.image

做成了,效果还不错,可以反映重力和真实的碰撞。

就是发现一点瑕疵,这个发光六边形有两个角被遮住了。

飞机大战

 帮我用html制作一个飞机大战游戏

picture.image

picture.image

很快做好,玩了两把,还不错,各种碰撞逻辑的处理也不错。

总结:还有提升空间

在视觉方面,的确为解决问题上升了一个维度,是一个全能型的新同事,

在处理一些基本的编程任务时确实稳、快,与Claude Code的衔接也非常丝滑。

但是遇到那些比较复杂的任务,比如上面的仪表盘UI设计上,还是比较困难的。

不过,作为一个编程小白,这款模型其实还是有潜力,已经可以帮我们完成一些小工具的开发。

而且,在收费方面,首月仅需9.9就可以体验到,对比其他编程模型,是一个“低门槛+性价比”的选择。

好了,今天的分享就到这里了,喜欢的话可以帮忙点个赞喔~

作者:善进、二爷

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论