终于有大厂做了一套真正专业的Prompt工程平台,而且意识到了生产级Prompt的重要性。
之前我推荐过PromptPilot,当时功能还没那么完善,我还提了不少意见。现在火山带着更新版的PromptPilot回来了,真的是脱胎换骨。
在厦门现场跟着火山团队手把手体验了PromptPilot使用的全流程,这套流程绝对能让Prompt调优变得更加系统和规范。
01 PromptPilot 重磅升级
最近,PromptPilot进行了一次重磅升级。
老粉丝应该都知道,promptpilot这个名字,我在23年就看好了,还注册了相应的域名,当时就考虑过要不要构建prompt测试的这套功能。
不过用户量太少,这种AI基建天生适合云厂商来做。火山带着他们对Prompt的深度理解,打造了这个PromptPilot。
建议直接用独立站: https://promptpilot.volcengine.com/startup
独立站的功能更完善一些。
1-1 智能优化:从模糊表达到结构化Prompt
我随便输入了一个很粗糙的需求:
提示词: 视频理解,对监控视频进行消防智能化检查、给出整改意见
相比我们原始那种粗糙模糊的表达,PromptPilot在理解意图的基础上,生成了结构化、意图清晰准确的Prompt模板,而且还贴心地留出了变量位置,对开发非常友好!
这就像有个AI助手帮你把大白话翻译成了专业术语,还贴心地预留了可配置的参数位置。
遇到不合适的提示词部分,我们可以手动修改,也可以选中要修改的部分,输入文字让AI自动优化。
这个交互体验真的很丝滑!
1-2 批量测试:告别单点测试的低效率
提示词优化好以后,我们可以用数据集来测试效果。
先拿单个样例测试一下效果,看看情况。
单个样例测试效果
如果单个样例效果ok,但是在线上要面临各种各样的复杂情况,这时候单个测试效果覆盖度就不太够,需要使用构建的测试集批量测试。PromptPilot对批量测试的支持度也很赞。
构建测试集批量测试
只需要整理成相应的excel表格,就可以一键上传测试,而且还支持手工打分、批量智能打分等超多好用的功能。
1-3 提示词智能优化
同时PromptPilot还提供了智能优化功能,可以根据提供的评测集效果,智能优化提示词,提升表现。
这不就是我们一直想要的"科学调参"吗?再也不用凭感觉瞎调了!
1-4 多模态提示词支持
除了文本任务,视觉理解等任务也同样支持。
比如涉及到图片、视频相关的安防领域的场景测试,PromptPilot 也可以很好的支持!
1-5 自定义模型:企业友好的大杀器
PromptPilot很赞的一个点是支持自定义模型。
我试了一下,基本主流的OpenAI接口模型都可以接入,而且自定义模型不收费 。
这对企业应用就非常友好了,特别适合构建生产级提示词的自动生成、评估、调优、管理等一站式服务。
非常有利于企业积累数据资产,构建生产级AI应用。而且AI应用开发者也能很好的系统化管理和优化Prompt,提升Prompt调优效率,并且科学化评估模型表现。
02 豆包1.6模型能力再升级
这一次Doubao-Seed-1.6主要是模型权重升级。
架构不变,从250615的权重升级到了250715权重,就是2025年7月15号权重的意思,所以模型名字也叫 Doubao-Seed-1.6-thinking|250715
。
就像DeepSeek-V3从去年的权重升级到今年的DeepSeek-V3-0324一样。
新模型在代码、推理和视觉理解上面的效果提升都很明显。
我测试了一下新模型的视觉理解能力,说实话真的有惊讶到我。
我随手截了一张小红书彩妆栏的图片,说实话我是故意选了这种多图、多栏、比较杂乱的图片。理解能力不好的模型只能给个概述,无法精细化定位和理解,所以我要求它给出位置和数量。
提示词: 统计图中有多少位美女,给出位置和数量
看到结果的时候真的有被惊艳到!因为这个模型不仅仅是在数人头,告诉你一共多少个人头就完事,而是清楚地知道有几个人头,哪些人头对应的是同一个人!
比如第一行第2列,第二行第4列,都是同一个人两张照片的拼接图,新模型清楚地识别出了两张图都是一个人!
而且每张图都有清晰准确的细节描述,位置也很准确。AI识图真的是越来越厉害了。
又测了一波视频理解能力,以金枪大叔的抖音视频为例。
把视频输入给 Doubao-Seed-1.6-thinking
:
提示词: "把视频的文案给我,并提供对视频的结构化分析和拆解"
豆包新模型给出了准确的文案。
视频拆解也很到位,对于分析IP视频、做个人IP来说是个利器啊!
有点瑕疵的地方是视频现在估计是1s处理一张图,说话比较快的情况下部分文案会丢失。算力充足的时候1s多拿几张图就好了!
原生多模态拆解视频指日可待!
Doubao-Seed-1.6-flash
与此同时,Doubao-Seed-1.6-flash这个面向高速低延迟场景的模型,权重也更新到了250715,模型名字叫 Doubao-Seed-1.6-flash|250715
。
同时支持文本和视觉理解,文本理解能力超过了上一代lite,纯文本能力大幅提升近10%,能力提升也非常明显。考虑速度和价格的话可以用flash模型。
Seed1.6-Embedding:业界首发混合模态检索
这次还首发了全模态混合检索模型。
首次引入了视频向量化能力 ,支持对人物、动作、场景等核心语义特征的统一建模,兼容多帧图像输入作为视频替代方案,进一步拓展了输入形态。
也就是说,新模型可以把视频也智能管理起来了!结合字节旗下的抖音平台,这就是一个大杀器啊。
可以实现视频的深度理解,视频的搜索、内容检测、内容理解的深度和广度,都将上一个新台阶。
03 完善的生态支持
还值得一提的是,这次火山方舟平台的API体系升级,推出了一个新的API接口,叫「Responses API」。
简单来说,可以把这个API接口理解成一个通用Agent调用接口,接口内部实现了原生的上下文管理和工具调用。
原来普遍使用的Completions API只提供基本的模型能力,工具调用、上下文管理都需要开发者自己完成,调用和实现都比较复杂。
火山将上下文管理、工具调用等常见通用开发操作抽象出来,在API内部实现,大大简化了开发流程。
开发者只需专注业务效果调优,而无需重复构建和开发Agent本身,API可以自主完成工具选择、调用、请求模型的闭环。
这不就是从LLM API升级成了Agent API吗?
这次还提供了AI知识管理功能,实现多模态的内容理解和深度研究,从"人找信息"到"人用知识"。
还提供了VikingDB向量库,支持万亿级向量检索,为各类业务实现强力AI赋能。
04 方舟协作奖励计划:用数据换免费token
火山引擎在现场还推出了「方舟协作奖励计划」,简单来说就是:用数据换免费token 。
用户授权调用数据给方舟和内部算法团队优化模型效果,方舟发放和数据采集量相应的资源包。
认证后的企业或个人用户都可以通过开通模型页面参与数据协作计划。
这个计划对于数据量大的企业来说还是很香的,既能帮忙优化模型,又能省钱。
写在最后
这一次厦门开发者专场之旅,一方面了解了AI基建方面的进展,另一方面也认识了许多志同道合的朋友。
当别人还在卷模型性能时,字节已经在布局整个AI生态了。
从prompt工程到模型调用,从数据管理到效果评估,字节正在构建完整的AI开发闭环。控制了工具链,就控制了生态;控制了生态,就控制了未来。
更狠的是,字节手里有抖音这个超级数据源。数据为王的时代,字节天然站在了食物链顶端。
我是「云中江树」,AI实践家。这里每周为你分享AI工具、方法和时代观察。
👉 点赞、在看、分享三连支持 ,关注「云中江树」,让我们一起拥抱变化,与AI共生!