小伙伴们大家好呀,我是甲木。
前几天,我去厦门参加了火山引擎的AI创新巡展,玩的很开心,也见到了很多朋友~
在上篇文章的开头也跟大家说了,
今天会跟大家唠唠他们发布会的主要内容,
以及重点会给大家分享,
1、「基于成本和效果平衡如何选择模型?」
2、「有场景没思路的时候如何写Prompt?」
3、「生产级场景的Prompt如何构建与投产使用?」
这些也是很多企业朋友关心的问题,借此机会,跟大家分享一下~
看图找人,猜猜甲木在哪里...
我本来是冲着他们全新升级的豆包1.6系列大模型去的,
毕竟更强的模型意味着我们手里的“武器”又升级了。
但没想到他们还对外公开了很多有意思的产品,
哦对了,该怎么形容上午发布会的火爆程度呢。。
我和乔木、一泽、苍何、袋鼠帝都是站着看完发布会的,后边站着三排人...
对,没错,这是我的「站排」视角
话不多说,我们挨个来看看~
基于成本和效果平衡如何选择模型?
开场谭待老师就从「“有好模型”到“做好应用”」的分享中
介绍了豆包大模型过去一段时间的发展,能力不断提升。
之后,带出了豆包1.6系列的全新升级!
也是本场的重头戏,现在也都可以在火山方舟上去进行体验,
咱们今天就掰开揉碎了分开说一说:
首先是Doubao-Seed-1.6-thinking 的模型,它主打的就是一个“深度思考”。
对比上一代,它在Coding、Math、逻辑推理 这些硬核基础能力上又精进了不少,还支持了视觉理解,能看懂图。更关键的是,它支持256k 的超长上下文窗口,输出长度最大能到16k tokens,处理复杂任务和长文档简直是降维打击。
适合我们去处理一些复杂多模态场景的问题,比如,我让它直接帮我进行作业批改
火山方舟上可以直接体验🔗 https://www.volcengine.com/experience/ark
它在长达四分钟的阅读、思考、理解之后,会给到我一系列的修改建议,还会给出一个总结。
大家可以去体验一下效果~多模态理解层面非常👍🏻
这,就是Seed-1.6-thinking-0715模型的升级,
除了1.6-thinking之外,他们的1.6-Flash 也同步升级了,
如果说thinking是“最强大脑”,那flash就是“闪电侠”。
它的推理速度快到极致,TPOT(每个输出token的时间)仅需10ms 。同样支持文本和视觉理解,纯文本能力还比上一代lite提升了近10%。
同样具备256k长上下文,追求极致响应速度的场景,选它准没错。
比如,让它总结下沐神的B站首页进行分析,非常迅速给出结果
上述两个模型其实或多或少在其它渠道都有所耳闻,
而他们这次还更新了Seed1.6-embedding 模型,这绝对是这次的重头戏,做RAG和搜索的兄弟们估计已经坐不住了。它不只是一个普通的向量模型,而是全模态的!
不光在MTEB(纯文本)和MMEBv2(多模态)两大权威榜单上拿下了SOTA,在图文检索、语义匹配(STS)这些通用任务上也表现超神,泛化能力极强
而且首次引入了视频向量化能力! 这意味着它可以统一处理文本、图像、视频帧 ,并支持多模态的混合输入。无论是在跨模态搜索、内容理解还是多模态Agent场景,都提供了更灵活、更强大的表达能力,是业界首发 支持混合模态检索的embedding模型。
可以先感受下图像检索,视频这块我还没权限- -
而且模型能更好地理解你的“指令”,你可以通过定制化的指令模板来引导向量的生成,让embedding表达更贴合你的具体业务目标,用更低的成本提升场景效果。
这三个模型能力的升级都非常不错,那么我们来聊聊对于企业而言,
如何「基于成本和效果平衡如何选择模型?」
其实不管是哪家模型,我们都需要考虑「成本」和「效果」,
不存在一个“万能”的完美模型,「最优选择永远是“最适合业务场景”的模型」 。
企业选择的过程,本质上是在性能、成本和控制权 这三个维度上进行权衡和取舍。
拿Seed模型来举例:
1、当业务场景对结果的准确性、深度和逻辑性有最高要求 ,且预算相对充足时,应优先选择Doubao-Seed-1.6-thinking模型。
2、当业务场景对响应延迟 要求苛刻,或需要处理海量请求,希望在保证良好基础效果 的同时最大化成本效益时,Doubao-Seed-1.6-flash是理想选择。
为什么呢?我们可以看下两者的价格:
两者相差几倍
3、而如果需要构建搜索和推荐系统 ,尤其是涉及图片、视频等多模态内容的业务,Seed1.6-embedding模型反而是优选,提供极具竞争力的成本优势。
这里也可以给企业方朋友们提供一个问题清单:
而对于成熟的企业应用而言,最优解通常不是单一模型,而是构建一个“模型矩阵”或“模型瀑布”。
比如:
- 所有用户请求首先由一个成本极低的“路由”模型进行意图识别。
- 简单问候或分类任务,该模型直接处理。
- 复杂一点的,则转发给性价比高的主力模型。
- 如果识别出是需要深度创作或复杂逻辑的请求,再升级调用最顶级的性能模型。
抛砖引玉,最优选择永远是“最适合业务场景”的模型,
而业务场景,我相信你自己再熟悉不过了~
其实除了模型选型方面之外,Prompt也是我们应用好AI必不可少的一环,
有很多小伙伴比较好奇我平时写Prompt的思路,以及在有场景没思路的时候如何来写Prompt?
而这,也是这次下午场火山方舟端出的另一道“主菜” —— PromptPilot 。
生产级场景的Prompt如何构建与投产使用?
我们都心知肚明,再强的模型,也得有人会用才行。
就像红杉峰会上大佬们的共识:「下一轮 AI,卖的不是工具,而是收益」
真正的AI产品,看的不是“能力”,而是“结果”。
而连接“能力”和“结果”的最大瓶颈,就是我们每个每天都在抓耳挠腮的Prompt工程!
大家常常遇到的痛点是:
- 要么效果全凭运气,反复横跳,心态爆炸;
- 要么就是上线后被用户的各种奇葩输入干翻,疯狂救火。
而PromptPilot,我愿称之为终结这种“手工作坊”式开发的“新物种”。
主界面如图所示,目前还都是免费使用,快来薅羊毛...
它不是一个教你写Prompt的老师,而是一个能帮你自动生成、评估、迭代、优化Prompt的智能领航员。
来一句话总结:
PromptPilot 是目前国内对外提供Prompt工程化应用实践的最好用的工具,它提供全流程智能优化,涵盖引导用户生成Prompt、根据内容进行调优、再到批量case评估prompt的各种边界,最后自动优化和管理Prompt全阶段。只有经历过全链路的测试之后,生成的Prompt,才能够投入到百万级请求的生产环境中。
当然,它也是打通产品和开发沟通对齐的最重要的一个媒介,
为什么这么说,我们一会在看。
接下来,甲木就带大家一起深度体验一下,看看它到底是怎么把“炼丹”变成“工程”的。
Case 1:质检巡检(图片理解任务)
任务:我们打算让AI看一张工厂车间的图片,判断有没有违规操作或没戴安全帽的情况。
第一步:说人话,AI出活
我们直接把需求用大白话丢给PromptPilot:“为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,需要给出违规类别。” ,同时选择“视觉理解”类型。
感兴趣的可以看看官方文档: https://www.volcengine.com/docs/82379/1544106
点击发送后,一个结构清晰、逻辑严谨的Prompt就自动生成了,连思考过程、判断、违规类别这些输出格式都给你安排得明明白白。
为了后续更方便测试,可以将变量名修改为常用的变量名,比如“image_url”。
最后得到的prompt为:
你是一位专业的图像分析AI。你的任务是严格对照给定的判定标准,仔细分析提供的生产车间图像,并按照规定的JSON格式输出判断结果。
## 输入:
- 生产车间图像: {{image\_url}}
## 判定标准与JSON输出字段定义:
1. **`是否存在违规操作设备`**: (字符串, "是"/"否")
* **判定**: 图像中是否存在违规操作设备的情况?
* "是": 至少有一人违规操作设备。
* "否": 无人违规操作设备,或者图像中无人操作设备。
2. **`是否存在未佩戴安全帽`**: (字符串, "是"/"否")
* **判定**: 图像中是否存在未佩戴安全帽的人员?
* "是": 至少有一人未佩戴安全帽。
* "否": 所有人都佩戴了安全帽,或者图像中无人。
3. **`违规类别`**: (字符串)
* 如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“是”,则值为“违规操作设备、未佩戴安全帽”。
* 如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“否”,则值为“违规操作设备”。
* 如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“是”,则值为“未佩戴安全帽”。
* 如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“否”,则值为“无”。
## 输出格式:
请按照以下JSON格式输出你的判断结果。所有字段的值必须是字符串。
{
"是否存在违规操作设备": "是",
"是否存在未佩戴安全帽": "否",
"违规类别": "违规操作设备"
}
第二步:上考卷,AI当考官
点击右下角的“验证Prompt”,跳转到调试页面。
首先进行单张图片的测试,点击“填写变量”,上传一张图片。
同时在右侧选择所需模型,这里我们选择带thinking的模型。
这里就先用默认模型给大家展示了~
全部选择完毕后,点击“保存并生成模型答案”,
可以看到很快模型就给到了判断结果。
如果对结果不满意,可以点击下方的“去添加理想回答”。
在这里,可以自己添加理想回答,也可以打开“更多模型回答参考”,然后基于不同模型的不同回答去选择理想回答。
测完单张图没问题不代表模型就毕业了,
要记住,单个case场景有效不能证明prompt的普适性,我们必须经过严格的测试,才能得到更有意义的证明。
接着选择“批量评测”。
我们直接上传了一整个包含多张图片中的文件当“考卷”(评测集)。
Tip:这里有个小提示,数据集中的列名需要和变量名保持一致,才能完成批量上传~
点击生成,就可以批量对评测集的图片进行判定。
同时我们还可以添加理想回答,给模型评分,如果不想手动评分,也可以给AI一套评分标准。
比如,我们规定:“思考过程、判断、违规类别都跟标准答案一样,才给5分;否则就给1分。”
或者让AI帮助我们生成标准,标准一旦确定,PromptPilot就化身魔鬼考官,
唰唰唰地给所有模型回答自动打上了分数。
第三步:见证奇迹,一键优化
我们根据评测结果和评分结果,可以直接点“智能优化”。
PromptPilot会自己去琢磨那些高分和低分的答案,理解你的评分偏好,然后……它自己把Prompt给改了!
当然如果还是不满意还可以继续优化,这里就不再过多演示了。
刚才给大家看的是关于图片理解型的任务,接下来我们再来看一个文本型任务。
Case 2:品牌评价情感分类(文本理解任务)
任务:分析网上关于某个品牌的用户评论,判断好评差评,并提取负面评价的维度和产品名,输出JSON。
第一步:说人话,AI出Prompt
我们直接把需求发送给PromptPilot,让其自动生成Prompt。
如果对生成的prompt不满意,可以手动修改,也可以在右下角直接点击“优化你的Prompt”,在对话框内输入反馈/优化要求。
比如:你需要关注模型的思考过程。“请增加在<思考>标签,在<思考>中详细分析你对每条评价的情感判断、评价维度和产品名称识别的依据。”。
最后得到的prompt为:
第二步:上考卷,AI当考官
点击右下角的“验证Prompt”,跳转到调试页面。填写变量,选择模型,并生成模型回答。
如果对模型的回答不满意,可以继续优化Prompt,
或者添加理想回答指导模型做出满意的答复。
接着,继续可以进行批量评测和智能优化,上传case集,同时添加理想回答,给模型评分。
第三步:见证奇迹,一键优化
根据评测结果和评分结果,可以直接点击“智能优化”。
PromptPilot会自己去分析评测集的结果,然后生成分析报告。
分析报告的结果中,它会根据我们的评分标准自动优化Prompt直到分数有明显提升。
当然,如果我们企业有知识库的情况,它也同样支持引入知识库RAG的形式。
Case 3:医疗知识问答(知识库RAG)
任务:让AI扮演专业医生,根据我们提供的医疗知识来回答问题,不能自由发挥。
第一步:创建知识库并引用
在Prompt生成页面,点击“知识库”。
将我们提前准备好的资料上传上去,方便后续引用。
上传完成后,回到Prompt生成页面,输出需求并引用刚才上传的知识库。
可以看到引入知识库后,生成的Prompt中按疾病进行分类,并增加了很多专业词汇。
第二步:批量评测
我们直接对Prompt进行批量评测,上传一份包含疑难杂症的文件。
点击生成全部回答后,模型很快给出了包含可能的病因和判定依据的回答。
以上就是PromptPilot的几个简单应用场景,接下来我们来回答一下开头的几个问题:
有场景没思路的时候如何写Prompt?
甲木知道在很多时候我们都是了解需求场景,但没有办法把它转化成Prompt,
这时候我们可以去选择一个MetaPrompt(元提示词)帮我们根据自己所需去打造初版prompt的内容,然后进行调试,比如大家都知道的LangGPT提示词专家等等,
以及我之前给大家分享过的如何构建初版提示词
的方法论文章,
归根结底一句话:“通过AI的能力拓展我们的行业knowhow,根据Prompt方法论帮我们完成场景prompt编写”
甲木在平时,也会有很多各行各业的应用场景不知悉,不清楚,
你不了解行业知识怎么能写好这个行业的应用Prompt呢?
这时候,虽然我不了解,但是AI了解啊,
它懂世界知识,我们就不断地跟它沟通,不断地跟它交流,告诉它我们的预期,再按照我们的方法论让它去进行整合和补充,
这样,我们就能完成初版prompt的构建。
而现在,有了更好的方案,
PromptPilot平台的设计初衷之一,就是为了解决这种“冷启动”困难。
它将这个过程从“苦思冥想”变成了“互动探索”。
当有场景没prompt思路时,不要把压力都放在自己身上。
可以利用PromptPilot等之类的工具成为一个优秀的“任务指挥官”。
只需要提出一个初始目标,然后通过不断的交互和反馈,让AI来帮助您探索、澄清和实现最终的意图。
生产级场景的Prompt如何构建与投产使用?
我们评判一个提示词的好与坏,不在于它一次任务的完成度有多好,而是能否在多次任务中都能够重复、有效、可稳定 的实现目标任务。
这正是区分“玩具级”Prompt和“生产级”Prompt的核心标准。
生产级场景追求的不是一次惊艳的“神抽卡”,而是像工业流水线一样,高效率、高稳定性和可迭代 地输出符合业务要求的结果。
这里可以给大家看个生产级场景中的case,真不是广告,我在生产级场景中一直在频繁的使用promptpilot工具。。
那么我的工作流是什么样的呢?也可以分享给大家:
简单来说四个核心阶段:开发与调试、批量评测、智能优化、投产与监控 。
阶段一:开发与调试阶段 (从0到1)
这是冷启动阶段,目标是快速将一个模糊的业务需求,转化为一个可用的、结构化的Prompt。
这里可以根据自己的任务描述通过PromptPilot(以下简称PP)生成初版prompt,也可以自己根据经验写prompt,拿我这个生产场景,是我自己写的。
隐私保护,就不完全展示了
然后进行单点验证,在业务场景中,在变量处填入自己的真实数据,进行prompt调试,
如果对生成的结果不满意,可以直接在局部进行修改,或通过对话向AI提出修改意见,
同样地,如果您手头没有现成的测试数据,还可以让AI根据Prompt上下文自动生成逼真的变量内容,帮助您验证和激发思路
阶段二:批量评测阶段 (从1到N)
单一案例的成功不具备代表性。生产级的Prompt必须在大量的、多样化的数据上证明其稳定性。
- 构建评测数据集 :准备一个包含数十甚至数百个案例的数据集(通常是Excel或CSV文件),其中应覆盖各种正常情况、边界情况和已知的Badcase。
- 建立客观评估标准 :这是确保“稳定有效”的关键。您需要为“好结果”下一个明确、可量化的定义。PromptPilot支持AI辅助生成标准和自定义标准:
- 自动化评估与打分 :PP将使用您的Prompt处理整个评测集,并根据您建立的标准,对每一个结果进行自动评分。
最终,您会得到一个关于当前Prompt版本的综合得分 和详细的评分分布,让您对Prompt的整体表现有清晰、客观的认知(隐私原因暂不展示了)。
阶段三:智能优化阶段 (追求更优)
有了量化的评估结果,下一步就是系统性地提升Prompt性能。
- 一键智能优化 :基于带有评分的评测数据集,启动“智能优化”功能。PP会分析所有高分和低分案例,理解您的评估偏好和业务目标,然后 自动进行多轮迭代,生成一个效果更好的新版Prompt 。
进入优化阶段
- 查看优化报告 :优化完成后,平台会提供一份详细的对比报告,清晰展示新旧版本Prompt的综合得分对比(例如从3.2分提升至4.8分)、评分分布变化以及具体的Prompt修改内容,让每一次优化的效果都一目了然。
当Prompt优化遇到瓶颈时,PP还可以判断是否需要发起精调,并与火山方舟的精调功能联动,实现模型级的深度优化,这块感兴趣的可以了解一下。
阶段四:投产与持续监控阶段 (闭环进化)
一个生产级的Prompt不是交付后就结束了,它需要一个能在线上环境中持续进化的机制。
它支持版本管理与上线,将优化后、表现最佳的Prompt版本进行保存,并通过API或SDK集成到您的生产应用中。
(ps.可以看到,我每个场景都迭代了十几个版本...)
或许之后,我们的线上应用还可以调用PromptPilot的SDK,将生产环境中的真实调用数据(输入、输出、用户反馈等)反馈回系统。
之后自动对回流的线上数据进行“裁判”和评分,精准捕获Badcase。
这些来自真实场景的Badcase会成为最高质量的“新考题”,用于启动下一轮的“智能优化”,形成一个开发-评测-优化-投产-监控-再优化 的自动化闭环。
通过以上四个阶段,
企业就能够将Prompt的构建从依赖个人经验和灵感的“手工业”,
转变为一个数据驱动、可量化、可迭代的“标准化工业生产流程”,
从而确保AI应用在生产环境中的长期稳定和高效。
当然,它们目前还有一些局限和可优化的点,比如:
seed-1.6模型,或者是其它场景输出的时候,<think> </think>
标签内容可以收起,或者是,增加一个换行来区分,要不视觉上太不容易理解
或者是整体的token消耗数目前没有展示,如果能在对应区域把消耗的token数量,展示出来,这样大家才能从提示词稳定性和成本方面取得一个平衡,等等
在现场也跟PP团队的小伙伴们反馈了,如果还没改,我要去大钟寺push了~
作为一个对外发布没多长时间的工具,我们也应该对它多一些包容和理解~
期待以后PromptPilot越来越好~
更多内容
其实上午场和下午场还发布了很多有意思,又好玩有用的产品,
企业N件套
比如Responses API :写过Agent的兄弟都懂,管理多轮对话和工具调用有多烦人。 而这个API它原生支持上下文管理,能让多轮对话的开发成本和延迟大幅降低 。更牛的是,它还能自主选择调用工具,你只管发请求,它能自己组合模型和工具来解决复杂任务,开发时间能大幅缩短。。
比如AI知识库 :如果说普通RAG是给AI外挂一个U盘,那AI知识库就是给它配了个智能云盘+私人秘书。它能理解包括图像、视频和超大文件在内的海量多模态数据。
还有VikingDB:知识库&向量库 :最后必须提一下支撑这一切的底层“核动力”——VikingDB。作为字节自研、支撑了抖音推荐系统多年的高性能向量数据库,它的性能和稳定性毋庸置疑。
还有实用的同声传译,围观了一堆人。。
哦对,聊了这么多,你肯定想问,这么牛的东西用起来贵不贵?
这就是为啥我觉得火山方舟这次特别有诚意的原因。他们推出了一个简单粗暴的**「协作奖励计划」** 。
https://www.volcengine.com/product/ark
个人认证和企业认证都有,简单说,就是官方出钱让你来体验和测试,帮你省钱,顺便帮你把模型和应用打磨得更好用。
这种双赢的好事,上哪找去?活动持续到今年11月30日,赶紧冲!
结语
这一趟厦门执行,收获很大。
也借此机会,跟各位聊一下这三个话题,
- 「基于成本和效果平衡如何选择模型?」
- 「有场景没思路的时候如何写Prompt?」
- 「生产级场景的Prompt如何构建与投产使用?」
抛砖引玉,希望能给大家一些思路和启发。
我们正亲眼见证,AI应用开发正从一个依赖个人经验和灵感的“手工作坊”时代,
大步迈向一个有方法论、有工具链的“标准化工业”时代。
真正的AI落地,拼的不是某个单点技巧,而是全链路的工程化能力。
而这,或许就是这次巡展给我,也希望能带给大家的最大启发。
未来,我们与AI的关系将不再是简单的“人机交互”,而是一种深度的“意图共鸣”。
我们不再需要穷尽所有技术细节,只需怀揣清晰的愿景,就能借助愈发智能的工程化工具,
将心中的答案,
转化为改变世界的结果。
憧憬,并向往着那一天的到来~
你认为PromptPilot这样的工具,为你解决了哪些实际问题?
对于豆包大模型和协作奖励计划,你还有哪些期待和建议?
我是甲木,热衷于分享一些AI干活内容,同时也会分享AI在各行业的落地应用,我们下期再见👋🏻
觉得今天的内容对你有“一点点”启发吗?
老规矩,【点赞👍】+【在看👀】+【转发↗️】走一波! 你的每一个支持,都是甲木持续探索AI硬核应用的核动力!
与我联系
欢迎在评论区留言,和甲木一起开脑洞!