如何构建生产级Prompt？这四个阶段的工程化方法论值得收藏（by 火山Meetup复盘）

小伙伴们大家好呀，我是甲木。

picture.image

前几天，我去厦门参加了火山引擎的AI创新巡展，玩的很开心，也见到了很多朋友~

在上篇文章的开头也跟大家说了，

今天会跟大家唠唠他们发布会的主要内容，

以及重点会给大家分享，

1、「基于成本和效果平衡如何选择模型？」

2、「有场景没思路的时候如何写Prompt？」

3、「生产级场景的Prompt如何构建与投产使用？」

这些也是很多企业朋友关心的问题，借此机会，跟大家分享一下~

picture.image

看图找人，猜猜甲木在哪里...

我本来是冲着他们全新升级的豆包1.6系列大模型去的，

毕竟更强的模型意味着我们手里的“武器”又升级了。

但没想到他们还对外公开了很多有意思的产品，

哦对了，该怎么形容上午发布会的火爆程度呢。。

我和乔木、一泽、苍何、袋鼠帝都是站着看完发布会的，后边站着三排人...

picture.image

对，没错，这是我的「站排」视角

话不多说，我们挨个来看看~

基于成本和效果平衡如何选择模型？

开场谭待老师就从「“有好模型”到“做好应用”」的分享中

介绍了豆包大模型过去一段时间的发展，能力不断提升。

picture.image

之后，带出了豆包1.6系列的全新升级！

picture.image

也是本场的重头戏，现在也都可以在火山方舟上去进行体验，

咱们今天就掰开揉碎了分开说一说：

首先是Doubao-Seed-1.6-thinking 的模型，它主打的就是一个“深度思考”。

对比上一代，它在Coding、Math、逻辑推理 这些硬核基础能力上又精进了不少，还支持了视觉理解，能看懂图。更关键的是，它支持256k 的超长上下文窗口，输出长度最大能到16k tokens，处理复杂任务和长文档简直是降维打击。

适合我们去处理一些复杂多模态场景的问题，比如，我让它直接帮我进行作业批改

picture.image

火山方舟上可以直接体验🔗 https://www.volcengine.com/experience/ark

它在长达四分钟的阅读、思考、理解之后，会给到我一系列的修改建议，还会给出一个总结。

picture.image

大家可以去体验一下效果~多模态理解层面非常👍🏻

这，就是Seed-1.6-thinking-0715模型的升级，

除了1.6-thinking之外，他们的1.6-Flash 也同步升级了，

如果说thinking是“最强大脑”，那flash就是“闪电侠”。

它的推理速度快到极致，TPOT（每个输出token的时间）仅需10ms 。同样支持文本和视觉理解，纯文本能力还比上一代lite提升了近10%。

同样具备256k长上下文，追求极致响应速度的场景，选它准没错。

picture.image

比如，让它总结下沐神的B站首页进行分析，非常迅速给出结果

上述两个模型其实或多或少在其它渠道都有所耳闻，

而他们这次还更新了Seed1.6-embedding 模型，这绝对是这次的重头戏，做RAG和搜索的兄弟们估计已经坐不住了。它不只是一个普通的向量模型，而是全模态的！

picture.image

不光在MTEB（纯文本）和MMEBv2（多模态）两大权威榜单上拿下了SOTA，在图文检索、语义匹配（STS）这些通用任务上也表现超神，泛化能力极强

而且首次引入了视频向量化能力！ 这意味着它可以统一处理文本、图像、视频帧 ，并支持多模态的混合输入。无论是在跨模态搜索、内容理解还是多模态Agent场景，都提供了更灵活、更强大的表达能力，是业界首发 支持混合模态检索的embedding模型。

picture.image

可以先感受下图像检索，视频这块我还没权限- -

而且模型能更好地理解你的“指令”，你可以通过定制化的指令模板来引导向量的生成，让embedding表达更贴合你的具体业务目标，用更低的成本提升场景效果。

这三个模型能力的升级都非常不错，那么我们来聊聊对于企业而言，

如何「基于成本和效果平衡如何选择模型？」

其实不管是哪家模型，我们都需要考虑「成本」和「效果」，

不存在一个“万能”的完美模型，「最优选择永远是“最适合业务场景”的模型」 。

企业选择的过程，本质上是在性能、成本和控制权 这三个维度上进行权衡和取舍。

拿Seed模型来举例：

1、当业务场景对结果的准确性、深度和逻辑性有最高要求 ，且预算相对充足时，应优先选择Doubao-Seed-1.6-thinking模型。

2、当业务场景对响应延迟 要求苛刻，或需要处理海量请求，希望在保证良好基础效果 的同时最大化成本效益时，Doubao-Seed-1.6-flash是理想选择。

为什么呢？我们可以看下两者的价格：

picture.image

两者相差几倍

3、而如果需要构建搜索和推荐系统 ，尤其是涉及图片、视频等多模态内容的业务，Seed1.6-embedding模型反而是优选，提供极具竞争力的成本优势。

这里也可以给企业方朋友们提供一个问题清单：

picture.image

而对于成熟的企业应用而言，最优解通常不是单一模型，而是构建一个“模型矩阵”或“模型瀑布”。

比如：

所有用户请求首先由一个成本极低的“路由”模型进行意图识别。
简单问候或分类任务，该模型直接处理。
复杂一点的，则转发给性价比高的主力模型。
如果识别出是需要深度创作或复杂逻辑的请求，再升级调用最顶级的性能模型。

抛砖引玉，最优选择永远是“最适合业务场景”的模型，

而业务场景，我相信你自己再熟悉不过了~

其实除了模型选型方面之外，Prompt也是我们应用好AI必不可少的一环，

有很多小伙伴比较好奇我平时写Prompt的思路，以及在有场景没思路的时候如何来写Prompt？

而这，也是这次下午场火山方舟端出的另一道“主菜” —— PromptPilot 。

生产级场景的Prompt如何构建与投产使用？

我们都心知肚明，再强的模型，也得有人会用才行。

就像红杉峰会上大佬们的共识：「下一轮 AI，卖的不是工具，而是收益」

真正的AI产品，看的不是“能力”，而是“结果”。

而连接“能力”和“结果”的最大瓶颈，就是我们每个每天都在抓耳挠腮的Prompt工程！

大家常常遇到的痛点是：

要么效果全凭运气，反复横跳，心态爆炸；
要么就是上线后被用户的各种奇葩输入干翻，疯狂救火。

而PromptPilot，我愿称之为终结这种“手工作坊”式开发的“新物种”。

picture.image

主界面如图所示，目前还都是免费使用，快来薅羊毛...

它不是一个教你写Prompt的老师，而是一个能帮你自动生成、评估、迭代、优化Prompt的智能领航员。

来一句话总结：

PromptPilot 是目前国内对外提供Prompt工程化应用实践的最好用的工具，它提供全流程智能优化，涵盖引导用户生成Prompt、根据内容进行调优、再到批量case评估prompt的各种边界，最后自动优化和管理Prompt全阶段。只有经历过全链路的测试之后，生成的Prompt，才能够投入到百万级请求的生产环境中。

picture.image

当然，它也是打通产品和开发沟通对齐的最重要的一个媒介，

为什么这么说，我们一会在看。

接下来，甲木就带大家一起深度体验一下，看看它到底是怎么把“炼丹”变成“工程”的。

Case 1：质检巡检（图片理解任务）

任务：我们打算让AI看一张工厂车间的图片，判断有没有违规操作或没戴安全帽的情况。

第一步：说人话，AI出活

我们直接把需求用大白话丢给PromptPilot：“为了安全生产，你需要根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全帽的情况，需要给出违规类别。” ，同时选择“视觉理解”类型。

picture.image

感兴趣的可以看看官方文档： https://www.volcengine.com/docs/82379/1544106

点击发送后，一个结构清晰、逻辑严谨的Prompt就自动生成了，连思考过程、判断、违规类别这些输出格式都给你安排得明明白白。

picture.image

为了后续更方便测试，可以将变量名修改为常用的变量名，比如“image_url”。

picture.image

最后得到的prompt为：

  
你是一位专业的图像分析AI。你的任务是严格对照给定的判定标准，仔细分析提供的生产车间图像，并按照规定的JSON格式输出判断结果。  
## 输入:  
- 生产车间图像: {{image\_url}}  
## 判定标准与JSON输出字段定义:  
1.  **`是否存在违规操作设备`**: (字符串, "是"/"否")  
    *   **判定**: 图像中是否存在违规操作设备的情况？  
    *   "是": 至少有一人违规操作设备。  
    *   "否": 无人违规操作设备，或者图像中无人操作设备。  
2.  **`是否存在未佩戴安全帽`**: (字符串, "是"/"否")  
    *   **判定**: 图像中是否存在未佩戴安全帽的人员？  
    *   "是": 至少有一人未佩戴安全帽。  
    *   "否": 所有人都佩戴了安全帽，或者图像中无人。  
3.  **`违规类别`**: (字符串)  
    *   如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“是”，则值为“违规操作设备、未佩戴安全帽”。  
    *   如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“否”，则值为“违规操作设备”。  
    *   如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“是”，则值为“未佩戴安全帽”。  
    *   如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“否”，则值为“无”。  
## 输出格式:  
请按照以下JSON格式输出你的判断结果。所有字段的值必须是字符串。  
{  
    "是否存在违规操作设备": "是",  
    "是否存在未佩戴安全帽": "否",  
    "违规类别": "违规操作设备"  
}

第二步：上考卷，AI当考官

点击右下角的“验证Prompt”，跳转到调试页面。

picture.image

首先进行单张图片的测试，点击“填写变量”，上传一张图片。

picture.image

同时在右侧选择所需模型，这里我们选择带thinking的模型。

picture.image

这里就先用默认模型给大家展示了~

全部选择完毕后，点击“保存并生成模型答案”，

可以看到很快模型就给到了判断结果。

picture.image

如果对结果不满意，可以点击下方的“去添加理想回答”。

picture.image

在这里，可以自己添加理想回答，也可以打开“更多模型回答参考”，然后基于不同模型的不同回答去选择理想回答。

picture.image

测完单张图没问题不代表模型就毕业了，

要记住，单个case场景有效不能证明prompt的普适性，我们必须经过严格的测试，才能得到更有意义的证明。

接着选择“批量评测”。

picture.image

我们直接上传了一整个包含多张图片中的文件当“考卷”（评测集）。

Tip：这里有个小提示，数据集中的列名需要和变量名保持一致，才能完成批量上传~

picture.image

点击生成，就可以批量对评测集的图片进行判定。

picture.image

同时我们还可以添加理想回答，给模型评分，如果不想手动评分，也可以给AI一套评分标准。

比如，我们规定：“思考过程、判断、违规类别都跟标准答案一样，才给5分；否则就给1分。”

或者让AI帮助我们生成标准，标准一旦确定，PromptPilot就化身魔鬼考官，

唰唰唰地给所有模型回答自动打上了分数。

第三步：见证奇迹，一键优化

我们根据评测结果和评分结果，可以直接点“智能优化”。

picture.image

PromptPilot会自己去琢磨那些高分和低分的答案，理解你的评分偏好，然后……它自己把Prompt给改了！

当然如果还是不满意还可以继续优化，这里就不再过多演示了。

刚才给大家看的是关于图片理解型的任务，接下来我们再来看一个文本型任务。

Case 2：品牌评价情感分类（文本理解任务）

任务：分析网上关于某个品牌的用户评论，判断好评差评，并提取负面评价的维度和产品名，输出JSON。

第一步：说人话，AI出Prompt

我们直接把需求发送给PromptPilot，让其自动生成Prompt。

picture.image

如果对生成的prompt不满意，可以手动修改，也可以在右下角直接点击“优化你的Prompt”，在对话框内输入反馈/优化要求。

比如：你需要关注模型的思考过程。“请增加在<思考>标签，在<思考>中详细分析你对每条评价的情感判断、评价维度和产品名称识别的依据。”。

picture.image

最后得到的prompt为：

picture.image

第二步：上考卷，AI当考官

点击右下角的“验证Prompt”，跳转到调试页面。填写变量，选择模型，并生成模型回答。

picture.image

如果对模型的回答不满意，可以继续优化Prompt，

或者添加理想回答指导模型做出满意的答复。

接着，继续可以进行批量评测和智能优化，上传case集，同时添加理想回答，给模型评分。

picture.image

第三步：见证奇迹，一键优化

根据评测结果和评分结果，可以直接点击“智能优化”。

PromptPilot会自己去分析评测集的结果，然后生成分析报告。

分析报告的结果中，它会根据我们的评分标准自动优化Prompt直到分数有明显提升。

picture.image

当然，如果我们企业有知识库的情况，它也同样支持引入知识库RAG的形式。

Case 3：医疗知识问答（知识库RAG）

任务：让AI扮演专业医生，根据我们提供的医疗知识来回答问题，不能自由发挥。

第一步：创建知识库并引用

在Prompt生成页面，点击“知识库”。

picture.image

将我们提前准备好的资料上传上去，方便后续引用。

picture.image

上传完成后，回到Prompt生成页面，输出需求并引用刚才上传的知识库。

picture.image

可以看到引入知识库后，生成的Prompt中按疾病进行分类，并增加了很多专业词汇。

picture.image

第二步：批量评测

我们直接对Prompt进行批量评测，上传一份包含疑难杂症的文件。

picture.image

点击生成全部回答后，模型很快给出了包含可能的病因和判定依据的回答。

picture.image

以上就是PromptPilot的几个简单应用场景，接下来我们来回答一下开头的几个问题：

有场景没思路的时候如何写Prompt？

甲木知道在很多时候我们都是了解需求场景，但没有办法把它转化成Prompt，

这时候我们可以去选择一个MetaPrompt（元提示词）帮我们根据自己所需去打造初版prompt的内容，然后进行调试，比如大家都知道的LangGPT提示词专家等等，

picture.image

以及我之前给大家分享过的如何构建初版提示词的方法论文章，

归根结底一句话：“通过AI的能力拓展我们的行业knowhow，根据Prompt方法论帮我们完成场景prompt编写”

甲木在平时，也会有很多各行各业的应用场景不知悉，不清楚，

你不了解行业知识怎么能写好这个行业的应用Prompt呢？

这时候，虽然我不了解，但是AI了解啊，

它懂世界知识，我们就不断地跟它沟通，不断地跟它交流，告诉它我们的预期，再按照我们的方法论让它去进行整合和补充，

这样，我们就能完成初版prompt的构建。

picture.image

而现在，有了更好的方案，

PromptPilot平台的设计初衷之一，就是为了解决这种“冷启动”困难。

它将这个过程从“苦思冥想”变成了“互动探索”。

当有场景没prompt思路时，不要把压力都放在自己身上。

可以利用PromptPilot等之类的工具成为一个优秀的“任务指挥官”。

只需要提出一个初始目标，然后通过不断的交互和反馈，让AI来帮助您探索、澄清和实现最终的意图。

生产级场景的Prompt如何构建与投产使用？

我们评判一个提示词的好与坏，不在于它一次任务的完成度有多好，而是能否在多次任务中都能够重复、有效、可稳定 的实现目标任务。

这正是区分“玩具级”Prompt和“生产级”Prompt的核心标准。

生产级场景追求的不是一次惊艳的“神抽卡”，而是像工业流水线一样，高效率、高稳定性和可迭代 地输出符合业务要求的结果。

这里可以给大家看个生产级场景中的case，真不是广告，我在生产级场景中一直在频繁的使用promptpilot工具。。

picture.image

那么我的工作流是什么样的呢？也可以分享给大家：

简单来说四个核心阶段：开发与调试、批量评测、智能优化、投产与监控 。

阶段一：开发与调试阶段 (从0到1)

这是冷启动阶段，目标是快速将一个模糊的业务需求，转化为一个可用的、结构化的Prompt。

这里可以根据自己的任务描述通过PromptPilot（以下简称PP）生成初版prompt，也可以自己根据经验写prompt，拿我这个生产场景，是我自己写的。

picture.image

隐私保护，就不完全展示了

然后进行单点验证，在业务场景中，在变量处填入自己的真实数据，进行prompt调试，

如果对生成的结果不满意，可以直接在局部进行修改，或通过对话向AI提出修改意见，

同样地，如果您手头没有现成的测试数据，还可以让AI根据Prompt上下文自动生成逼真的变量内容，帮助您验证和激发思路

阶段二：批量评测阶段 (从1到N)

单一案例的成功不具备代表性。生产级的Prompt必须在大量的、多样化的数据上证明其稳定性。

构建评测数据集 ：准备一个包含数十甚至数百个案例的数据集（通常是Excel或CSV文件），其中应覆盖各种正常情况、边界情况和已知的Badcase。
建立客观评估标准 ：这是确保“稳定有效”的关键。您需要为“好结果”下一个明确、可量化的定义。PromptPilot支持AI辅助生成标准和自定义标准：

picture.image

自动化评估与打分 ：PP将使用您的Prompt处理整个评测集，并根据您建立的标准，对每一个结果进行自动评分。

最终，您会得到一个关于当前Prompt版本的综合得分 和详细的评分分布，让您对Prompt的整体表现有清晰、客观的认知（隐私原因暂不展示了）。

阶段三：智能优化阶段 (追求更优)

有了量化的评估结果，下一步就是系统性地提升Prompt性能。

一键智能优化 ：基于带有评分的评测数据集，启动“智能优化”功能。PP会分析所有高分和低分案例，理解您的评估偏好和业务目标，然后 自动进行多轮迭代，生成一个效果更好的新版Prompt 。

picture.image

进入优化阶段

查看优化报告 ：优化完成后，平台会提供一份详细的对比报告，清晰展示新旧版本Prompt的综合得分对比（例如从3.2分提升至4.8分）、评分分布变化以及具体的Prompt修改内容，让每一次优化的效果都一目了然。

picture.image

当Prompt优化遇到瓶颈时，PP还可以判断是否需要发起精调，并与火山方舟的精调功能联动，实现模型级的深度优化，这块感兴趣的可以了解一下。

阶段四：投产与持续监控阶段 (闭环进化)

一个生产级的Prompt不是交付后就结束了，它需要一个能在线上环境中持续进化的机制。

它支持版本管理与上线，将优化后、表现最佳的Prompt版本进行保存，并通过API或SDK集成到您的生产应用中。

（ps.可以看到，我每个场景都迭代了十几个版本...）

picture.image

或许之后，我们的线上应用还可以调用PromptPilot的SDK，将生产环境中的真实调用数据（输入、输出、用户反馈等）反馈回系统。

之后自动对回流的线上数据进行“裁判”和评分，精准捕获Badcase。

这些来自真实场景的Badcase会成为最高质量的“新考题”，用于启动下一轮的“智能优化”，形成一个开发-评测-优化-投产-监控-再优化 的自动化闭环。

通过以上四个阶段，

企业就能够将Prompt的构建从依赖个人经验和灵感的“手工业”，

picture.image

转变为一个数据驱动、可量化、可迭代的“标准化工业生产流程”，

从而确保AI应用在生产环境中的长期稳定和高效。

当然，它们目前还有一些局限和可优化的点，比如：

seed-1.6模型，或者是其它场景输出的时候，<think> </think>标签内容可以收起，或者是，增加一个换行来区分，要不视觉上太不容易理解

picture.image

或者是整体的token消耗数目前没有展示，如果能在对应区域把消耗的token数量，展示出来，这样大家才能从提示词稳定性和成本方面取得一个平衡，等等

picture.image

在现场也跟PP团队的小伙伴们反馈了，如果还没改，我要去大钟寺push了~

作为一个对外发布没多长时间的工具，我们也应该对它多一些包容和理解~

期待以后PromptPilot越来越好~

结语

这一趟厦门执行，收获很大。

也借此机会，跟各位聊一下这三个话题，

「基于成本和效果平衡如何选择模型？」
「有场景没思路的时候如何写Prompt？」
「生产级场景的Prompt如何构建与投产使用？」

抛砖引玉，希望能给大家一些思路和启发。

我们正亲眼见证，AI应用开发正从一个依赖个人经验和灵感的“手工作坊”时代，

大步迈向一个有方法论、有工具链的“标准化工业”时代。

真正的AI落地，拼的不是某个单点技巧，而是全链路的工程化能力。

而这，或许就是这次巡展给我，也希望能带给大家的最大启发。

picture.image

未来，我们与AI的关系将不再是简单的“人机交互”，而是一种深度的“意图共鸣”。

我们不再需要穷尽所有技术细节，只需怀揣清晰的愿景，就能借助愈发智能的工程化工具，

将心中的答案，

转化为改变世界的结果。

憧憬，并向往着那一天的到来~

你认为PromptPilot这样的工具，为你解决了哪些实际问题？

对于豆包大模型和协作奖励计划，你还有哪些期待和建议？

我是甲木，热衷于分享一些AI干活内容，同时也会分享AI在各行业的落地应用，我们下期再见👋🏻

觉得今天的内容对你有“一点点”启发吗？

老规矩，【点赞👍】+【在看👀】+【转发↗️】走一波！ 你的每一个支持，都是甲木持续探索AI硬核应用的核动力！

picture.image

与我联系

欢迎在评论区留言，和甲木一起开脑洞！

基于成本和效果平衡如何选择模型？

如何「基于成本和效果平衡如何选择模型？」

生产级场景的Prompt如何构建与投产使用？

Case 1：质检巡检（图片理解任务）

第一步：说人话，AI出活

第二步：上考卷，AI当考官

第三步：见证奇迹，一键优化

Case 2：品牌评价情感分类（文本理解任务）

第一步：说人话，AI出Prompt

第二步：上考卷，AI当考官

第三步：见证奇迹，一键优化

Case 3：医疗知识问答（知识库RAG）

第一步：创建知识库并引用

第二步：批量评测

有场景没思路的时候如何写Prompt？

生产级场景的Prompt如何构建与投产使用？

阶段一：开发与调试阶段 (从0到1)

阶段二：批量评测阶段 (从1到N)

阶段三：智能优化阶段 (追求更优)

阶段四：投产与持续监控阶段 (闭环进化)

更多内容

结语