你见过像git一样,可回滚的Prompt吗?
写在前面
✨ 豆包 + PromptPilot = 解锁 AI 提效新姿势!
你有没有过这样的经历?
- 花几个小时调试Prompt结果还不如第一版?
- 每次都要手动从头写Prompt
- 提示词优化、版本管理困难、评估模糊?
在这篇教程,你将获得🎯
-
手把手带你玩转 PromptPilot 四大核心功能(生成→调试→批量→优化)
-
像git一样,可回滚可更新的提示词管理工具 🧪
-
像飞书 多维表格一样,批量生成文案的工具,免费且香到离谱! 😍
助你轻松拿捏*提示词管理, *直接起飞🛫️
一、豆包新模型
先介绍下本次豆包推出的两款大模型:Doubao-Seed-1.6-thinking和flash。
可以说,flash就是 极速版的thinking。
①多模态和②长文,两个在其他家大模型难以突破的特性,到豆包这,只能算是基本功了。
但,
是不是真的遥遥领先~
还得看网友们的测评实况~
【在线体验】豆包视觉理解模型
对话框中支持3种能力
- 联网能力
- MCP能力:对话中就能很方便地使用MCP,目前支持
火山官方MCP
和第三方MCP
,需要哪个启用哪个,暂不支持自定义MCP服务。 - Canvas能力:绘制html生成和预览
在官网右下角可以看到,现在登录!即可白嫖 n个大模型的50W tokens !
还有 Kimi-K2 !
二、PromptPilot实践
豆包 除了新的大模型,还推出一款“PromptPilot”产品,个人感觉对“提示词困难”的用户比较友好,挺好用的,下面我们介绍这款产品,并附实测案例。
你可以看下这款产品是不是你的菜,再考虑上手实操。
2.1 PromptPilot 是个啥?
先看下官网的介绍
Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力,如逻辑推理、步骤分解等。
PromptPilot 提供全流程智能优化,涵盖生成 、 调优 、评估和管理全阶段,帮助您高效获得更优 Prompt 方案。
随着模型能力持续提升,待解决的问题日趋复杂,解决方案也从单一的 Prompt 调优,转向对包含多个步骤、工具及 Agent 参与的 Workflow 进行系统性优化。
PromptPilot 依托大模型能力,自动拆解问题、规划流程,结合可用工具生成多样化解决方案,并基于用户反馈持续优化,最终轻松实现代码部署。
✅ 一句话解释
PromptPilot 是一款,帮你把模糊想法 转化为 清晰提示词的产品。
经拆解,个人认为,有以下5个特点:
- 帮你生成提示词
- 帮你优化提示词
- 评估前后版本的提示词有什么区别
- 像git:可以管理各版本的提示词
- 像飞书多维表格:可以批量生成内容
如果你感兴趣,以下两个链接都能直达“PromptPilo”
产品版本 | 支持模型 |
---|---|
火山方舟的PromptPilot | 豆包、DeepSeek 等预置模型 |
PromptPilot 官网 | 豆包、DeepSeek 等预置模型,以及豆包、通义千问、ERNIE、DeepSeek 等自定义模型 |
2.2 白嫖Plus版
毋庸置疑!
作为优秀的天选打工人,我们必须选择 Plus版 的套餐!(截止9.11,限时抢购!)
2.3 实操指南
分以下四个部分:Prompt生成、Prompt调试、Prompt批量和智能优化。
2.3.1 Prompt生成
Step1. 点开右侧第一项功能 “Prompt生成”
Step2. 输入你的“四不像”提示词,对话框左下角还能选择你的提示词任务类型
网上有很多用户讨论我们的产品“某品牌”,有夸面好吃的,也有嫌饮料太贵的,各种评价都有。我们想用大模型自动识别这些评价,并把它们整理成一个统一的json格式。你要做的是:
先判断评价是好评还是差评(正面/负面)
如果是差评,再细化下分类:是因为包装有问题?(比如箱子破了、袋子不好开),还是嫌价格太贵?吐槽味道不好(太咸/太甜/口感差)?说吃出问题(食品安全问题)?还是售后不给力(退货退款纠纷)?还有其他没法归类的情况。
最后还要标明哪个产品?
Step3. 发送对话,即可得到“精美提示词v1.0”
右侧是生成的后的Prompt,不满意可以点击优化;满意就直接点击 “验证Prompt”。
你的任务是对网上关于“某品牌”产品的评价进行处理,将评价判断为好评或差评,并对差评进行细化分类,最后整理成统一的json格式。
请仔细阅读以下关于“某品牌”产品的评价内容:
<产品评价>
{{PRODUCT_REVIEWS}}
</产品评价>
评价处理规则如下:
1. 首先判断评价是好评还是差评,标记为“正面”或“负面”。
2. 如果是差评,再进行细化分类:
- 包装问题:包括箱子破了、袋子不好开等包装方面的问题。
- 价格太贵:明确表示产品价格过高的评价。
- 味道不好:如太咸、太甜、口感差等对味道的吐槽。
- 吃出问题:涉及食品安全问题的评价。
- 售后不给力:有退货退款纠纷等售后方面的问题。
- 其他:无法归类到上述情况的差评。
3. 标明评价针对的是哪个产品。
请在<分析>标签中详细说明你对每条评价的判断和分类依据。
然后,将所有评价处理结果整理成统一的json格式,放在<json结果>标签内。json格式如下:
[ { "评价内容": "具体评价文本", "评价类型": "正面/负面", "差评分类": "包装问题/价格太贵/味道不好/吃出问题/售后不给力/其他/无(好评时使用)", "产品名称": "某品牌下具体产品名称" }]
<分析>
[在此详细说明对每条评价的判断和分类依据]
<json结果>
[在此输出整理好的json格式结果]
</json结果>
然后选一种适合你的调优模式
2.3.2 Ptompt调试
点击“验证Prompt”后,来到“Prompt调试”界面(左侧栏第2项)
在两个②处都能弹出一个临时弹窗,贴入变量内容;
点击④处的“生成模型回答”,即可得到v1提示词的大模型回答啦!
很显然,v1的回答也是不理想答案~
那就调试吧
2.3.2.1 提示词优化
可以在左下角优化“提示词”
输入新要求:比如
1. 细化分类如下:包装、价格、食品安全、售后、其他
2. 产品名称要具体化:如饮料、冰红茶、红烧牛肉面、冰红茶、冰箱,没有则为空
3. 只输出json内容,不要分析,json中只保留“评价类型”、“差评分类”、“产品名称”3个字段
可以看到,迭代到第3轮,得到我的理想答案
不得不说, 提示词也能回滚,这个管理方式 我真的慕了~
2.3.2.2 理想回答(可选)
如果万般调试,都无法得到理想答案 ,怎么办?
火山贴心地准备了“添加理想回答” 路径。
什么意思?
也是能够优化模型回答的一种方式
倒逼提示词 学习 这个“理想回答”的模板回答~
至此,我们完成了提示词调试部分,大致可以得到理想Prompt
和 理想回答
了。
如果你需要进一步测试 理想Prompt
能不能每次都能生成 理想回答
?
那就再进入2.3.3 Prompt批量
测试 和 2.3.4 智能优化
部分。
2.3.3 Prompt批量
接下来,进行批量测试和智能优化。
你需要上传数据集、制定评分机制,最后进行智能优化
这两处都能进入批量测试
:Prompt调试
的右上角,或 左侧栏第3项的文本理解
。
当然,如果你是视觉任务,点到视觉理解
。
2.3.3.1 准备评测数据
评测数据集,由四列组成。
你要准备前三列:id、PRODUCT_REVIEWS
和 理想回答
箭头两处都能上传数据,要么上传数据集文件,要么一行一行手动添加。
方式1. 上传数据集文件
你的数据集 xlsx文件中,必须包含 PRODUCT_REVIEWS
列。
因为提示词中的变量名包含
PRODUCT_REVIEWS
。你的提示词包含什么变量,此处就得有 对应名称 的列。
如下所示
PRODUCT_REVIEWS | 理想回答 |
---|---|
畏惧了,大晚上煮个泡面还有这么大一块蛋白质,想吐吐不出来,肚子疼也不知道是生理还是心理作用。[脱敏品牌1]你睡得着吗我睡不着 @[脱敏品牌1]官方旗舰店 @[脱敏品牌1]速食旗舰店 #己疯 #脏东西 #发神经 | [{"评价类型": "负面","差评分类": "食品安全","产品名称": ""}] |
西站的[脱敏品牌1]红烧牛肉面45一碗,好贵。到南京啦,酒店的正对面就是夫子庙。嘴巴喊着不吃鸭血粉丝汤,吃了一口停不下来了。 | [{"评价类型": "负面","差评分类": "价格","产品名称": "红烧牛肉面"}] |
如果不确定,点下“上传文件”按钮,下载“样例文件”,照着样例准备数据集。
方式2. 添加行
如果测试集比较少,可以直接添加行。
准备好数据集后
点击生成回答,或右上角的“批量生成回答”
这个Prompt批量
功能,你即使不是做评测,也可以把它当做免费的“飞书 多维表格”,批量生成回答~
2.3.3.2 制定评分机制
promptPilot平台是5分制,因此需要按照5分制来进行适配,评分标准如下:
每题总分 5 分:
1. 输出JSON和参考答案JSON完全一致,没有冗余字段和内容,得 5 分
2. 相比参考答案有多余字段,得 1 分
3. 字段取值内容和参考答案不一致,得 1 分
4. "产品名称" 取值不是 List,得 1 分
5. 参考答案为"{}"时,输出任何字段都直接判为 1 分
6. 输出结果格式不是合法JSON直接得 1 分
贴入评分标准,才能点亮“为所有回答评分”。
2.3.3.3 批量评分
点击“为所有回答评分”,自动完成所有评分,如下所示:
然后评估下评分是否正确,然后手动调整下不符合预期的评分,并开始优化
2.3.4 智能优化
这项功能 就是生成评测报告,你将获得:
- 提示词优化前后的评分效果
- 再次智能优化后的Prompt
“Prompt批量”的右上角点击进入“智能优化”
点击开始“智能优化”
可以实时查看评测报告
智能化完成,点击“查看优化报告”。
可以看到 前后两个版本的提示词评分和修改内容
以上,就是所有PromptPilot产品的所有实践啦!
想要学习更多使用技巧可移步 PromptPilot概述,功能讲解也非常清晰
https://www.volcengine.com/docs/82379/1399495
写在最后
🚀PromptPilot
这个产品解决了提示词优化
、版本管理困难
、评估模糊
等痛点。
还有我愿称之为免费“飞书 多维表格”的 Prompt批量
功能🔥
墙裂推荐给各位粉丝朋友使用💪
心动不如行动~
实践出真知,与君共勉