提示词终结者！PromptPilot手把手教程 - 文章 - 开发者社区

你见过像git一样，可回滚的Prompt吗？

写在前面

✨ 豆包 + PromptPilot = 解锁 AI 提效新姿势！

你有没有过这样的经历？

花几个小时调试Prompt结果还不如第一版？
每次都要手动从头写Prompt
提示词优化、版本管理困难、评估模糊？

在这篇教程，你将获得🎯

手把手带你玩转 PromptPilot 四大核心功能（生成→调试→批量→优化）
像git一样，可回滚可更新的提示词管理工具 🧪
像飞书 多维表格一样，批量生成文案的工具，免费且香到离谱！ 😍

助你轻松拿捏*提示词管理， *直接起飞🛫️

一、豆包新模型

picture.image

先介绍下本次豆包推出的两款大模型：Doubao-Seed-1.6-thinking和flash。

可以说，flash就是极速版的thinking。

①多模态和②长文，两个在其他家大模型难以突破的特性，到豆包这，只能算是基本功了。

但，

是不是真的遥遥领先~

还得看网友们的测评实况~

picture.image 【在线体验】豆包视觉理解模型

对话框中支持3种能力

联网能力
MCP能力：对话中就能很方便地使用MCP，目前支持火山官方MCP 和 第三方MCP，需要哪个启用哪个，暂不支持自定义MCP服务。
Canvas能力：绘制html生成和预览

picture.image

在官网右下角可以看到，现在登录！即可白嫖 n个大模型的50W tokens ！

还有 Kimi-K2 !

picture.image

二、PromptPilot实践

豆包除了新的大模型，还推出一款“PromptPilot”产品，个人感觉对“提示词困难”的用户比较友好，挺好用的，下面我们介绍这款产品，并附实测案例。

你可以看下这款产品是不是你的菜，再考虑上手实操。

2.1 PromptPilot 是个啥？

picture.image

先看下官网的介绍

Prompt（提示词）作为大模型的核心输入指令，直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力，如逻辑推理、步骤分解等。

PromptPilot 提供全流程智能优化，涵盖生成、 调优 、评估和管理全阶段，帮助您高效获得更优 Prompt 方案。

随着模型能力持续提升，待解决的问题日趋复杂，解决方案也从单一的 Prompt 调优，转向对包含多个步骤、工具及 Agent 参与的 Workflow 进行系统性优化。

PromptPilot 依托大模型能力，自动拆解问题、规划流程，结合可用工具生成多样化解决方案，并基于用户反馈持续优化，最终轻松实现代码部署。

✅ 一句话解释

PromptPilot 是一款，帮你把模糊想法 转化为 清晰提示词的产品。

picture.image

经拆解，个人认为，有以下5个特点：

帮你生成提示词
帮你优化提示词
评估前后版本的提示词有什么区别
像git：可以管理各版本的提示词
像飞书多维表格：可以批量生成内容

如果你感兴趣，以下两个链接都能直达“PromptPilo”

产品版本	支持模型
火山方舟的PromptPilot	豆包、DeepSeek 等预置模型
PromptPilot 官网	豆包、DeepSeek 等预置模型，以及豆包、通义千问、ERNIE、DeepSeek 等自定义模型

2.2 白嫖Plus版

毋庸置疑！

作为优秀的天选打工人，我们必须选择 Plus版 的套餐！（截止9.11，限时抢购！）

picture.image

2.3 实操指南

分以下四个部分：Prompt生成、Prompt调试、Prompt批量和智能优化。

2.3.1 Prompt生成

picture.image

Step1. 点开右侧第一项功能 “Prompt生成”

Step2. 输入你的“四不像”提示词，对话框左下角还能选择你的提示词任务类型

网上有很多用户讨论我们的产品“某品牌”，有夸面好吃的，也有嫌饮料太贵的，各种评价都有。我们想用大模型自动识别这些评价，并把它们整理成一个统一的json格式。你要做的是：

先判断评价是好评还是差评（正面/负面）

如果是差评，再细化下分类：是因为包装有问题？（比如箱子破了、袋子不好开），还是嫌价格太贵？吐槽味道不好（太咸/太甜/口感差）？说吃出问题（食品安全问题）？还是售后不给力（退货退款纠纷）？还有其他没法归类的情况。

最后还要标明哪个产品？

Step3. 发送对话，即可得到“精美提示词v1.0”

picture.image

右侧是生成的后的Prompt，不满意可以点击优化；满意就直接点击 “验证Prompt”。

你的任务是对网上关于“某品牌”产品的评价进行处理，将评价判断为好评或差评，并对差评进行细化分类，最后整理成统一的json格式。
请仔细阅读以下关于“某品牌”产品的评价内容：
<产品评价>
{{PRODUCT_REVIEWS}}
</产品评价>
评价处理规则如下：
1. 首先判断评价是好评还是差评，标记为“正面”或“负面”。
2. 如果是差评，再进行细化分类：
    - 包装问题：包括箱子破了、袋子不好开等包装方面的问题。
    - 价格太贵：明确表示产品价格过高的评价。
    - 味道不好：如太咸、太甜、口感差等对味道的吐槽。
    - 吃出问题：涉及食品安全问题的评价。
    - 售后不给力：有退货退款纠纷等售后方面的问题。
    - 其他：无法归类到上述情况的差评。
3. 标明评价针对的是哪个产品。

请在<分析>标签中详细说明你对每条评价的判断和分类依据。
然后，将所有评价处理结果整理成统一的json格式，放在<json结果>标签内。json格式如下：
[    {        "评价内容": "具体评价文本",        "评价类型": "正面/负面",        "差评分类": "包装问题/价格太贵/味道不好/吃出问题/售后不给力/其他/无（好评时使用）",        "产品名称": "某品牌下具体产品名称"    }]

<分析>
[在此详细说明对每条评价的判断和分类依据]
<json结果>
[在此输出整理好的json格式结果]
</json结果>

然后选一种适合你的调优模式

picture.image

2.3.2 Ptompt调试

点击“验证Prompt”后，来到“Prompt调试”界面（左侧栏第2项）

picture.image

在两个②处都能弹出一个临时弹窗，贴入变量内容；

点击④处的“生成模型回答”，即可得到v1提示词的大模型回答啦！

很显然，v1的回答也是不理想答案~

那就调试吧

2.3.2.1 提示词优化

可以在左下角优化“提示词”

picture.image

输入新要求：比如

1. 细化分类如下：包装、价格、食品安全、售后、其他
2. 产品名称要具体化：如饮料、冰红茶、红烧牛肉面、冰红茶、冰箱，没有则为空
3. 只输出json内容，不要分析，json中只保留“评价类型”、“差评分类”、“产品名称”3个字段

可以看到，迭代到第3轮，得到我的理想答案

picture.image

不得不说， 提示词也能回滚，这个管理方式 我真的慕了~

picture.image

2.3.2.2 理想回答（可选）

如果万般调试，都无法得到理想答案 ，怎么办？

火山贴心地准备了“添加理想回答” 路径。

什么意思？

也是能够优化模型回答的一种方式

倒逼提示词 学习这个“理想回答”的模板回答~

picture.image

至此，我们完成了提示词调试部分，大致可以得到理想Prompt 和 理想回答了。

如果你需要进一步测试 理想Prompt能不能每次都能生成 理想回答？

那就再进入2.3.3 Prompt批量测试和 2.3.4 智能优化 部分。

2.3.3 Prompt批量

接下来，进行批量测试和智能优化。

你需要上传数据集、制定评分机制，最后进行智能优化

这两处都能进入批量测试：Prompt调试的右上角，或左侧栏第3项的文本理解。

当然，如果你是视觉任务，点到视觉理解。

picture.image

2.3.3.1 准备评测数据

评测数据集，由四列组成。

你要准备前三列：id、PRODUCT_REVIEWS 和 理想回答

箭头两处都能上传数据，要么上传数据集文件，要么一行一行手动添加。

picture.image

方式1. 上传数据集文件

你的数据集 xlsx文件中，必须包含 PRODUCT_REVIEWS 列。

因为提示词中的变量名包含 PRODUCT_REVIEWS 。

你的提示词包含什么变量，此处就得有对应名称的列。

如下所示

PRODUCT_REVIEWS	理想回答
畏惧了，大晚上煮个泡面还有这么大一块蛋白质，想吐吐不出来，肚子疼也不知道是生理还是心理作用。[脱敏品牌1]你睡得着吗我睡不着 @[脱敏品牌1]官方旗舰店 @[脱敏品牌1]速食旗舰店 #己疯 #脏东西 #发神经	[{"评价类型": "负面","差评分类": "食品安全","产品名称": ""}]
西站的[脱敏品牌1]红烧牛肉面45一碗，好贵。到南京啦，酒店的正对面就是夫子庙。嘴巴喊着不吃鸭血粉丝汤，吃了一口停不下来了。	[{"评价类型": "负面","差评分类": "价格","产品名称": "红烧牛肉面"}]

如果不确定，点下“上传文件”按钮，下载“样例文件”，照着样例准备数据集。

picture.image

方式2. 添加行

如果测试集比较少，可以直接添加行。

picture.image

准备好数据集后

点击生成回答，或右上角的“批量生成回答”

这个Prompt批量功能，你即使不是做评测，也可以把它当做免费的“飞书 多维表格”，批量生成回答~

2.3.3.2 制定评分机制

promptPilot平台是5分制，因此需要按照5分制来进行适配，评分标准如下：

每题总分 5 分：
1. 输出JSON和参考答案JSON完全一致，没有冗余字段和内容，得 5 分
2. 相比参考答案有多余字段，得 1 分
3. 字段取值内容和参考答案不一致，得 1 分
4. "产品名称" 取值不是 List，得 1 分
5. 参考答案为"{}"时，输出任何字段都直接判为 1 分
6. 输出结果格式不是合法JSON直接得 1 分

贴入评分标准，才能点亮“为所有回答评分”。

picture.image