提示词终结者!PromptPilot手把手教程

Prompt大模型

你见过像git一样,可回滚的Prompt吗?

写在前面

豆包 + PromptPilot = 解锁 AI 提效新姿势!

你有没有过这样的经历?

  • 花几个小时调试Prompt结果还不如第一版?
  • 每次都要手动从头写Prompt
  • 提示词优化、版本管理困难、评估模糊?

在这篇教程,你将获得🎯

  • 手把手带你玩转 PromptPilot 四大核心功能(生成→调试→批量→优化)

  • git一样,可回滚可更新的提示词管理工具 🧪

  • 飞书 多维表格一样,批量生成文案的工具,免费且香到离谱! 😍

助你轻松拿捏*提示词管理, *直接起飞🛫️

一、豆包新模型

picture.image

先介绍下本次豆包推出的两款大模型:Doubao-Seed-1.6-thinkingflash。

可以说,flash就是 极速版的thinking

多模态和②长文,两个在其他家大模型难以突破的特性,到豆包这,只能算是基本功了。

但,

是不是真的遥遥领先~

还得看网友们的测评实况~

picture.image在线体验豆包视觉理解模型

对话框中支持3种能力

  1. 联网能力
  2. MCP能力:对话中就能很方便地使用MCP,目前支持火山官方MCP第三方MCP,需要哪个启用哪个,暂不支持自定义MCP服务。
  3. Canvas能力:绘制html生成和预览

picture.image


在官网右下角可以看到,现在登录!即可白嫖 n个大模型的50W tokens !

还有 Kimi-K2 !

picture.image

二、PromptPilot实践

豆包 除了新的大模型,还推出一款“PromptPilot”产品,个人感觉对“提示词困难”的用户比较友好,挺好用的,下面我们介绍这款产品,并附实测案例。

你可以看下这款产品是不是你的菜,再考虑上手实操。

2.1 PromptPilot 是个啥?

picture.image

先看下官网的介绍

Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力,如逻辑推理、步骤分解等。

PromptPilot 提供全流程智能优化,涵盖生成 调优 评估管理全阶段,帮助您高效获得更优 Prompt 方案。

随着模型能力持续提升,待解决的问题日趋复杂,解决方案也从单一的 Prompt 调优,转向对包含多个步骤、工具及 Agent 参与的 Workflow 进行系统性优化。

PromptPilot 依托大模型能力,自动拆解问题规划流程结合可用工具生成多样化解决方案,并基于用户反馈持续优化,最终轻松实现代码部署。

一句话解释

PromptPilot 是一款,帮你把模糊想法 转化为 清晰提示词的产品。

picture.image

经拆解,个人认为,有以下5个特点:

  • 帮你生成提示词
  • 帮你优化提示词
  • 评估前后版本的提示词有什么区别
  • 像git:可以管理各版本的提示词
  • 像飞书多维表格:可以批量生成内容

如果你感兴趣,以下两个链接都能直达“PromptPilo

产品版本支持模型
火山方舟的PromptPilot豆包、DeepSeek 等预置模型
PromptPilot 官网豆包、DeepSeek 等预置模型,以及豆包、通义千问、ERNIE、DeepSeek 等自定义模型

2.2 白嫖Plus版

毋庸置疑!

作为优秀的天选打工人,我们必须选择 Plus版 的套餐!(截止9.11,限时抢购!)

picture.image

2.3 实操指南

分以下四个部分:Prompt生成、Prompt调试、Prompt批量和智能优化。

2.3.1 Prompt生成

picture.image

Step1. 点开右侧第一项功能 “Prompt生成”

Step2. 输入你的“四不像”提示词,对话框左下角还能选择你的提示词任务类型

网上有很多用户讨论我们的产品“某品牌”,有夸面好吃的,也有嫌饮料太贵的,各种评价都有。我们想用大模型自动识别这些评价,并把它们整理成一个统一的json格式。你要做的是:

先判断评价是好评还是差评(正面/负面)

如果是差评,再细化下分类:是因为包装有问题?(比如箱子破了、袋子不好开),还是嫌价格太贵?吐槽味道不好(太咸/太甜/口感差)?说吃出问题(食品安全问题)?还是售后不给力(退货退款纠纷)?还有其他没法归类的情况。

最后还要标明哪个产品?

Step3. 发送对话,即可得到“精美提示词v1.0

picture.image

右侧是生成的后的Prompt,不满意可以点击优化;满意就直接点击 “验证Prompt”。

你的任务是对网上关于“某品牌”产品的评价进行处理,将评价判断为好评或差评,并对差评进行细化分类,最后整理成统一的json格式。
请仔细阅读以下关于“某品牌”产品的评价内容:
<产品评价>
{{PRODUCT_REVIEWS}}
</产品评价>
评价处理规则如下:
1. 首先判断评价是好评还是差评,标记为“正面”或“负面”。
2. 如果是差评,再进行细化分类:
    - 包装问题:包括箱子破了、袋子不好开等包装方面的问题。
    - 价格太贵:明确表示产品价格过高的评价。
    - 味道不好:如太咸、太甜、口感差等对味道的吐槽。
    - 吃出问题:涉及食品安全问题的评价。
    - 售后不给力:有退货退款纠纷等售后方面的问题。
    - 其他:无法归类到上述情况的差评。
3. 标明评价针对的是哪个产品。

请在<分析>标签中详细说明你对每条评价的判断和分类依据。
然后,将所有评价处理结果整理成统一的json格式,放在<json结果>标签内。json格式如下:
[    {        "评价内容": "具体评价文本",        "评价类型": "正面/负面",        "差评分类": "包装问题/价格太贵/味道不好/吃出问题/售后不给力/其他/无(好评时使用)",        "产品名称": "某品牌下具体产品名称"    }]

<分析>
[在此详细说明对每条评价的判断和分类依据]
<json结果>
[在此输出整理好的json格式结果]
</json结果>

然后选一种适合你的调优模式

picture.image

2.3.2 Ptompt调试

点击“验证Prompt”后,来到“Prompt调试”界面(左侧栏第2项)

picture.image

在两个②处都能弹出一个临时弹窗,贴入变量内容

点击④处的“生成模型回答”,即可得到v1提示词的大模型回答啦!

很显然,v1的回答也是不理想答案~

那就调试吧

2.3.2.1 提示词优化

可以在左下角优化“提示词”

picture.image

输入新要求:比如

1. 细化分类如下:包装、价格、食品安全、售后、其他
2. 产品名称要具体化:如饮料、冰红茶、红烧牛肉面、冰红茶、冰箱,没有则为空
3. 只输出json内容,不要分析,json中只保留“评价类型”、“差评分类”、“产品名称”3个字段

可以看到,迭代到第3轮,得到我的理想答案

picture.image

不得不说, 提示词也能回滚,这个管理方式 我真的慕了~

picture.image

2.3.2.2 理想回答(可选)

如果万般调试,都无法得到理想答案 ,怎么办?

火山贴心地准备了“添加理想回答” 路径。

什么意思?

也是能够优化模型回答的一种方式

倒逼提示词 学习 这个“理想回答”的模板回答~

picture.image


至此,我们完成了提示词调试部分,大致可以得到理想Prompt理想回答了。

如果你需要进一步测试 理想Prompt能不能每次都能生成 理想回答

那就再进入2.3.3 Prompt批量测试 和 2.3.4 智能优化 部分。

2.3.3 Prompt批量

接下来,进行批量测试和智能优化。

你需要上传数据集、制定评分机制,最后进行智能优化

这两处都能进入批量测试Prompt调试的右上角,或 左侧栏第3项的文本理解

当然,如果你是视觉任务,点到视觉理解

picture.image

2.3.3.1 准备评测数据

评测数据集,由四列组成。

你要准备前三列:id、PRODUCT_REVIEWS理想回答

箭头两处都能上传数据,要么上传数据集文件,要么一行一行手动添加。

picture.image

方式1. 上传数据集文件

你的数据集 xlsx文件中,必须包含 PRODUCT_REVIEWS 列。

因为提示词中的变量名包含 PRODUCT_REVIEWS

你的提示词包含什么变量,此处就得有 对应名称 的列。

如下所示

PRODUCT_REVIEWS理想回答
畏惧了,大晚上煮个泡面还有这么大一块蛋白质,想吐吐不出来,肚子疼也不知道是生理还是心理作用。[脱敏品牌1]你睡得着吗我睡不着 @[脱敏品牌1]官方旗舰店 @[脱敏品牌1]速食旗舰店 #己疯 #脏东西 #发神经[{"评价类型": "负面","差评分类": "食品安全","产品名称": ""}]
西站的[脱敏品牌1]红烧牛肉面45一碗,好贵。到南京啦,酒店的正对面就是夫子庙。嘴巴喊着不吃鸭血粉丝汤,吃了一口停不下来了。[{"评价类型": "负面","差评分类": "价格","产品名称": "红烧牛肉面"}]

如果不确定,点下“上传文件”按钮,下载“样例文件”,照着样例准备数据集。

picture.image

方式2. 添加行

如果测试集比较少,可以直接添加行。

picture.image


准备好数据集后

点击生成回答,或右上角的“批量生成回答”


这个Prompt批量功能,你即使不是做评测,也可以把它当做免费的飞书 多维表格”,批量生成回答~

2.3.3.2 制定评分机制

promptPilot平台是5分制,因此需要按照5分制来进行适配,评分标准如下:

每题总分 5 分:
1. 输出JSON和参考答案JSON完全一致,没有冗余字段和内容,得 5 分
2. 相比参考答案有多余字段,得 1 分
3. 字段取值内容和参考答案不一致,得 1 分
4. "产品名称" 取值不是 List,得 1 分
5. 参考答案为"{}"时,输出任何字段都直接判为 1 分
6. 输出结果格式不是合法JSON直接得 1 分

贴入评分标准,才能点亮“为所有回答评分”。

picture.image

2.3.3.3 批量评分

点击“为所有回答评分”,自动完成所有评分,如下所示:

picture.image

然后评估下评分是否正确,然后手动调整下不符合预期的评分,并开始优化

2.3.4 智能优化

这项功能 就是生成评测报告,你将获得:

  1. 提示词优化前后的评分效果
  2. 再次智能优化后的Prompt

“Prompt批量”的右上角点击进入“智能优化

picture.image

点击开始“智能优化

picture.image

可以实时查看评测报告

picture.image

picture.image

智能化完成,点击“查看优化报告”。

可以看到 前后两个版本的提示词评分和修改内容

picture.image


以上,就是所有PromptPilot产品的所有实践啦!

想要学习更多使用技巧可移步 PromptPilot概述,功能讲解也非常清晰

https://www.volcengine.com/docs/82379/1399495

写在最后

🚀PromptPilot这个产品解决了提示词优化版本管理困难评估模糊等痛点。

还有我愿称之为免费飞书 多维表格”的 Prompt批量功能🔥

墙裂推荐给各位粉丝朋友使用💪

心动不如行动~

实践出真知,与君共勉

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论