大家好,我是老杜,是一名资深架构师。
点这里 ↓↓↓ 记得 关注 ✔ 标星 ⭐ 哦
AI 圈每天都在神仙打架,但大部分时候我们都是"吃瓜群众"。不过这次,我搞到点"内部消息"——最近,我有幸拿到了火山的首批内测资格。
今年上半年"提示词工程师"火热的时候,BOSS上已经开到30-50K,哪怕现在也普遍还是15-25K的岗位。
不会写 Prompt 不要紧,不懂 Prompt 工程学无所谓,字节出了 PromptPilot工具,提示词工程师要失业了
保姆级 PromptPilot 教程
PromptPilot是一个能够提供全流程智能优化提示词的工具,它涵盖了提示词的生成、调优、评估和管理的全阶段,是帮助我们高效获得更优质Prompt的一整套解决方案和工具。
1. 注册与订阅
网站:https://promptpilot.volcengine.com
注册登录后,点击左下角头像,点击套餐订阅
先免费薅上 plus 再说,能用到 9 月份。
2. 功能概览
PromptPilot 的大致流程图如下:
流程图
再来看下使用界面:
核心功能模块
-
• Prompt 生成:将自然语言需求转换成能够让 AI 更精准理解的提示词
-
• Prompt 调试:在首次生成 Prompt 后进行优化调试,分为三种类型:
- • 文本理解:一次性生成的需求
- • 视觉理解:含图或视频的需求
- • 多轮对话:类似 AI 客服,需要多次来回请求的需求
-
• Prompt 批量:批量调试工作,通过多个 case 测试返回结果准确率
-
• 视觉理解 Solution:专门做视觉任务的解决方案
实战案例:客户评价分析系统
3. 需求分析
举个实际工作中的例子,展示完整的 PromptPilot 流程。
业务场景: 在互联网上,有很多客户发布的关于我们"脱敏品牌1"产品的内容和评价,有说面好吃的,有说饮料价格贵的,好的坏的都有。我们希望用大模型识别和格式化整理这些内容。
需求拆解:
-
- 判断评价是正面还是负面
-
- 如果是负面,进行问题分类
-
- 识别对应的产品名称
-
- 以 JSON 格式输出结果
4. 初始 Prompt 生成
原始需求描述:
在互联网上,有很多客户发布的关于我们"脱敏品牌1"产品的内容和一些评价,有说我们这个面好吃的,有说这个饮料价格贵之类的,好的坏的都有,我们比较希望把这些内容能用大模型识别和格式化整理一下。
首先要看一下,这些客户说的是正面评价还是负面评价;如果是负面的,就再分个类,看看是价格问题还是口味口感还是什么其他问题,然后看看对应的是哪个产品名,是牙膏还是饮料还是什么其他产品,给出来产品名称。
我目前想到的是以下问题分类:
- 包装不当:产品包装相关的评价
- 价格:产品价格相关的评价
- 口味口感:食品类产品的口味、口感相关的内容
- 食品安全:关于食品类产品卫生、安全性的内容
- 售后维权:退换货等售后相关的内容
- 其他:无法归类为前述标签的内容
以 JSON 格式输出,字段是情感判断、评价维度、产品名称。
5. Prompt 优化
如果对 Prompt 不满意,可以点击"优化你的 Prompt":
优化后的 Prompt:
你的任务是对客户发布的关于"脱敏品牌1"产品的内容进行识别和格式化整理。仔细阅读以下客户评价内容,判断其是正面评价还是负面评价,若为负面评价则进一步分类,同时确定对应的产品名称。
以下是客户评价内容:
<customer_content>{{CUSTOMER_CONTENT}}</customer_content>
问题分类如下:
- 包装不当:产品包装相关的评价
- 价格:产品价格相关的评价
- 口味口感:食品类产品的口味、口感相关的内容
- 食品安全:关于食品类产品卫生、安全性的内容
- 售后维权:退换货等售后相关的内容
- 其他:无法归类为前述标签的内容
输出需以 JSON 格式呈现,包含以下字段:
{
"情感判断": "正面" 或 "负面",
"评价维度": "包装不当" 或 "价格" 或 "口味口感" 或 "食品安全" 或 "售后维权" 或 "其他",
"产品名称": ["具体产品名称1", "具体产品名称2", ...]
}
Prompt 调试与测试
6. 单案例调试
接下来进行 Prompt 调试:
调试分为两种模式:
- • 评分模式:对结果进行打分评估
- • GSB 比较模式:AB 两档比较
选择评分模式,填写测试用例变量:
测试用例:
#[脱敏品牌1]饮料 不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心,我们商家在你们在那里下了那么多钱的货,你们送货过来日期不是最新的,而且下货多过期了,打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来一个业务员,结果说把这些过期饮料全部换成白开水换,真是无语死了
7. 模型对比测试
使用默认模型生成:
切换到最新模型,速度非常快:
8. 结果优化
如果结果与预期不符(比如出现了品牌名称),可以手动修改 Prompt:
如果模型回答仍然无法达到预期,可以通过结果和入参再来倒推 Prompt:
批量测试与评估
9. 构建评测数据集
测试过的用例可以通过右下方按钮添加到评测集中:
Prompt 调试过程会在左上角显示版本号,修改后也不怕找不回原来的提示词:
10. 批量数据导入
添加的用例现在已经在评测数据集里,还可以根据 Excel 导入批量处理:
上传文件测试批量功能:
提示:数据可以准备得充分一些,考虑一些临界值,有助于增加 Prompt 的健壮性。
11. 评分标准设置
导入数据成功后,需要设置评分标准。可以自己手动评几种类型让 AI 学习,也可以自己填写规则:
评分规则:
每题总分 5 分:
1. 输出 JSON 和参考答案 JSON 完全一致,没有冗余字段和内容,得 5 分
2. 相比参考答案有多余字段,得 1 分
3. 字段取值内容和参考答案不一致,得 1 分
4. "产品名称" 取值不是 List,得 1 分
5. 参考答案为"{}"时,输出任何字段都直接判为 1 分
6. 输出结果格式不是合法 JSON 直接得 1 分
12. 智能优化
模型回答评分一般时,可以使用右上角的智能优化功能,根据这些 case 通过 AI 主动优化 Prompt:
注意:智能优化覆盖面比较广,整体时间会比较长。
优化过程
优化结果对比
能够非常清晰地看到数据变化和对比。如果结果仍然不满意,可以通过智能优化持续优化,直到满意为止。
最终效果
优化效果还是比较明显的。对于这么多 Case,这个成绩我还是比较满意的。
字节 1.6-0715 新模型测试
Doubao-Seed-1.6-thinking
目标:评估其思考能力、逻辑推理。
编程与数学能力
代码修复与优化
案例:提供一段低效的 Python 代码,用于查找列表中重复的元素。代码使用嵌套循环,时间复杂度为 O(n²)。要求模型在不借助外部库的情况下,将其优化为 O(n) 或 O(nlogn)。
预期:模型应该能识别出低效之处,并提出使用哈希表(字典)或排序等方法进行优化。
复杂数学问题
案例:给出以下问题:"一个装有 10 个红球和 10 个蓝球的袋子。如果我随机从中取出 3 个球,那么取出至少一个红球的概率是多少?"
预期:模型需要进行多步推理,计算总的可能性,再计算不符合条件(即全是蓝球)的可能性,最终通过 1 减去该概率得出答案。
逻辑推理与情景分析
逻辑谜题
案例:经典的"谎言与真相"谜题。例如,"有三扇门,其中一扇后面藏着宝藏。每扇门上都有一块牌子。第一扇门:宝藏在这扇门后。第二扇门:宝藏不在这扇门后。第三扇门:宝藏不在第一扇门后。已知三块牌子中只有一块是真话,请问宝藏在哪扇门后?"
预期:模型需要进行假设和排除,通过逐步推理来找出真相。
Doubao-Seed-1.6-flash
目标:评估其极致速度、纯文本生成和高效多模态能力。
速度与响应测试
批量文本生成
案例:要求模型在短时间内生成 10 篇关于不同主题的短新闻稿。例如,提供 10 个关键词,让模型分别为每个关键词生成一篇 300 字左右的新闻。
预期:模型能在极短的时间内完成所有生成任务,且生成的文本质量高。
多语言翻译
案例:给模型一段 500 字左右的中文商业报告,要求将其快速翻译成英文。
预期:模型能快速完成翻译,同时保证翻译的准确性和流畅性。
纯文本与多模态能力
创意写作
案例:让模型根据三个看似不相关的词语(例如:宇宙飞船、老旧的笔记本、一罐蜂蜜),创作一个富有想象力的短篇故事。
预期:模型能快速生成一个连贯、有创意的故事,体现其在文本生成方面的提升。
多模态问答(视觉理解)
案例:上传一张包含多个物体的复杂图片(例如,一个拥挤的菜市场)。要求模型快速回答与图片内容相关的多个问题,例如:"图片里有几个人在买菜?"、"最显眼的蔬菜是什么?"
预期:模型能迅速识别出图片中的各种元素,并准确回答问题,突出其处理速度的优势。
两大模型对比总结
Doubao-Seed-1.6-thinking:深度思考专家
这款模型在逻辑推理和复杂问题解决方面表现卓越。无论是代码优化、数学计算还是逻辑谜题,都能展现出强大的思考链条和推理能力。特别适合需要深度分析、多步骤推理的场景,如技术方案设计、业务逻辑梳理等。虽然响应速度相对较慢,但输出质量极高,是处理复杂任务的理想选择。
Doubao-Seed-1.6-flash:极速响应王者
Flash 模型的最大亮点是惊人的响应速度,在保持高质量输出的同时实现了毫秒级响应。在批量文本生成、多语言翻译、创意写作等场景下表现优异,特别适合实时交互、大批量处理的应用场景。多模态能力同样出色,能快速理解图像内容并给出准确回答。是追求效率和用户体验的首选模型。
总结
通过深度体验字节跳动豆包新大模型和 PromptPilot 工具,我们见证了 AI 工程化的重要突破。PromptPilot 将复杂的 Prompt 工程学平民化,构建了从需求分析到批量测试的完整开发闭环,标志着 AI 开发从"手工作坊"向"工业化生产"的转变。两大新模型差异化定位明确:thinking 专攻深度推理和复杂问题解决,flash 追求极致速度与高效交互。这种工具化趋势大幅降低了技术门槛,让非技术人员也能构建专业级 AI 应用,将加速 AI 技术在各行业的落地应用。展望未来,随着工具链的不断完善和模型能力的持续提升,我们将看到 AI 开发的标准化、应用场景的多元化、人机协作的深度化以及技术门槛的持续降低。字节跳动在 AI 工具化方面的探索为整个行业树立了新标杆,期待更多创新工具涌现,共同推动 AI 技术的普及与发展,让每个人都能成为 AI 应用的创造者。期待字节跳动在 AI 工具化方面带来更多惊喜!!
限时福利
转发文章到朋友圈凭截图在公众号后台领取 30 套 Coze 工作流
如果有什么想法,欢迎留在评论区!
👇 可以加我,一起成长、一起交流
联系方式
#AI #字节 #prompt #PromptPilot #火山