手搓Prompt早过时了!这套保姆级Prompt教程手把手教会你+附字节新模型深度实测

Prompt

大家好,我是老杜,是一名资深架构师。

点这里 ↓↓↓ 记得 关注标星 ⭐ 哦

AI 圈每天都在神仙打架,但大部分时候我们都是"吃瓜群众"。不过这次,我搞到点"内部消息"——最近,我有幸拿到了火山的首批内测资格。

今年上半年"提示词工程师"火热的时候,BOSS上已经开到30-50K,哪怕现在也普遍还是15-25K的岗位。

picture.image

不会写 Prompt 不要紧,不懂 Prompt 工程学无所谓,字节出了 PromptPilot工具,提示词工程师要失业了


保姆级 PromptPilot 教程

PromptPilot是一个能够提供全流程智能优化提示词的工具,它涵盖了提示词的生成、调优、评估和管理的全阶段,是帮助我们高效获得更优质Prompt的一整套解决方案和工具。

1. 注册与订阅

网站https://promptpilot.volcengine.com

注册登录后,点击左下角头像,点击套餐订阅

picture.image

先免费薅上 plus 再说,能用到 9 月份。

2. 功能概览

PromptPilot 的大致流程图如下:

picture.image 流程图

再来看下使用界面:

picture.image

核心功能模块

  • Prompt 生成:将自然语言需求转换成能够让 AI 更精准理解的提示词

  • Prompt 调试:在首次生成 Prompt 后进行优化调试,分为三种类型:

    • • 文本理解:一次性生成的需求
    • • 视觉理解:含图或视频的需求
    • • 多轮对话:类似 AI 客服,需要多次来回请求的需求
  • Prompt 批量:批量调试工作,通过多个 case 测试返回结果准确率

  • 视觉理解 Solution:专门做视觉任务的解决方案


实战案例:客户评价分析系统

3. 需求分析

举个实际工作中的例子,展示完整的 PromptPilot 流程。

业务场景: 在互联网上,有很多客户发布的关于我们"脱敏品牌1"产品的内容和评价,有说面好吃的,有说饮料价格贵的,好的坏的都有。我们希望用大模型识别和格式化整理这些内容。

需求拆解

    1. 判断评价是正面还是负面
    1. 如果是负面,进行问题分类
    1. 识别对应的产品名称
    1. 以 JSON 格式输出结果

4. 初始 Prompt 生成

原始需求描述

在互联网上,有很多客户发布的关于我们"脱敏品牌1"产品的内容和一些评价,有说我们这个面好吃的,有说这个饮料价格贵之类的,好的坏的都有,我们比较希望把这些内容能用大模型识别和格式化整理一下。
​
首先要看一下,这些客户说的是正面评价还是负面评价;如果是负面的,就再分个类,看看是价格问题还是口味口感还是什么其他问题,然后看看对应的是哪个产品名,是牙膏还是饮料还是什么其他产品,给出来产品名称。
​
我目前想到的是以下问题分类:
- 包装不当:产品包装相关的评价
- 价格:产品价格相关的评价  
- 口味口感:食品类产品的口味、口感相关的内容
- 食品安全:关于食品类产品卫生、安全性的内容
- 售后维权:退换货等售后相关的内容
- 其他:无法归类为前述标签的内容
​
以 JSON 格式输出,字段是情感判断、评价维度、产品名称。

picture.image

5. Prompt 优化

如果对 Prompt 不满意,可以点击"优化你的 Prompt":

picture.image

picture.image 优化后的 Prompt

你的任务是对客户发布的关于"脱敏品牌1"产品的内容进行识别和格式化整理。仔细阅读以下客户评价内容,判断其是正面评价还是负面评价,若为负面评价则进一步分类,同时确定对应的产品名称。
​
以下是客户评价内容:
<customer_content>{{CUSTOMER_CONTENT}}</customer_content>
​
问题分类如下:
- 包装不当:产品包装相关的评价
- 价格:产品价格相关的评价
- 口味口感:食品类产品的口味、口感相关的内容
- 食品安全:关于食品类产品卫生、安全性的内容
- 售后维权:退换货等售后相关的内容
- 其他:无法归类为前述标签的内容
​
输出需以 JSON 格式呈现,包含以下字段:
{
    "情感判断": "正面""负面",
    "评价维度": "包装不当""价格""口味口感""食品安全""售后维权""其他",
    "产品名称": ["具体产品名称1", "具体产品名称2", ...]
}

Prompt 调试与测试

6. 单案例调试

接下来进行 Prompt 调试:

picture.image

调试分为两种模式:

  • 评分模式:对结果进行打分评估
  • GSB 比较模式:AB 两档比较

选择评分模式,填写测试用例变量:

picture.image

测试用例

#[脱敏品牌1]饮料 不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心,我们商家在你们在那里下了那么多钱的货,你们送货过来日期不是最新的,而且下货多过期了,打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来一个业务员,结果说把这些过期饮料全部换成白开水换,真是无语死了

7. 模型对比测试

使用默认模型生成:

picture.image

切换到最新模型,速度非常快:

picture.image

8. 结果优化

如果结果与预期不符(比如出现了品牌名称),可以手动修改 Prompt:

picture.image

如果模型回答仍然无法达到预期,可以通过结果和入参再来倒推 Prompt:

picture.image


批量测试与评估

9. 构建评测数据集

测试过的用例可以通过右下方按钮添加到评测集中:

picture.image

Prompt 调试过程会在左上角显示版本号,修改后也不怕找不回原来的提示词:

picture.image

10. 批量数据导入

添加的用例现在已经在评测数据集里,还可以根据 Excel 导入批量处理:

picture.image

上传文件测试批量功能:

picture.image

提示:数据可以准备得充分一些,考虑一些临界值,有助于增加 Prompt 的健壮性。

11. 评分标准设置

导入数据成功后,需要设置评分标准。可以自己手动评几种类型让 AI 学习,也可以自己填写规则:

评分规则

每题总分 5 分:
1. 输出 JSON 和参考答案 JSON 完全一致,没有冗余字段和内容,得 5 分
2. 相比参考答案有多余字段,得 1 分
3. 字段取值内容和参考答案不一致,得 1 分
4. "产品名称" 取值不是 List,得 1 分
5. 参考答案为"{}"时,输出任何字段都直接判为 1 分
6. 输出结果格式不是合法 JSON 直接得 1 分

picture.image

picture.image

12. 智能优化

模型回答评分一般时,可以使用右上角的智能优化功能,根据这些 case 通过 AI 主动优化 Prompt:

picture.image

注意:智能优化覆盖面比较广,整体时间会比较长。

picture.image 优化过程

picture.image 优化结果对比

能够非常清晰地看到数据变化和对比。如果结果仍然不满意,可以通过智能优化持续优化,直到满意为止。

picture.image 最终效果

优化效果还是比较明显的。对于这么多 Case,这个成绩我还是比较满意的。

官方文档https://www.volcengine.com/docs/82379/1399495


字节 1.6-0715 新模型测试

Doubao-Seed-1.6-thinking

目标:评估其思考能力、逻辑推理

编程与数学能力

代码修复与优化

案例:提供一段低效的 Python 代码,用于查找列表中重复的元素。代码使用嵌套循环,时间复杂度为 O(n²)。要求模型在不借助外部库的情况下,将其优化为 O(n) 或 O(nlogn)。

预期:模型应该能识别出低效之处,并提出使用哈希表(字典)或排序等方法进行优化。

picture.image

复杂数学问题

案例:给出以下问题:"一个装有 10 个红球和 10 个蓝球的袋子。如果我随机从中取出 3 个球,那么取出至少一个红球的概率是多少?"

预期:模型需要进行多步推理,计算总的可能性,再计算不符合条件(即全是蓝球)的可能性,最终通过 1 减去该概率得出答案。

picture.image

逻辑推理与情景分析

逻辑谜题

案例:经典的"谎言与真相"谜题。例如,"有三扇门,其中一扇后面藏着宝藏。每扇门上都有一块牌子。第一扇门:宝藏在这扇门后。第二扇门:宝藏不在这扇门后。第三扇门:宝藏不在第一扇门后。已知三块牌子中只有一块是真话,请问宝藏在哪扇门后?"

预期:模型需要进行假设和排除,通过逐步推理来找出真相。

picture.image


Doubao-Seed-1.6-flash

目标:评估其极致速度、纯文本生成高效多模态能力。

速度与响应测试

批量文本生成

案例:要求模型在短时间内生成 10 篇关于不同主题的短新闻稿。例如,提供 10 个关键词,让模型分别为每个关键词生成一篇 300 字左右的新闻。

预期:模型能在极短的时间内完成所有生成任务,且生成的文本质量高。 picture.image

多语言翻译

案例:给模型一段 500 字左右的中文商业报告,要求将其快速翻译成英文。

预期:模型能快速完成翻译,同时保证翻译的准确性和流畅性。

picture.image

纯文本与多模态能力

创意写作

案例:让模型根据三个看似不相关的词语(例如:宇宙飞船、老旧的笔记本、一罐蜂蜜),创作一个富有想象力的短篇故事。

预期:模型能快速生成一个连贯、有创意的故事,体现其在文本生成方面的提升。

picture.image

多模态问答(视觉理解)

案例:上传一张包含多个物体的复杂图片(例如,一个拥挤的菜市场)。要求模型快速回答与图片内容相关的多个问题,例如:"图片里有几个人在买菜?"、"最显眼的蔬菜是什么?"

预期:模型能迅速识别出图片中的各种元素,并准确回答问题,突出其处理速度的优势。

picture.image

两大模型对比总结

Doubao-Seed-1.6-thinking:深度思考专家

这款模型在逻辑推理和复杂问题解决方面表现卓越。无论是代码优化、数学计算还是逻辑谜题,都能展现出强大的思考链条和推理能力。特别适合需要深度分析、多步骤推理的场景,如技术方案设计、业务逻辑梳理等。虽然响应速度相对较慢,但输出质量极高,是处理复杂任务的理想选择。

Doubao-Seed-1.6-flash:极速响应王者

Flash 模型的最大亮点是惊人的响应速度,在保持高质量输出的同时实现了毫秒级响应。在批量文本生成、多语言翻译、创意写作等场景下表现优异,特别适合实时交互、大批量处理的应用场景。多模态能力同样出色,能快速理解图像内容并给出准确回答。是追求效率和用户体验的首选模型。


总结

通过深度体验字节跳动豆包新大模型和 PromptPilot 工具,我们见证了 AI 工程化的重要突破。PromptPilot 将复杂的 Prompt 工程学平民化,构建了从需求分析到批量测试的完整开发闭环,标志着 AI 开发从"手工作坊"向"工业化生产"的转变。两大新模型差异化定位明确:thinking 专攻深度推理和复杂问题解决,flash 追求极致速度与高效交互。这种工具化趋势大幅降低了技术门槛,让非技术人员也能构建专业级 AI 应用,将加速 AI 技术在各行业的落地应用。展望未来,随着工具链的不断完善和模型能力的持续提升,我们将看到 AI 开发的标准化、应用场景的多元化、人机协作的深度化以及技术门槛的持续降低。字节跳动在 AI 工具化方面的探索为整个行业树立了新标杆,期待更多创新工具涌现,共同推动 AI 技术的普及与发展,让每个人都能成为 AI 应用的创造者。期待字节跳动在 AI 工具化方面带来更多惊喜!!


限时福利

转发文章到朋友圈凭截图在公众号后台领取 30 套 Coze 工作流

如果有什么想法,欢迎留在评论区!

👇 可以加我,一起成长、一起交流

picture.image

联系方式

#AI #字节 #prompt #PromptPilot #火山

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论