手搓Prompt早过时了！这套保姆级Prompt教程手把手教会你+附字节新模型深度实测 - 文章 - 开发者社区

大家好，我是老杜，是一名资深架构师。

点这里 ↓↓↓ 记得关注 ✔ 标星 ⭐ 哦

AI 圈每天都在神仙打架，但大部分时候我们都是"吃瓜群众"。不过这次，我搞到点"内部消息"——最近，我有幸拿到了火山的首批内测资格。

今年上半年"提示词工程师"火热的时候，BOSS上已经开到30-50K，哪怕现在也普遍还是15-25K的岗位。

picture.image

不会写 Prompt 不要紧，不懂 Prompt 工程学无所谓，字节出了 PromptPilot工具，提示词工程师要失业了

保姆级 PromptPilot 教程

PromptPilot是一个能够提供全流程智能优化提示词的工具，它涵盖了提示词的生成、调优、评估和管理的全阶段，是帮助我们高效获得更优质Prompt的一整套解决方案和工具。

1. 注册与订阅

网站：https://promptpilot.volcengine.com

注册登录后，点击左下角头像，点击套餐订阅

picture.image

先免费薅上 plus 再说，能用到 9 月份。

2. 功能概览

PromptPilot 的大致流程图如下：

picture.image 流程图

再来看下使用界面：

picture.image

核心功能模块

• Prompt 生成：将自然语言需求转换成能够让 AI 更精准理解的提示词
• Prompt 调试：在首次生成 Prompt 后进行优化调试，分为三种类型：
- • 文本理解：一次性生成的需求
- • 视觉理解：含图或视频的需求
- • 多轮对话：类似 AI 客服，需要多次来回请求的需求
• Prompt 批量：批量调试工作，通过多个 case 测试返回结果准确率
• 视觉理解 Solution：专门做视觉任务的解决方案

实战案例：客户评价分析系统

3. 需求分析

举个实际工作中的例子，展示完整的 PromptPilot 流程。

业务场景：在互联网上，有很多客户发布的关于我们"脱敏品牌1"产品的内容和评价，有说面好吃的，有说饮料价格贵的，好的坏的都有。我们希望用大模型识别和格式化整理这些内容。

需求拆解：

1. 判断评价是正面还是负面
1. 如果是负面，进行问题分类
1. 识别对应的产品名称
1. 以 JSON 格式输出结果

4. 初始 Prompt 生成

原始需求描述：

在互联网上，有很多客户发布的关于我们"脱敏品牌1"产品的内容和一些评价，有说我们这个面好吃的，有说这个饮料价格贵之类的，好的坏的都有，我们比较希望把这些内容能用大模型识别和格式化整理一下。

首先要看一下，这些客户说的是正面评价还是负面评价；如果是负面的，就再分个类，看看是价格问题还是口味口感还是什么其他问题，然后看看对应的是哪个产品名，是牙膏还是饮料还是什么其他产品，给出来产品名称。

我目前想到的是以下问题分类：
- 包装不当：产品包装相关的评价
- 价格：产品价格相关的评价  
- 口味口感：食品类产品的口味、口感相关的内容
- 食品安全：关于食品类产品卫生、安全性的内容
- 售后维权：退换货等售后相关的内容
- 其他：无法归类为前述标签的内容

以 JSON 格式输出，字段是情感判断、评价维度、产品名称。

picture.image

5. Prompt 优化

如果对 Prompt 不满意，可以点击"优化你的 Prompt"：

picture.image

picture.image 优化后的 Prompt：

你的任务是对客户发布的关于"脱敏品牌1"产品的内容进行识别和格式化整理。仔细阅读以下客户评价内容，判断其是正面评价还是负面评价，若为负面评价则进一步分类，同时确定对应的产品名称。

以下是客户评价内容：
<customer_content>{{CUSTOMER_CONTENT}}</customer_content>

问题分类如下：
- 包装不当：产品包装相关的评价
- 价格：产品价格相关的评价
- 口味口感：食品类产品的口味、口感相关的内容
- 食品安全：关于食品类产品卫生、安全性的内容
- 售后维权：退换货等售后相关的内容
- 其他：无法归类为前述标签的内容

输出需以 JSON 格式呈现，包含以下字段：
{
    "情感判断": "正面" 或 "负面",
    "评价维度": "包装不当" 或 "价格" 或 "口味口感" 或 "食品安全" 或 "售后维权" 或 "其他",
    "产品名称": ["具体产品名称1", "具体产品名称2", ...]
}

Prompt 调试与测试

6. 单案例调试

接下来进行 Prompt 调试：

picture.image

调试分为两种模式：

• 评分模式：对结果进行打分评估
• GSB 比较模式：AB 两档比较

选择评分模式，填写测试用例变量：

picture.image

测试用例：

#[脱敏品牌1]饮料 不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心，我们商家在你们在那里下了那么多钱的货，你们送货过来日期不是最新的，而且下货多过期了，打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来一个业务员，结果说把这些过期饮料全部换成白开水换，真是无语死了

7. 模型对比测试

使用默认模型生成：

picture.image

切换到最新模型，速度非常快：

picture.image

8. 结果优化

如果结果与预期不符（比如出现了品牌名称），可以手动修改 Prompt：

picture.image

如果模型回答仍然无法达到预期，可以通过结果和入参再来倒推 Prompt：

picture.image

批量测试与评估

9. 构建评测数据集

测试过的用例可以通过右下方按钮添加到评测集中：

picture.image

Prompt 调试过程会在左上角显示版本号，修改后也不怕找不回原来的提示词：

picture.image

10. 批量数据导入

添加的用例现在已经在评测数据集里，还可以根据 Excel 导入批量处理：

picture.image

上传文件测试批量功能：

picture.image

提示：数据可以准备得充分一些，考虑一些临界值，有助于增加 Prompt 的健壮性。

11. 评分标准设置

导入数据成功后，需要设置评分标准。可以自己手动评几种类型让 AI 学习，也可以自己填写规则：

评分规则：

每题总分 5 分：
1. 输出 JSON 和参考答案 JSON 完全一致，没有冗余字段和内容，得 5 分
2. 相比参考答案有多余字段，得 1 分
3. 字段取值内容和参考答案不一致，得 1 分
4. "产品名称" 取值不是 List，得 1 分
5. 参考答案为"{}"时，输出任何字段都直接判为 1 分
6. 输出结果格式不是合法 JSON 直接得 1 分

picture.image

12. 智能优化

模型回答评分一般时，可以使用右上角的智能优化功能，根据这些 case 通过 AI 主动优化 Prompt：

picture.image

注意：智能优化覆盖面比较广，整体时间会比较长。

picture.image 优化过程

picture.image 优化结果对比

能够非常清晰地看到数据变化和对比。如果结果仍然不满意，可以通过智能优化持续优化，直到满意为止。

picture.image 最终效果

优化效果还是比较明显的。对于这么多 Case，这个成绩我还是比较满意的。

官方文档：https://www.volcengine.com/docs/82379/1399495

字节 1.6-0715 新模型测试

Doubao-Seed-1.6-thinking

目标：评估其思考能力、逻辑推理。

编程与数学能力

代码修复与优化

案例：提供一段低效的 Python 代码，用于查找列表中重复的元素。代码使用嵌套循环，时间复杂度为 O(n²)。要求模型在不借助外部库的情况下，将其优化为 O(n) 或 O(nlogn)。

预期：模型应该能识别出低效之处，并提出使用哈希表（字典）或排序等方法进行优化。

picture.image

复杂数学问题

案例：给出以下问题："一个装有 10 个红球和 10 个蓝球的袋子。如果我随机从中取出 3 个球，那么取出至少一个红球的概率是多少？"

预期：模型需要进行多步推理，计算总的可能性，再计算不符合条件（即全是蓝球）的可能性，最终通过 1 减去该概率得出答案。

picture.image

逻辑推理与情景分析

逻辑谜题

案例：经典的"谎言与真相"谜题。例如，"有三扇门，其中一扇后面藏着宝藏。每扇门上都有一块牌子。第一扇门：宝藏在这扇门后。第二扇门：宝藏不在这扇门后。第三扇门：宝藏不在第一扇门后。已知三块牌子中只有一块是真话，请问宝藏在哪扇门后？"

预期：模型需要进行假设和排除，通过逐步推理来找出真相。

picture.image

Doubao-Seed-1.6-flash

目标：评估其极致速度、纯文本生成和高效多模态能力。

速度与响应测试

批量文本生成

案例：要求模型在短时间内生成 10 篇关于不同主题的短新闻稿。例如，提供 10 个关键词，让模型分别为每个关键词生成一篇 300 字左右的新闻。

预期：模型能在极短的时间内完成所有生成任务，且生成的文本质量高。 picture.image

多语言翻译

案例：给模型一段 500 字左右的中文商业报告，要求将其快速翻译成英文。

预期：模型能快速完成翻译，同时保证翻译的准确性和流畅性。

picture.image

纯文本与多模态能力

创意写作

案例：让模型根据三个看似不相关的词语（例如：宇宙飞船、老旧的笔记本、一罐蜂蜜），创作一个富有想象力的短篇故事。

预期：模型能快速生成一个连贯、有创意的故事，体现其在文本生成方面的提升。

picture.image

多模态问答（视觉理解）

案例：上传一张包含多个物体的复杂图片（例如，一个拥挤的菜市场）。要求模型快速回答与图片内容相关的多个问题，例如："图片里有几个人在买菜？"、"最显眼的蔬菜是什么？"

预期：模型能迅速识别出图片中的各种元素，并准确回答问题，突出其处理速度的优势。

picture.image

两大模型对比总结

Doubao-Seed-1.6-thinking：深度思考专家

这款模型在逻辑推理和复杂问题解决方面表现卓越。无论是代码优化、数学计算还是逻辑谜题，都能展现出强大的思考链条和推理能力。特别适合需要深度分析、多步骤推理的场景，如技术方案设计、业务逻辑梳理等。虽然响应速度相对较慢，但输出质量极高，是处理复杂任务的理想选择。

Doubao-Seed-1.6-flash：极速响应王者

Flash 模型的最大亮点是惊人的响应速度，在保持高质量输出的同时实现了毫秒级响应。在批量文本生成、多语言翻译、创意写作等场景下表现优异，特别适合实时交互、大批量处理的应用场景。多模态能力同样出色，能快速理解图像内容并给出准确回答。是追求效率和用户体验的首选模型。

总结

通过深度体验字节跳动豆包新大模型和 PromptPilot 工具，我们见证了 AI 工程化的重要突破。PromptPilot 将复杂的 Prompt 工程学平民化，构建了从需求分析到批量测试的完整开发闭环，标志着 AI 开发从"手工作坊"向"工业化生产"的转变。两大新模型差异化定位明确：thinking 专攻深度推理和复杂问题解决，flash 追求极致速度与高效交互。这种工具化趋势大幅降低了技术门槛，让非技术人员也能构建专业级 AI 应用，将加速 AI 技术在各行业的落地应用。展望未来，随着工具链的不断完善和模型能力的持续提升，我们将看到 AI 开发的标准化、应用场景的多元化、人机协作的深度化以及技术门槛的持续降低。字节跳动在 AI 工具化方面的探索为整个行业树立了新标杆，期待更多创新工具涌现，共同推动 AI 技术的普及与发展，让每个人都能成为 AI 应用的创造者。期待字节跳动在 AI 工具化方面带来更多惊喜！！

限时福利

转发文章到朋友圈凭截图在公众号后台领取 30 套 Coze 工作流

如果有什么想法，欢迎留在评论区！

👇 可以加我，一起成长、一起交流

picture.image

联系方式

#AI #字节 #prompt #PromptPilot #火山