停！豆包新模型 + PromptPilot 体验太顶了，不看这篇你绝对后悔！

字节刚甩出两款新模型，那真是王炸级别的！一个叫 Doubao-Seed-1.6-thinking丨250715，另一个是 Doubao-Seed-1.6-flash丨250715。这俩模型是真厉害，不管是多模态的深度思考能力、快到飞起的推理速度，还是对视觉内容的理解，都做得特别惊艳。

正好，我来替大伙儿先体验体验，好好测评一番。另外他们还公布了个 PromptPilot 平台，能帮用户生成提示词，还能调试和智能优化任务，挺实用的。

行了，废话不多说，咱们这就开启探索模式！

一聊聊简单的聊天框指令体验

Doubao-Seed-1.6-flash丨250715

Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型，TPOT低至10ms；同时支持文本和视觉理解，文本理解能力超过上一代lite，视觉理解比肩友商pro系列模型。支持 256k 上下文窗口，输出长度支持最大 16k tokens。体验地址：体验地址

我现在上传一张图片让大模型帮我总结，来让大家感受一下，效果如下：

picture.image

可以看到多模态深度思考速度非常快！！6.41s就完成了对图片的总结，而且输出的内容也和图片内容一致，可以看到模型对视觉理解非常到位

Doubao-Seed-1.6-thinking丨250715

Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型，TPOT低至10ms；同时支持文本和视觉理解，文本理解能力超过上一代lite，视觉理解比肩友商pro系列模型。支持 256k 上下文窗口，输出长度支持最大 16k tokens。

我丢入一个视频让模型给我详细介绍视频内容和生成分镜，最后居然也生成了，还挺符合，阔以阔以，你们也可以尝试一下。

picture.image

版本对比分析

特性	Doubao-Seed-1.6-thinking	Doubao-Seed-1.6-flash
推理速度	标准	极速(10ms TPOT)
思考深度	深度推理	快速响应
多模态	✅	✅
上下文长度	256K	256K
最大输出	16K tokens	16K tokens
适用场景	复杂任务	实时应用

二 PromtPilot 操作实践

提示词这东西，可是大模型的核心指令，直接关系到模型能不能准确理解你的意思，输出的结果好不好。要是提示词写得好，大语言模型处理复杂任务的本事能明显变强，像逻辑推理、把步骤拆解开这些事儿，都能办得更利落。而 PromptPilot 这平台，就能从头到尾帮你智能优化提示词，从生成、调整、评估到管理，每个阶段都能顾及到，帮你高效弄出更棒的提示词方案。现在模型能力越来越强，要解决的问题也越来越复杂，光靠调优单个提示词可不够了，得转向对那种包含多个步骤、工具和 Agent 参与的工作流程进行系统性优化。 PromptPilot 就靠着大模型的本事，自动把问题拆开、规划流程，再结合能用的工具生成各种各样的解决方案，还能根据用户的反馈不断改进，最后轻轻松松就能完成代码部署。接下来咱们就拿一个测试案例来举例，比如品牌评价的情感分类 —— 也就是文本理解任务，实际操作一下 PromptPilot。我们先进PromtPilot独立站：https://promptpilot.volcengine.com/startup

picture.image

第一步：prompt生成

为了安全生产，你需要根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况，需要输出思考过程，判断，以及违规类别。

picture.image

我们会得到这样的一个提示词： picture.image

第二步：继续优化提示词

对生成的提示词不满意？没事儿，你可以自己动手改。要是懒得手动弄，直接点页面右下角的 “优化你的 Prompt”，在对话框里说说你想怎么改、有啥具体要求，就行啦。比如：

变量名字必须是image_url

picture.image

生成后的prompt
你的任务是根据生产车间的图片，判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况。此判断是为了确保安全生产。请仔细查看以下生产车间图片：<生产车间图片>{{image_url}}</生产车间图片>请按照以下步骤进行评估：1. 仔细查看图片的各个部分，包括设备操作情况和人员防护情况。2. 判断是否存在违规操作设备的现象，如设备使用方式不符合规定等。3. 判断是否存在人员未佩戴安全防护用具的情况，如安全帽、防护手套、护目镜等。4. 形成初步判断。5. 再次检查，确保没有遗漏重要细节。在<思考>标签中分析图片，考虑是否存在违规操作设备和未佩戴安全防护用具的情况。然后在<判断>标签中给出你的最终判断，使用"存在违规"或"不存在违规"。最后，在<违规类别>标签中详细列出存在的违规类别，若不存在违规则写"无"。<思考>[在此分析图片内容]</思考><判断>[在此给出"存在违规"或"不存在违规"的判断]</判断><违规类别>[在此列出违规类别]</违规类别>请确保你的判断客观公正，并基于图片的实际情况。

第三步：调试prompt

已经生成了prompt，接下来就是调试prompt了 picture.image

picture.image

https://img0.baidu.com/it/u=1094762033,1331895175&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=561

图片说错了，不是点击上传图片，是移动到上传图片框，然后点击URL上传 picture.image

picture.image

选择target model，即：推理模型，多模态选择带thinking的模型

picture.image

第四步：批量测评

进入批量测评界面

picture.image

2. 上传图片集

方法一：添加行的方式：通过上传图片url来上传case

picture.image

方法二：直接上传批量集：

**上传数据集，请注意：**需要先修改图片的变量名为image_url, 然后上传文件 picture.image

picture.image

3. 我们先评分3个，然后让AI生成评分标准

picture.image

第五步：进入智能优化

1. 进入智能优化页面，并开启优化

picture.image

2. 查看优化报告

picture.image

3. 优化报告不达预期，可以继续优化

因为最终的分数符合我的预期，3.8分，换算到百分制，其实是76分，所以可以正常结束。但是如果不满意，想继续优化，可以点如下按钮，继续优化下一轮，通过更多的迭代轮数提高效果。

picture.image

Doubao-Seed-1.6-flash丨250715

Doubao-Seed-1.6-thinking丨250715

版本对比分析

第一步：prompt生成

第二步：继续优化提示词

第三步：调试prompt

第四步：批量测评

进入批量测评界面

2. 上传图片集

方法一：添加行的方式：通过上传图片url来上传case

方法二：直接上传批量集：

3. 我们先评分3个，然后让AI生成评分标准

第五步：进入智能优化

1. 进入智能优化页面，并开启优化

2. 查看优化报告

3. 优化报告不达预期，可以继续优化