豆包新模型+PromptPilot体验测评

字节出了两款新模型，简直是王炸的存在，一个是Doubao-Seed-1.6-thinking｜250715，另外一个是Doubao-Seed-1.6-flash｜250715，这两款模型在多模态深度思考上的强化、极致的推理速度和视觉理解上已经做到了非常惊艳的地步，接下来我可以替大家体验测评一把。另外还公布了PromptPilot平台，对用户的任务进行提示词生成，调试和智能优化。好了，不多说了，我们开始探索之旅吧

🚀 简单Chat对话框指令体验

1、Doubao-Seed-1.6-flash｜250715

极致速度、支持多模态、256K长上下文，纯文本能力大幅提升近10% ，Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型，TPOT仅需10ms；同时支持文本和视觉理解，文本理解能力超过上一代lite，纯文本能力大幅提升近10%。支持256k上下文窗口，输出长度支持最大16k tokens。

我上传了一张图片，让它帮我总结图片内容，大家看下效果。

picture.image

效果如下：

picture.image 大家可以看到基本与图片内容很吻合，而且多模态深度思考速度非常快，对于这种视觉理解也非常准确，接下来我们再让模型生成图片标题，请看

picture.image 题目非常贴切，而且对题目的含义解释也非常精美。

2、Doubao-Seed-1.6-thinking｜250715

思考能力强化、支持多模态、256K长上下文Doubao-Seed-1.6-thinking模型思考能力大幅强化，对比Doubao-1.5-thinking-pro，在Coding、Math、逻辑推理等基础能力上进一步提升，支持视觉理解。支持256k上下文窗口，输出长度支持最大16k tokens。

我上传了一张图片，让它帮我总结出“前景有几个人，其中有几个人带帽子”，大家看下效果

picture.image

可以看到它不但能解构出图片内容，而且对内容做了逻辑推理，能准确的知道前景中的人数和戴帽子的人数，非常棒的体验，大家下来也可以做此尝试，相信我一定会惊艳到你的。

🎨 PromtPilot 操作实践

Prompt（提示词）作为大模型的核心输入指令，直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力，如逻辑推理、步骤分解等。PromptPilot 提供全流程智能优化，涵盖生成、调优、评估和管理全阶段，帮助您高效获得更优 Prompt 方案。

随着模型能力持续提升，待解决的问题日趋复杂，解决方案也从单一的 Prompt 调优，转向对包含多个步骤、工具及 Agent 参与的 Workflow 进行系统性优化。PromptPilot 依托大模型能力，自动拆解问题、规划流程，结合可用工具生成多样化解决方案，并基于用户反馈持续优化，最终轻松实现代码部署。

接下来我们就以一个Test Case为例，比如：品牌评价情感分类--文本理解任务，实操PromptPilot。

1、生成Prompt

1、进入如下界面

picture.image

2、在“你的任务”栏内输入任务描述，点击“生成Prompt”

在互联网上，有很多客户发布的关于我们“脱敏品牌1”产品的内容和一些评价，有说我们这个面好吃的，有说这个饮料价格贵之类的，好的坏的都有，我们比较希望把这些内容能用大模型识别和格式化整理一下。首先要看一下，这些客户说的是正面评价还是负面评价；如果是负面的，就再分个类，看看是价格问题还是口味口感还是什么其他问题，然后看看对应的是哪个产品名，是牙膏还是饮料还是什么其他产品，给出来产品名称。我目前想到的是以下问题分类：包装不当：产品包装相关的评价；价格：产品价格相关的评价；口味口感：食品类产品的口味、口感相关的内容；食品安全：关于食品类产品卫生、安全性的内容；售后维权：退换货等售后相关的内容；其他：无法归类为前述标签的内容；以JSON格式输出，字段是情感判断、评价维度、产品名称。

picture.image

3、生成后的Prompt

picture.image

4、反馈和调试Prompt 对生成的prompt不满意？你可以手动修改，也可以在页面右下角直接点击“优化你的Prompt”，在对话框内输入你的反馈/优化要求。

比如：你需要关注模型的规则和输出结果格式。 比如“最终的输出json里面产品名称可能涉及到多个，因此需要是一个list结构；不需要思考标签和output标签，最终直接输出json即可”。

则反馈内容：

最终的输出json里面产品名称可能涉及到多个，因此需要是一个list结构；不需要思考标签和output标签，最终直接输出json即可

picture.image 我们可以看到产品名称现在是list结构了。

2、调试Prompt

单case调试：接上一步，点击“验证Prompt”，进入Prompt调试页

picture.image

填写变量

我们选择一个case，内容如下：

#[脱敏品牌1]饮料
  不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心，我们商家在你们在那里下了那么多钱的货，你们送货过来日期不是最新的，而且下货多过期了，打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来一个业务员，结果说把这些过期饮料全部换成白开水换，真是无语死了

将case内容添加到变量中，按箭头指示先点击填写变量，然后在输入框中输入case内容，那么在左侧你会看到变量内容。

picture.image

选择target model(doubao-seed-1.6-flash)，并生成模型回答

picture.image

与case集合比对

case原结果是：

picture.image

模型的结果是：

picture.image

可见模型生成的结果和case一摸一样。

将模型结果添加到评测集中

picture.image

原始case集文件截图

picture.image

3、准备测评数据

准备case集文件

接下来，进行批量测试和智能优化。需要上传case集、配置评估标准、进行智能优化。我们测评case集文件截图如下：

picture.image

上传case集文件

先点击上传文件，然后选择我们的case集文件，注意：这里的case集文件列必须包含：CUSTOMER_CONTENT和理想回答。

picture.image

确定评分标准

promptPilot平台是5分制，因此需要按照5分制来进行适配，评分标准如下：

每题总分 5 分：
1. 输出JSON和参考答案JSON完全一致，没有冗余字段和内容，得 5 分
2. 相比参考答案有多余字段，得 1 分
3. 字段取值内容和参考答案不一致，得 1 分
4. "产品名称" 取值不是 List，得 1 分
5. 参考答案为"{}"时，输出任何字段都直接判为 1 分
6. 输出结果格式不是合法JSON直接得 1 分

点击编辑按钮：

picture.image