字节出了两款新模型,简直是王炸的存在,一个是Doubao-Seed-1.6-thinking|250715
,另外一个是Doubao-Seed-1.6-flash|250715
,这两款模型在多模态深度思考上的强化、极致的推理速度和视觉理解上已经做到了非常惊艳的地步,接下来我可以替大家体验测评一把。另外还公布了PromptPilot平台,对用户的任务进行提示词生成,调试和智能优化。好了,不多说了,我们开始探索之旅吧
🚀 简单Chat对话框指令体验
1、Doubao-Seed-1.6-flash|250715
极致速度、支持多模态、256K长上下文,纯文本能力大幅提升近10% ,Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms;同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持256k上下文窗口,输出长度支持最大16k tokens。
我上传了一张图片,让它帮我总结图片内容,大家看下效果。
效果如下:
大家可以看到基本与图片内容很吻合,而且多模态深度思考速度非常快,对于这种视觉理解也非常准确,接下来我们再让模型生成图片标题,请看
题目非常贴切,而且对题目的含义解释也非常精美。
2、Doubao-Seed-1.6-thinking|250715
思考能力强化、支持多模态、256K长上下文Doubao-Seed-1.6-thinking模型思考能力大幅强化,对比Doubao-1.5-thinking-pro,在Coding、Math、逻辑推理等基础能力上进一步提升,支持视觉理解。支持256k上下文窗口,输出长度支持最大16k tokens。
我上传了一张图片,让它帮我总结出“前景有几个人,其中有几个人带帽子”,大家看下效果
可以看到它不但能解构出图片内容,而且对内容做了逻辑推理,能准确的知道前景中的人数和戴帽子的人数,非常棒的体验,大家下来也可以做此尝试,相信我一定会惊艳到你的。
🎨 PromtPilot 操作实践
Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力,如逻辑推理、步骤分解等。PromptPilot 提供全流程智能优化,涵盖生成、调优、评估和管理全阶段,帮助您高效获得更优 Prompt 方案。
随着模型能力持续提升,待解决的问题日趋复杂,解决方案也从单一的 Prompt 调优,转向对包含多个步骤、工具及 Agent 参与的 Workflow 进行系统性优化。PromptPilot 依托大模型能力,自动拆解问题、规划流程,结合可用工具生成多样化解决方案,并基于用户反馈持续优化,最终轻松实现代码部署。
接下来我们就以一个Test Case为例,比如:品牌评价情感分类--文本理解任务,实操PromptPilot。
1、生成Prompt
- 1、进入如下界面
- 2、在“你的任务”栏内输入任务描述,点击“生成Prompt”
在互联网上,有很多客户发布的关于我们“脱敏品牌1”产品的内容和一些评价,有说我们这个面好吃的,有说这个饮料价格贵之类的,好的坏的都有,我们比较希望把这些内容能用大模型识别和格式化整理一下。首先要看一下,这些客户说的是正面评价还是负面评价;如果是负面的,就再分个类,看看是价格问题还是口味口感还是什么其他问题,然后看看对应的是哪个产品名,是牙膏还是饮料还是什么其他产品,给出来产品名称。我目前想到的是以下问题分类:包装不当:产品包装相关的评价;价格:产品价格相关的评价;口味口感:食品类产品的口味、口感相关的内容;食品安全:关于食品类产品卫生、安全性的内容;售后维权:退换货等售后相关的内容;其他:无法归类为前述标签的内容;以JSON格式输出,字段是情感判断、评价维度、产品名称。
- 3、生成后的Prompt
- 4、反馈和调试Prompt 对生成的prompt不满意?你可以手动修改,也可以在页面右下角直接点击“优化你的Prompt”,在对话框内输入你的反馈/优化要求。
比如:你需要关注模型的规则和输出结果格式 。 比如“最终的输出json里面产品名称可能涉及到多个,因此需要是一个list结构;不需要思考标签和output标签,最终直接输出json即可”。
则反馈内容:
最终的输出json里面产品名称可能涉及到多个,因此需要是一个list结构;不需要思考标签和output标签,最终直接输出json即可
我们可以看到产品名称现在是list结构了。
2、调试Prompt
- 单case调试:接上一步,点击“验证Prompt”,进入Prompt调试页
- 填写变量
我们选择一个case,内容如下:
#[脱敏品牌1]饮料
不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心,我们商家在你们在那里下了那么多钱的货,你们送货过来日期不是最新的,而且下货多过期了,打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来一个业务员,结果说把这些过期饮料全部换成白开水换,真是无语死了
将case内容添加到变量中,按箭头指示先点击填写变量,然后在输入框中输入case内容,那么在左侧你会看到变量内容。
-
选择target model(doubao-seed-1.6-flash),并生成模型回答
-
与case集合比对
case原结果是:
模型的结果是:
可见模型生成的结果和case一摸一样。
-
将模型结果添加到评测集中
-
原始case集文件截图
3、准备测评数据
-
准备case集文件
接下来,进行批量测试和智能优化。需要上传case集、配置评估标准、进行智能优化。我们测评case集文件截图如下:
- 上传case集文件
先点击上传文件,然后选择我们的case集文件,注意:这里的case集文件列必须包含:CUSTOMER_CONTENT和理想回答。
-
确定评分标准
promptPilot平台是5分制,因此需要按照5分制来进行适配,评分标准如下:
每题总分 5 分:
1. 输出JSON和参考答案JSON完全一致,没有冗余字段和内容,得 5 分
2. 相比参考答案有多余字段,得 1 分
3. 字段取值内容和参考答案不一致,得 1 分
4. "产品名称" 取值不是 List,得 1 分
5. 参考答案为"{}"时,输出任何字段都直接判为 1 分
6. 输出结果格式不是合法JSON直接得 1 分
点击编辑按钮:
输入评分标准,保存之后,
点击生成全部回答
-
生成全部回答(生成需要几分钟时间,请耐心等待);
- 所有回答生成完毕后,点击“为所有回答评分”,开始自动为所有case自动打分
生成评分中,需要等待几分钟
生成完成
生成完成之后,点击右上角智能优化。
4、进入智能优化
-
点击“智能优化”切换界面,点击 “已准备好数据,开始智能优化”(需要耐心等待几分钟)
智能优化中
智能优化完成之后可以点击查看优化报告。
- 查看优化报告
- 优化报告页面的中段位置有综合得分对比
5、假如优化结果不满足
-
继续优化,直到获得满意的分数
回到“智能优化”界面,在最新的Prompt基础上继续上面的优化流程,直到满足实验通过要求。
本步骤可以重复多次,通过更多的迭代次数,利用更多的算力来拿到更好的效果。在多次重复过程中,promptPilot会自动基于最新的prompt版本进行下一步迭代更新。
我们从分数3.7优化到3.8了,由于时间关系就不再尝试了,大家下来可以多试几次看看效果。
-
如果经过多次,依然不提升,promptPilot提供联动精调的能力
注意:这个能力目前是在方舟平台,仅通过方舟平台登录可体验(免费智能精调)
小结
全程体验下来确实惊艳到我了,不管是新模型对多模态的深度思考能力强化或者推理速度的极致提升,还是PromtPilot平台对Prompt的任务极致理解和智能优化,都让我耳目一新,如沐春风。科技向善,未来的技术一定是让复杂归于简单,让智能隐于无形。