停!豆包新模型 + PromptPilot 体验太顶了,不看这篇你绝对后悔!

Agent人工智能AIGC

字节刚甩出两款新模型,那真是王炸级别的!一个叫 Doubao-Seed-1.6-thinking丨250715,另一个是 Doubao-Seed-1.6-flash丨250715。这俩模型是真厉害,不管是多模态的深度思考能力、快到飞起的推理速度,还是对视觉内容的理解,都做得特别惊艳。

正好,我来替大伙儿先体验体验,好好测评一番。另外他们还公布了个 PromptPilot 平台,能帮用户生成提示词,还能调试和智能优化任务,挺实用的。

行了,废话不多说,咱们这就开启探索模式!

一 聊聊简单的聊天框指令体验

Doubao-Seed-1.6-flash丨250715

Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。 体验地址:体验地址

我现在上传一张图片让大模型帮我总结,来让大家感受一下,效果如下:

picture.image

可以看到多模态深度思考速度非常快!!6.41s就完成了对图片的总结,而且输出的内容也和图片内容一致,可以看到模型对视觉理解非常到位

Doubao-Seed-1.6-thinking丨250715

Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。

我丢入一个视频让模型给我详细介绍视频内容和生成分镜,最后居然也生成了,还挺符合,阔以阔以,你们也可以尝试一下。

picture.image

picture.image

picture.image

版本对比分析

特性Doubao-Seed-1.6-thinkingDoubao-Seed-1.6-flash
推理速度标准极速(10ms TPOT)
思考深度深度推理快速响应
多模态
上下文长度256K256K
最大输出16K tokens16K tokens
适用场景复杂任务实时应用
二 PromtPilot 操作实践

提示词这东西,可是大模型的核心指令,直接关系到模型能不能准确理解你的意思,输出的结果好不好。要是提示词写得好,大语言模型处理复杂任务的本事能明显变强,像逻辑推理、把步骤拆解开这些事儿,都能办得更利落。 而 PromptPilot 这平台,就能从头到尾帮你智能优化提示词,从生成、调整、评估到管理,每个阶段都能顾及到,帮你高效弄出更棒的提示词方案。 现在模型能力越来越强,要解决的问题也越来越复杂,光靠调优单个提示词可不够了,得转向对那种包含多个步骤、工具和 Agent 参与的工作流程进行系统性优化。 PromptPilot 就靠着大模型的本事,自动把问题拆开、规划流程,再结合能用的工具生成各种各样的解决方案,还能根据用户的反馈不断改进,最后轻轻松松就能完成代码部署。 接下来咱们就拿一个测试案例来举例,比如品牌评价的情感分类 —— 也就是文本理解任务,实际操作一下 PromptPilot。 我们先进PromtPilot独立站:https://promptpilot.volcengine.com/startup

picture.image

第一步:prompt生成

为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。

picture.image

我们会得到这样的一个提示词: picture.image

第二步:继续优化提示词

对生成的提示词不满意?没事儿,你可以自己动手改。要是懒得手动弄,直接点页面右下角的 “优化你的 Prompt”,在对话框里说说你想怎么改、有啥具体要求,就行啦。 比如:

变量名字必须是image_url

picture.image

picture.image

生成后的prompt
你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况。此判断是为了确保安全生产。请仔细查看以下生产车间图片:<生产车间图片>{{image_url}}</生产车间图片>请按照以下步骤进行评估:1. 仔细查看图片的各个部分,包括设备操作情况和人员防护情况。2. 判断是否存在违规操作设备的现象,如设备使用方式不符合规定等。3. 判断是否存在人员未佩戴安全防护用具的情况,如安全帽、防护手套、护目镜等。4. 形成初步判断。5. 再次检查,确保没有遗漏重要细节。在<思考>标签中分析图片,考虑是否存在违规操作设备和未佩戴安全防护用具的情况。然后在<判断>标签中给出你的最终判断,使用"存在违规"或"不存在违规"。最后,在<违规类别>标签中详细列出存在的违规类别,若不存在违规则写"无"。<思考>[在此分析图片内容]</思考><判断>[在此给出"存在违规"或"不存在违规"的判断]</判断><违规类别>[在此列出违规类别]</违规类别>请确保你的判断客观公正,并基于图片的实际情况。

第三步:调试prompt

已经生成了prompt,接下来就是调试prompt了 picture.image

picture.image

picture.image

https://img0.baidu.com/it/u=1094762033,1331895175&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=561

图片说错了,不是点击上传图片,是移动到上传图片框,然后点击URL上传 picture.image

picture.image

选择target model,即:推理模型,多模态选择带thinking的模型

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

第四步:批量测评

  1. 进入批量测评界面

picture.image

picture.image

2. 上传图片集

方法一:添加行的方式:通过上传图片url来上传case

picture.image

picture.image

方法二:直接上传批量集:

**上传数据集,请注意:**需要先修改图片的变量名为image_url, 然后上传文件 picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

picture.image

3. 我们先评分3个,然后让AI生成评分标准

picture.image

picture.image

picture.image

picture.image

picture.image

第五步:进入智能优化

1. 进入智能优化页面,并开启优化

picture.image

picture.image

2. 查看优化报告

picture.image

picture.image

picture.image

3. 优化报告不达预期,可以继续优化

因为最终的分数符合我的预期,3.8分,换算到百分制,其实是76分,所以可以正常结束。 但是如果不满意,想继续优化,可以点如下按钮,继续优化下一轮,通过更多的迭代轮数提高效果。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论