字节刚甩出两款新模型,那真是王炸级别的!一个叫 Doubao-Seed-1.6-thinking丨250715,另一个是 Doubao-Seed-1.6-flash丨250715。这俩模型是真厉害,不管是多模态的深度思考能力、快到飞起的推理速度,还是对视觉内容的理解,都做得特别惊艳。
正好,我来替大伙儿先体验体验,好好测评一番。另外他们还公布了个 PromptPilot 平台,能帮用户生成提示词,还能调试和智能优化任务,挺实用的。
行了,废话不多说,咱们这就开启探索模式!
Doubao-Seed-1.6-flash丨250715
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。 体验地址:体验地址
我现在上传一张图片让大模型帮我总结,来让大家感受一下,效果如下:
可以看到多模态深度思考速度非常快!!6.41s就完成了对图片的总结,而且输出的内容也和图片内容一致,可以看到模型对视觉理解非常到位
Doubao-Seed-1.6-thinking丨250715
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT低至10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,视觉理解比肩友商pro系列模型。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
我丢入一个视频让模型给我详细介绍视频内容和生成分镜,最后居然也生成了,还挺符合,阔以阔以,你们也可以尝试一下。
版本对比分析
特性 | Doubao-Seed-1.6-thinking | Doubao-Seed-1.6-flash |
推理速度 | 标准 | 极速(10ms TPOT) |
思考深度 | 深度推理 | 快速响应 |
多模态 | ✅ | ✅ |
上下文长度 | 256K | 256K |
最大输出 | 16K tokens | 16K tokens |
适用场景 | 复杂任务 | 实时应用 |
提示词这东西,可是大模型的核心指令,直接关系到模型能不能准确理解你的意思,输出的结果好不好。要是提示词写得好,大语言模型处理复杂任务的本事能明显变强,像逻辑推理、把步骤拆解开这些事儿,都能办得更利落。 而 PromptPilot 这平台,就能从头到尾帮你智能优化提示词,从生成、调整、评估到管理,每个阶段都能顾及到,帮你高效弄出更棒的提示词方案。 现在模型能力越来越强,要解决的问题也越来越复杂,光靠调优单个提示词可不够了,得转向对那种包含多个步骤、工具和 Agent 参与的工作流程进行系统性优化。 PromptPilot 就靠着大模型的本事,自动把问题拆开、规划流程,再结合能用的工具生成各种各样的解决方案,还能根据用户的反馈不断改进,最后轻轻松松就能完成代码部署。 接下来咱们就拿一个测试案例来举例,比如品牌评价的情感分类 —— 也就是文本理解任务,实际操作一下 PromptPilot。 我们先进PromtPilot独立站:https://promptpilot.volcengine.com/startup
第一步:prompt生成
为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。
我们会得到这样的一个提示词:
第二步:继续优化提示词
对生成的提示词不满意?没事儿,你可以自己动手改。要是懒得手动弄,直接点页面右下角的 “优化你的 Prompt”,在对话框里说说你想怎么改、有啥具体要求,就行啦。 比如:
变量名字必须是image_url
生成后的prompt
你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况。此判断是为了确保安全生产。请仔细查看以下生产车间图片:<生产车间图片>{{image_url}}</生产车间图片>请按照以下步骤进行评估:1. 仔细查看图片的各个部分,包括设备操作情况和人员防护情况。2. 判断是否存在违规操作设备的现象,如设备使用方式不符合规定等。3. 判断是否存在人员未佩戴安全防护用具的情况,如安全帽、防护手套、护目镜等。4. 形成初步判断。5. 再次检查,确保没有遗漏重要细节。在<思考>标签中分析图片,考虑是否存在违规操作设备和未佩戴安全防护用具的情况。然后在<判断>标签中给出你的最终判断,使用"存在违规"或"不存在违规"。最后,在<违规类别>标签中详细列出存在的违规类别,若不存在违规则写"无"。<思考>[在此分析图片内容]</思考><判断>[在此给出"存在违规"或"不存在违规"的判断]</判断><违规类别>[在此列出违规类别]</违规类别>请确保你的判断客观公正,并基于图片的实际情况。
第三步:调试prompt
已经生成了prompt,接下来就是调试prompt了
https://img0.baidu.com/it/u=1094762033,1331895175&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=561
图片说错了,不是点击上传图片,是移动到上传图片框,然后点击URL上传
选择target model,即:推理模型,多模态选择带thinking的模型
第四步:批量测评
-
进入批量测评界面
2. 上传图片集
方法一:添加行的方式:通过上传图片url来上传case
方法二:直接上传批量集:
**上传数据集,请注意:**需要先修改图片的变量名为image_url, 然后上传文件
3. 我们先评分3个,然后让AI生成评分标准
第五步:进入智能优化
1. 进入智能优化页面,并开启优化
2. 查看优化报告
3. 优化报告不达预期,可以继续优化
因为最终的分数符合我的预期,3.8分,换算到百分制,其实是76分,所以可以正常结束。 但是如果不满意,想继续优化,可以点如下按钮,继续优化下一轮,通过更多的迭代轮数提高效果。