豆包新模型与 PromptPilot 实测:多模态能力与提示词优化工具的双重体验

人工智能

当下,AI技术的迭代速度令人目不暇接,各类新模型与工具不断涌现,持续重塑着我们的工作与生活模式。作为字节跳动开发的智能助手,豆包始终走在AI创新的前沿。此次推出的豆包新模型以及配套的PromptPilot工具,无疑是其在AI领域探索的又一重要成果。怀着强烈的好奇心与探索欲,我深入体验了这两款产品,接下来便为大家详细分享此次体验测评的感受。

1. 豆包新模型体验之视频理解

Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。

由于博主最近都在做视频智能体,想测一下这个模型对视频的理解能力怎么样,于是上传了一个吃可乐冰块的视频,让它描述视频内容。

picture.image

后来我又让它反推了一下文生视频提示词。

picture.image

我把这个文生视频提示词投喂给Running Hub上的任意文生视频工作流看一下视频生成效果。

picture.image

总体效果还是不错,有了这个模型,以后构建文生图提示词简直不要太方便。

Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持 256k 上下文窗口,输出长度支持最大 16k tokens。

基于它输出长度支持最大 16k tokens的这个能力,我也进行了测试,让它写一本小说,由于我不怎么看小说,就给了它一个大概的提示词,结果基本是秒出。

picture.image

2. PromptPilot

2.1. 什么是PromptPilot

提示词是大型模型的关键输入指令,它直接关系到模型对信息的理解是否准确,以及输出内容的质量高低。好的提示词能大大增强大语言模型处理复杂任务的能力,像逻辑推理、步骤分解这类工作都能更好地完成。而PromptPilot能提供全流程的智能优化服务,从提示词的生成、调优,到评估和管理,各个阶段都能覆盖,帮助用户高效地得到更完善的提示词方案。

PromptPilot地址: https://promptpilot.volcengine.com

PromptPilot 用户手册 https://www.volcengine.com/docs/82379/1399495

2.2. PromptPilot使用流程

PromptPilot 的使用流程是这样的:它根据用户是否有初始的 Prompt,设置了「Prompt 生成」和「Prompt 调优」两个功能模块作为入口。如果用户已经有了结构完整的初始 Prompt,可直接从「Prompt 调优」模块进入;要是没有,建议优先选择「Prompt 生成」模块。

独立站版本在这两个模块的基础上,还支持用户根据自身是否有批量数据集,直接从「Prompt 批量」模块进入,进行 Prompt 的迭代优化。并且,每个调优任务都会进入「PromptPilot 管理」进行统一管理。

picture.image

另外,为了帮助用户解决更复杂的视觉理解问题,生成包含多个步骤和工具的解决方案(Solution),平台支持创建「视觉理解 Solution」,每个 Solution 探索任务也会进入「PromptPilot 管理」统一管理。

2.3. 使用体验之图片理解任务

在生产车间中,安全至关重要,今天就结合PromptPilot 来完成图片质检任务,首先进入PromptPilot 界面,点击帮我生成一个Prompt:

picture.image

把下面的提示词粘贴到输入框中,点击发送,PromptPilot 就会将我们的自然语言转换为一个比较标准的提示词。

为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。

如下图所示,右侧就是PromptPilot 生成好的提示词,点击【验证Prompt】就可以对生成的Prompt进行验证。

picture.image

点击【Prompt调试】展开后点击【视觉理解】

picture.image

点击{{image_url}}上传图片,选择本地上传,我这边选了一张车间工作人员的照片。

picture.image

上传完成后选择大模型(我选择的是doubao-seed-1.6-thinking),点击生成模型回答即可查看基于我们提示词生成的答案。

picture.image

如果你对模型的回答不满意,可以点击右边分页的【基于模型回答改写】,在输入框输入希望怎么优化理想回答即可。

picture.image

对于符合我们心意的回答可以点击【保存并添加至测评集】,有的同学可能会问,我要去哪里找测评集?只需要点击下面页面中的【批量评测】即可,如下图所示,我框起来这一行就是刚刚添加到测评集的数据。

picture.image

点击【为未评分的回答评分】可以基于AI的回答进行评分,我这边是用的AI进行评分(用AI给AI打分),我在评分标准里面设置了规则:

思考标签正确,判断标签正确,且违规类型和理想回答一致,得5分;
否则得1分,尤其是违规类型和理想回答不一致的话,请直接给1分

picture.image

你不想用AI给AI打分也可以针对AI的回答自己评分,1到5分,满分是5分,接下来我们就要开始体验智能优化功能了。

picture.image

点击【智能优化】跳转到新的界面,点击【已准备好数据,开始智能优化】

picture.image

下图就智能优化我们的prompt了:

picture.image

优化完成以后可以查看优化报告:

picture.image

总的来说,基于PromptPilot 来写提示词很大程度提升了效率,可以一句白话就生成质量很高的提示词。

3. 结语

在这次对豆包新模型与PromptPilot的体验测评中,二者都交出了令人满意的答卷。豆包新模型多维度能力的跃升,让视频理解、文本创作,乃至代码编写、数学运算等复杂任务的处理变得更为高效。而PromptPilot凭借其全流程的智能优化服务,让提示词的生成、调优、评估和管理变得轻松便捷,极大地提升了工作效率。

随着技术的不断进步,豆包新模型和PromptPilot也将持续优化升级,为用户带来更加强大、智能的服务,在更多领域发挥重要作用,助力用户轻松应对各种挑战,开启更智能、高效的工作与创作之旅。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论