刚参加完火山引擎在厦门的AI创新巡展活动
在本次巡展中还有一个火山引擎开发者的闭门会板块,我从这里学(piao)到了不少好东西,迫不及待想分享给大家 !
照例,我们给先速览下重点的大会信息。
一、模型升级
本次大会重点提及的三款模型其实均在大会前已经发布上线,只是并没有正式对外宣讲过。首先是:
Doubao-Seed-1.6-thinking的250715版本
新发的0715版本的 文本和视觉能力有显著提升 ,综合能力领先Doubao-Seed-1.6-250615开启thinking模式。尤其值得一提的是视觉能力提升,我发现了一个非常直观的例子对比:
Doubao-Seed-1.6-thing|250715版本数斑马线一次正确
Doubao-Seed-1.6-thing|250615版本数斑马线两次正确
Doubao-Seed-1.6|250615版本,重试了五次,也没数正确...
强如Gemini-2.5-Pro,也试了两次才数对。
图片是我在网上随便截的,你也可以拿去试一下:
对应而来的模型还有:
Doubao-Seed-1.6-flash|250715版本
flash版本主打一个“快”,在不过度牺牲效果的前提下, 追求极致的速度,支持多模态、256K长上下文,纯文本能力相比上一代lite,提升近10%。 首个token仅需10ms,这速度比人嘴快多了、、
适合追求低时延、低成本预算的场景下使用
此外还有一个重磅模型:
Seed1.6-embedding
这款向量模型一经发出就登顶了多榜单sota,还是一款首发的 全模态混合检索模型 。首次引入了视频向量化能力,可以对文本、图片、视频等全模特的内容做向量化,且同时还支持了文本、图像、视频三种模态的任意混合输入做检索。
在图文检索任务中,Seed1.6-Embedding 的图文模态下的理解能力进一步提升,同时延续了上一代模型的SOTA表现,在语义匹配(STS)等通用向量化任务中也取得领先成绩,具备更强的跨任务泛化能力。在向量模型中做到了全面任务领先。
不过坑的是,如果你想体验,你在方舟的模型广场中是找不到一款叫做“Seed1.6-embedding”的向量模型的。
它被归类在doubao-embedding-vision中,下翻找到250615版本,就是我们说的Seed1.6-embedding了。
模型是好用的,但是分类和命名是有点迷的...
捎带还有个在当天,我听到的讨论挺多的模型:
豆包同声传译2.0模型
刚好拿WAIC大会现场周博文教授和 诺贝尔奖获得者 辛顿教授的前沿对话做一个同声传译,因为是双人的对话,在体验时,如果更换了对话者,豆包同声传译2.0模型还会提醒,已经更换了演讲人,可以看下方视频感受一下,无论是速度、准确度还是音色,都非常的可圈可点。
说完了模型,对于开发者来说,才刚刚进入正题。
我想重点给大家推荐分享的产品是:
PromptPilot
PromptPilot是一个能够提供全流程智能优化提示词的工具,它涵盖了提示词的生成、调优、评估和管理的全阶段,是帮助我们高效获得更优质Prompt的一整套解决方案和工具。
他的工作机制是
- 根据你的初始任务,帮助你直接生成「初始Prompt」;
- 再根据「初始Prompt」调试,并形成评测数据集的种子「样本」;
- 基于种子「样本」,批量生成样本并构建「评测数据集」
- 然后以提高样本整体的评分为目标,再基于「评测数据集」,形成一个优化后的新版本Prompt。
如果你时间充足,甚至可以2-4流程循环往复,直到完成一个最优提示词,榨干模型的所有能力 。
上次写文没有深入讲解和推荐PromptPilot是因为,之前的PromptPilot还不支持自定义模型接入,只能使用豆包的模型,所以只是提了一下,认为他是火山里一个值得关注的工具,并没有深入讲和写教程。
在现场我跟产品黄叔交流的时候,还表达了我的体验感受:
PromptPilot不支持接入别的模型,那么豆包的模型能力就是制约PromptPilot能力的枷锁,无论你在工程上怎么优化,底层的模型依然是决定最终生成提示词质量的主要因素。所以当时我的体验是,一通操作猛如虎,回头一看不如Gemini 2.5一分钟写的优化版。
但是!!时隔一个月,PromptPilot已然进化,在平台中内置了除自家“火山引擎”以外的阿里百炼、文心千帆、硅基流动。还格局打开的开放了“其他”选项,看到这个其他,大家应该就懂了 。
支持“其他”自定义,就几乎等于PromptPilot支持了“所有”模型的 Prompt调优,格局打开了,路也自然宽广了。
众所周知,Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。一个优质的 Prompt 能显著提升大语言模型处理复杂任务的能力。
所以!! 敲黑板了,PromptPilot绝对是一个你不能错过的工具!
现在上手虽然还有一点门槛,但是, PromptPilot 一定是值得你花一个小时的摸鱼时间的去学习的工具!
之前写Prompt,只能自己根据经验和感觉,写出提示词,然后自己手动的评测和测试提示词的质量和效果,这个过程是非常耗时耗力的,为了追求一个能够榨取模型能力极限的提示词,往往需要大量的测试和修改,我对此深有体验,每次的测试总是最花时间的事情。现在我们可以用PromptPilot去自动化的评测、调优和迭代你的提示词了。
并且,现在PromptPilot的Plus版是限时免费的,到9.11之前可以全功能免费使用。趁免费抓紧体验和掌握,从而评估自己是否需要这个工具,不要等以后收费了再吭哧吭哧的去徒增学习成本和门槛...
而且,我还为大家学(piao)来了使用教程,可以直接动手操作,以下是PromptPilot整个功能的使用流程图,大致了解下:
可以从下方页面中看到,PromptPilot 根据你是否已有初始 Prompt,设置了「Prompt 生成」、「Prompt 调优」两个功能模块入口。
如果你已有结构完整的初始 Prompt,可直接从「Prompt 调优」模块进入,否则就从「Prompt 生成」模块开始。
独立站版本在此基础上,支持用户根据是否已有批量数据集,直接选择从「Prompt 批量」模块进入进行Prompt迭代优化。每个调优任务将进入「PromptPilot 管理」统一管理。
我们以“质检巡检 --图片理解任务”为例, 假如我们遇到这样一个场景:
为了安全生产,我们需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况。我决定使用模型来判断,为了对模型的判断做检测:
需要模型输出思考过程,模型对图片的判断结果,以及图片中所属的违规类别。
那我们目前只有任务没有初始提示词,所以直接打开 PromptPilot,进入“Prompt生成”,输入我们的任务:
然后会看到直接生成了一个Prompt
Prompt中的变量名好长,但是我们准备的生产车间图片数据集的列名叫做“image_url”,所以要想让他把图片的变量名改一下。我们可以直接滑动选中,然后输入我们的需求:
`把变量名给我改成image\_url,我不喜欢太长的,不舒服`
啪的一下,就改好了
我们再点击右下角的“验证Prompt”,就可以直接进入到“Prompt调试”的流程中了。
点击填写变量 - 上传图片 - url上传,这是在百度随便找的一张图,以下是图片地址。
`https://img0.baidu.com/it/u=1094762033,1331895175&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=561`
然后在右侧选择一个目标模型 ,这意味着,后续就使用这个模型来回答问题,这里放的就应该是你在业务中使用的模型,那我们只是为了学习,反正也免费,直接上Doubao-Seed-1.6-thinking,然后点击【保存并生成模型回答】
很快模型回答就出来了:
然后我们点击“基于模型回答改写”,更牛的子功能出来了,为了防止一个Case不具有代表性,直接出3个回答让你再次参考。
我们可以在额外的三个回答中 ,查看是否有自己更加满意的答案 ,如果有,就可以直接点击回答框中的【应用】按钮,把新的回答,添加到“理想回答”一栏。
那我们这里选择把“模型回答1”添加过去,过去之后,还没完。
我刚才就说了,在模型输出这方面,我喜欢短的,不喜欢长的。于是我就告诉他:
思考过程短一点
点击小飞机之后,“理想回答”会再次更新,同时右侧的“任务意图 ”也会同步更新,来提取你的优化倾向。
完事之后,就把这一条加入到“测评集”即可,至此,你已经完成了一条测评集的创建。
我们可以再次更换图片,继续生成新一条回答,然后加入到测评集中。
除了一条一条的进行测评集创建,PromptPilot还支持批量的创建,点击右上角的【批量测试】就可以直接进入到评测数据集的页面,可以看到刚才创建的数据、“理想回答 ”与“模型回答”列。
在这里,可以点击上传按钮,直接批量上传图片文件,这里我也给大家准备了一个数据集, 可以在公众号后台发送“PP”,来获得数据集的下载链接。
评分列是为模型回答评分,用于评估模型的回答质量。带评分的数据将有助于模型「智能优化」,以获得更高质量的 Prompt。
在这里有一个小tips,对于回答的评分,
要么打1分,不满意。
要么打5分,满意。
不要打3分、4分的居中分数。
好,因为我有评测集,所以直接上传后是以下页面:
可以使用AI来生成一个评分标准,或者直接填入,这样方便在后续模型智能打分的时候,也能够准确的对结果进行打分。
然后点击右上角,进入【智能优化】,现在,我们 有了可用的测试数据、有了理想的回答 、有了评分标准,这样 “智能优化”模型就能够有目标的,将提示词朝着我们的理想方向优化,万事俱备,点击“开始”
然后就会进入到10-30分钟的优化过程,在这个过程中,你可以实时的看到迭代的次数、优化的结果
等待最终的优化完成 ,就可以看到一个“优化报告”:
查看报告,会非常直观的展示有哪些提升。
比如我们这次的优化,评分上升的回答Case有6个,下降的有1个。
这已经算是巨大的提升了,优化了75%的Case场景。然后经过优化后的V3版本提示词,生成的回答,有6个回答都达到了5分 ,而V2版本则没有任何回答达到满分。
所以提示词的优化还是卓有成效的。
那至此,整个提示词优化就已经结束,75%的提升我觉得可以结束优化了。如果不满意,依然可以选择“再次智能优化”来提升提示词水平。
我们已经一起体验完了整个功能流程,这里也有非常详细的PromptPilot功能介绍,可以去查看:https://www.volcengine.com/docs/82379/1399495
此外,在发布会上还有两个不错的产品:
AI 知识管理 和 Viking知识库/向量库
AI 知识管理 是字节新发布的文件问答助手,产品主要面向企业白领和广大知识工作者群体。
AI知识管理的特点是:
- 海量多模态内容理解。 可以上传海量多模态文件数据,AI 知识管理能够理解和处理包括图像、视频和超大文件,并根据用户提问生成图文并茂的答案。单个任务支持上传超过1000个文件,单个文件可达200MB,还支持飞书文档的批量上传和自动更新。
- 个性化知识分享和探索。 用户将自己上传整理的知识库分享给协作者,AI 会根据接收者的个性化设置(比如职业、兴趣关注),和分享者的分享目的,生成一份个性化探索指南,接收者可以在探索指南的引导下,循序渐进,有针对性且更生动的了解和学习知识库的内容。
- 可交互的深度研究。 针对复杂问题可以让 AI “做个计划”,并可精准修改计划步骤,AI 也会智能联网检索并结合互联网内容进行全方位的内容理解和回答,效果更符合用户预期。
听起来不太直观,大家可点击下方链接体验,这是官方将开发者见面会中各个讲师的PDF、火山方舟产品介绍、厦门开发者见面会的资料做汇总都上传到了 AI 知识管理工具中。
可以点击以下网址,直达并体验AI知识管理工具:
https://aisearch.volcengine.com/share/448b65a1
Viking:知识库/向量库
VikingDB是字节自研的高性能云原生向量数据库。 从2019 年起, VikingDB的技术就支撑起抖音的推荐系统。能够支撑抖音推荐系统的向量数据库,其能力和领先性自然不必多说:
-
检索效率更高: VikingDB从内存索引扩展至磁盘索引和 GPU索引,打通了亿级数据跨介质检索能力。在相同数据量下,检索性能是行业主流的 3 倍,
-
更好的性价比: 在亿级以上数据场景,优化后的 DiskANN 磁盘索引,相比传统内存索引,成本下降 75%;相比业界磁盘方案,资源成本下降60%。
-
全模态表征能力 : 实现更易用的,文本、图片、视频端到端一键的向量化与检索。用户不需要自建模型或手动处理,只需直接写入原始数据,系统就能自动完成向量化转换。
在如此强大的向量库能力的支持下,拓展除了一系列的产品,如知识库、记忆库等。Coze的专业版知识库其实用的也是这一套能力。
我之前介绍的这篇文章《怎么让AI认识你的产品?实践干货分享!》 ,同样用到的也是VikingDB的向量库能力,下图是支撑的产品矩阵,有兴趣的同学可以关注下。
最后还发发布了一个“方舟协作奖励计划”,活动的方式如下:
参与活动后需要授权一个推理接入点(也就是选择一个模型接入点),方舟会定向的赠送这个模型的500 万 tokens(企业) / 50 万 tokens(个人)的免费资源包。
然后作为用户,如果调用已授权的推理接入点,方舟就会每天采集这个接入点,不超过 500万tokens的推理数据,然后在第二天,再发放一个有效期30天的等量免费奖励包。
我理解这个活动,本质上是通过暴露自己一部分推理数据给方舟和内部算法团队,用于优化模型效果,然后方舟采集了多少tokens,就奖励等量的tokens给开发者,算是各取所需,互惠互利,适合在测试环境使用。
有兴趣的可以直接在“火山方舟”的控制台进行开通。
以上就是我参加完火山引擎AI创新巡展活动后想分享给大家的所有内容,希望对你有帮助。
最后,再次建议你尝试PromptPilot,掌握一个优质的工具,事半功倍,入股不亏。
我是梦飞,我们下次见~
既然看到这里了,如果你喜欢,请随手点个赞、在看、转发三连吧,感谢你的支持~
往期推荐
2、抛砖引玉 | 为什么DeepSeek-R1是推理模型?(万字长文)
3、二次元女友陪你上班是种什么体验?手把手教你用AI打破次元壁!