各位AI爱好者,大家好!今天跟大家聊聊最近AI圈的几个重磅消息。作为一个天天跟各种AI工具打交道的人,我必须跟你们分享一下字节跳动最近在AI领域的大动作:豆包大模型的疯狂升级、他们刚推出的PromptPilot神器,还有怎么用AI来做知识管理。废话不多说,咱们直接开始!
豆包大模型:从1.5到1.6的华丽转身
数据说话,实力见证
先来看几个让人震撼的数字:截至2024年12月,豆包大模型日均tokens使用量超过4万亿,较5月发布时增长33倍。到了2025年3月底,这个数字已经飙升到12.7万亿,是2024年12月的3倍!
这是什么概念?就是说用户对豆包的需求在爆炸式增长,而且IDC报告显示,火山引擎以46.4%的市场份额位居中国市场第一。
豆包1.5 Pro:性能怪兽
豆包大模型1.5 Pro综合能力相较于5月份提升了32%,在推理、指令遵循、代码、数学和专业知识领域能力分别提升了13%、9%、58%、43%和54%。特别是代码能力提升58%,这对程序员朋友们来说简直是福音!
最让人兴奋的是什么?豆包大模型团队提到,不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。这意味着豆包走的是完全自主的路线,没有"抄作业"。
豆包1.6:价格屠夫来了
2025年6月11日,豆包大模型1.6正式发布,采用统一定价模式,最低为2.6元/百万tokens,相较于豆包大模型1.5的7元/百万tokens,大幅下降63%。
这个价格真的很良心!相当于原来三分之一的价格,就能用到能力更强的模型。
多模态能力全面开花
语音能力超强:豆包语音模型可听懂20种以上方言夹杂的对话,也能边听边思考,并在会话中表达情感,保留吞音、口音等人类习惯,甚至在交互中可随时被打断。
长文本处理:豆包大模型已拥有300万字窗口的长文本能力,可一次轻松阅读上百篇学术报告,每百万tokens处理延迟仅需15秒。
深度思考模型:豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数为20B,低于业界同类模型参数规模的50%,具备显著的推理成本优势。
PromptPilot:让你秒变提示词大师
这是个什么神器?
PromptPilot是字节跳动旗下火山引擎推出的AI提示词解决方案平台。通过深度解析用户意图,将模糊的想法转化为AI能精准执行的专业指令。
简单说,就是你只要说出大概想法,PromptPilot就能帮你生成专业的提示词。很多人用AI效果不好,就是因为不会写提示词。
核心功能详解
互动式引导:通过简单的互动提取用户意图,将模糊的需求转化为清晰的指令,帮助用户明确目标。
多轮对话优化:支持多轮对话场景,模拟真实会话流程,进行即时反馈和优化。提供GSB比对模式,用户可以直观对比不同模型的表现。
闭环迭代优化:将问题案例转化为数据资产,通过用户反馈持续优化Prompt,实现从单点优化到系统进化的跃迁。
【演示题目1】:质检巡检 ——图片理解任务
实操教程1:Prompt生成+文本理解
第一步:访问平台 打开 https://promptpilot.volcengine.com/
第二步:选择功能模块 根据需求选择「Prompt生成」或「Prompt调优」模块,前者适用于新任务,后者适用于已有Prompt的优化。
第三步:描述需求 提示词"为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。"
第四步:优化迭代 在生成好的提示词中,还可以输入你的要求,让PromptPilot继续优化提示词。
第五步:验证Prompt
我们点击“验证Prompt”即可进行选择评分模式和GSB比较模式
- 评分模式: 基于1-5分对回答评分,模型将根据你的评分结果建立量化的优化标准。聚焦低分样本的共性缺陷反向修正Prompt,实现精准优化。
- GSB 比较模式: 对比A、B两种回答,判断“G更好/S等同/B更差”。模型将根据你的定性反馈,逐步对齐你的隐形偏好标准来优化 Prompt。
这里我们选择GSB对比模式进行测验
第六步:对比模型
这里需要先完善变量内容(如果是测试,有多个变量可直接使用AI生成),后面的A和B是一个模型对比的选择,我们这里将1.5和1.6进行对比,看看效果
第七步:分析结果
这里进行对比就很明确了,1.6模型不光是思考速度还是回答又或者是查看都比1.5模型更好
实验教程2:Prompt调试+视觉理解
第一步:访问平台 打开 https://promptpilot.volcengine.com/
第二步:选择功能模块
这里了我们选择Prompt调试中的视觉理解,这里的文本还是使用上面Prompt生成的提示词
第三步:变量和模型
这个地方一样还是需要先完善变量内容,然后这里我们可以选择模型,不用多说,必须是1.6,至于是选择哪个1.6,文章底部会给大家进行解答
第四步:模型回答
这个地方的速度依旧迅速,如果这里了对内容不满意我们还可以基于模型回答进行改写
第五步:基于模型回答改写
这里开启“更多模型回答参考”,就会得到上面图片中1.6三个模型的回答内容,然后我们选择一个自己认为较好的,最后点击右下方蓝色按钮:保存并添加至评测集
实验教程3:批量处理神功能
PromptPilot支持批量构建提问、批量生成回答、批量完成评分,支持"用户打分"和"AI智能评分"。
这对企业用户来说特别有用,可以快速建立提示词库和评测体系。
第一步:访问平台 打开 https://promptpilot.volcengine.com/
第二步:选择功能模块
这里我们在视觉理解页面单击批量评测按钮进入
第三步:智能评分
这个地方先上面自己的图片或者是数据集,然后点击五角星的那个标识进行一个评分标准,需要让AI进行评分需要自己对自己的作品进行一个评分(评分三条就够了),这样就可以让AI为我们生成一个评分标准,然后我们点击开始标识的按钮,使用AI生成的评分标准进行一个评分,这里根据AI的评分标准,这三个图片的综合评分都是4.0
实验教程4:智能优化
第一步:访问平台
打开 https://promptpilot.volcengine.com/
第二步:选择功能模块
这里选择Prompt批量,然后上传数据集,最后点击智能优化
第三步:智能优化
这里直接点击“已准备好数据,开始智能优化”
第四步:优化报告
在优化过程中,我们还可以进行查看实时优化结果
对比版本
数据详情
【演示题目2】:医疗分诊 ——知识库的变量
第一步:访问平台 打开 https://promptpilot.volcengine.com/
第二步:创建知识库
在Prompt生成页面点击知识库,然后立即创建。然后在知识库名称处输入昵称即可单击创建
第三步:选择知识库
先输入Prompt,然后在选择前面创建的知识库,最后打开“应用知识库”的按钮
假设你是一位专业医生,请针对病情的描述来诊断疾病类别,然后分至对应的科室,请输出json格式。
病情的描述:{{user_prompt}}
输出:
第四步:Prompt生成
这里点击生成之后,等待新的Prompt生成即可
生成后的Prompt,这里因为知识库没有给公布,大家可能看不出来什么,大家可以用自己的知识库去生成Prompt
冷知识:知识库可以联合使用
假设你是一位专业医生,北京积水潭医院设有心内科、肾内科、呼吸与危重症医学科、消化内科、内分泌科、血液内科、风湿免疫科、干部保健科、神经内科、外科普外科、ICU、胸外科、神经外科、泌尿外科、血管外科、妇产科、儿科,眼科、口腔科等科室,其中脊柱外科、创伤骨科、手外科、 矫形骨科、小儿骨科、骨肿瘤科、运动医学科、特需病房、特需医疗部、北京创伤骨科研究,烧伤,烧伤整形科为医院特色科室、心理行为医学科、医疗美容科、心脏大血管外科。候选疾病分类如下:
内科系统疾病
心血管系统疾病:冠心病、高血压、心律失常、心力衰竭、心肌炎等。
呼吸系统疾病:肺炎、慢性阻塞性肺疾病(COPD)、哮喘、肺结核、肺癌等。
消化系统疾病:胃炎、胃溃疡、肝炎、肝硬化、肠炎、胰腺炎等。
泌尿系统疾病:肾炎、尿路感染、肾衰竭、肾结石等。
血液系统疾病:贫血、白血病、淋巴瘤、血小板减少性紫癜等。
内分泌与代谢疾病:糖尿病、甲状腺功能亢进 / 减退、肥胖症、痛风等。
神经系统疾病:脑梗死、癫痫、帕金森病、偏头痛、脑膜炎等。
免疫系统疾病:类风湿性关节炎、系统性红斑狼疮、干燥综合征等。
外科系统疾病
普通外科疾病:阑尾炎、胆囊炎、胃肠肿瘤、疝气、甲状腺疾病等。
骨科疾病:骨折、关节炎、腰椎间盘突出、骨质疏松、骨肿瘤等。
心胸外科疾病:先天性心脏病、胸腺瘤、肺癌、食管癌等。
神经外科疾病:脑肿瘤、脑出血、颅脑损伤、椎管内肿瘤等。
泌尿外科疾病:前列腺增生、尿路结石、睾丸肿瘤、泌尿系统损伤等。
整形外科疾病:创伤修复、畸形矫正、美容手术相关疾病等。
妇产科疾病
妇科疾病:阴道炎、宫颈炎、子宫肌瘤、卵巢囊肿、子宫内膜异位症等。
产科疾病:妊娠高血压、早产、产后出血、胎儿窘迫、妊娠糖尿病等。
儿科疾病
新生儿疾病:新生儿黄疸、早产儿并发症、先天性畸形等。
儿童常见疾病:肺炎、腹泻、热性惊厥、小儿哮喘、发育迟缓等。
五官科疾病
眼科:白内障、青光眼、近视、角膜炎、视网膜病变等。
耳鼻喉科:中耳炎、鼻炎、鼻窦炎、扁桃体炎、耳聋等。
口腔科:龋齿、牙髓炎、牙周病、口腔溃疡、颌面部肿瘤等。
请针对病情的描述来诊断疾病类别,然后分至对应的科室,请输出json格式。
病情的描述:{{user_prompt}}
输出:
第五步:测试新Prompt
这里一样选择Prompt调试中的视觉模型,这里的变量我们用文本来表示。
这里我一次性输入了5条的变量内容,用一个变量集承受,让我们看看结果
```json
[ { "病情描述": "宝宝刚2岁多,这3天反反复复发烧。早上烧起来的时候,给他吃了对乙酰氨基酚,体温倒是降下去了,后来又吃了四季抗病毒颗粒。结果到了晚上,体温又上来了。现在听着他嗓子里有痰,还咳嗽。", "疾病类别": "儿科疾病 - 儿童常见疾病", "科室": "儿科" }, { "病情描述": "娃六岁半了,五天前就开始打喷嚏,鼻子堵着不通气,还流黄鼻涕,咳嗽的时候还有黄痰。给他吃了两天小葵花清热止咳的药,结果今天有点低烧,咳嗽反而更厉害了。", "疾病类别": "五官科疾病 - 耳鼻喉科", "科室": "五官科(按医院科室列表‘眼科、口腔科等科室’,结合疾病分类归此,实际医院若有耳鼻喉科更精准)" }, { "病情描述": "这一两年头皮上老是起红疹,我琢磨着可能是毛囊出了问题,最近更厉害,还冒出脓来了。", "疾病类别": "外科系统疾病 - 普通外科疾病(勉强归类,实际更倾向皮肤科,医院科室无则暂归此)", "科室": "外科普外科" }, { "病情描述": "孩子咳嗽都一个礼拜了,那痰感觉在嗓子深处,咳半天也咳不出来似的。", "疾病类别": "儿科疾病 - 儿童常见疾病", "科室": "儿科" }, { "病情描述": "这周右耳老发鼓,还嗡嗡震。一开始一天几次,现在越来越勤了。", "疾病类别": "五官科疾病 - 耳鼻喉科", "科室": "五官科(按医院科室列表‘眼科、口腔科等科室’,结合疾病分类归此,实际医院若有耳鼻喉科更精准)" }]
```
补充:批量处理
大家如果需要批量处理医疗数据,点击【批量评测】即可,这里不做演示,不懂的同学可以参考前面【演示题目1】的详细教程
【演示题目3】:看图识物
这里突发奇想,我觉得可以试试我的想法,大家不防思考一下
第一步:访问平台 打开 https://promptpilot.volcengine.com/
第二步:输入prompt
这里我们来试试,这里没有用到知识库,大家也可以自己弄一个知识库调试
假设你是一位王者策划师,请针对不同的图片来判断英雄的名字以及皮肤,请输出json格式。
英雄名称:{{user_prompt}}
输出:
第三步:新Prompt
以下的生成的,感觉还挺全面的哈,那我们继续往下走试试
你将扮演一位王者策划师,根据提供的信息判断英雄的名字以及皮肤,并以json格式输出。
以下是英雄名称相关信息:
<英雄名称>
{{user_prompt}}
</英雄名称>
请在<回答>标签内输出符合要求的json内容,json应包含英雄名字和皮肤信息。如果无法判断皮肤信息,可在对应字段填写"未知"。
<回答>
{
"英雄名字": "",
"皮肤": ""
}
</回答>
第四步:跑一跑
这里我们用王者里面的貂蝉英雄测试,这里的回答没有任何问题,第一次测试,肯定不能测一次,我们继续
第一次测试:貂蝉——仲夏夜之梦
正确
第二次测试:小乔——天鹅之梦
正确
第三次测试:李白——碎月剑心
错误
第四次测试:澜——逐花归海
错误
我们测试了四次,我们来总结一下这个看图识物的优缺点
优点:直观捕捉显性差异,高效输出精准结论
在处理以对比为核心需求的图片内容时,这一特点展现出显著优势。
对于那些信息呈现清晰、差异点明确的图片 —— 比如两张产品细节图中零件的形状差异、两张场景图中物体的位置变动,或是两张数据图表中数值的高低对比等 —— 能够快速聚焦于视觉上显而易见的内容,跳过冗余信息的筛选过程。这种直接性不仅缩短了分析周期,更能避免人为判断中可能出现的疏漏或偏差,从而一次性给出切中要害的准确答案。无论是用于快速验证信息、辅助决策参考,还是满足基础的内容比对需求,都能凭借其对显性信息的敏锐捕捉力,提供高效且可靠的结果。
缺点:对复杂冗余图片适应性弱,核心信息缺失时难以有效评测
当面对 “花里胡哨” 的图片时,其局限性便会凸显。这类图片往往存在视觉元素过载的问题:可能充斥着过多装饰性图案、杂乱的色彩搭配、无关的背景干扰,或是将关键信息隐藏在繁复的设计中。例如,一张宣传海报若过度堆砌特效而弱化了产品核心参数,或是一张信息图用大量插图掩盖了数据逻辑,都会导致有效信息被稀释。更关键的是,若图片本身缺乏明确的核心点 —— 即没有清晰的主题、目标信息或需要突出的重点内容,评测就会陷入无的放矢的困境。此时,既难以从杂乱的视觉元素中提炼出有价值的信息,也无法基于模糊的内容做出合理的判断,最终影响评测的有效性和针对性。
完整工作流程
需求识别 → PromptPilot优化 → 豆包执行 → 结果入库 → 持续迭代
举个实际例子:
- 我需要写一篇产品分析报告
- 用PromptPilot生成专业的分析框架提示词
- 在豆包1.6中执行,得到高质量分析
- 把有效的提示词模板和成功案例存入知识库
- 根据效果反馈继续优化
效率提升的几个技巧
模板化思维:把在PromptPilot中优化好的提示词做成模板,需要时直接调用 批量处理:类似的任务集中处理,用豆包的长文本能力一次性处理多个文档 持续迭代:根据使用效果不断优化你的AI工具箱
实际应用场景
内容创作场景
用PromptPilot生成写作框架 → 豆包执行创作 → 知识库沉淀优质模板
数据分析场景
PromptPilot优化分析提示词 → 豆包处理数据分析 → 建立分析方法库
代码开发场景
在字节内部,超过80%的工程师在使用TRAE辅助开发,TRAE的整体月活用户已经超过了100万。你也可以用类似的流程:PromptPilot优化代码需求描述 → 豆包生成代码 → 积累代码模板库
写在最后
AI工具发展这么快,今天学的明天可能就有更新版本。但是掌握了学习方法和管理体系,就能快速适应新工具。
豆包1.6的升级让我们有了更强大且便宜的AI助手,PromptPilot帮我们更好地"调教"AI,而系统化的知识管理让我们的AI技能能够积累和沉淀。
几个实用建议:
- 趁着PromptPilot免费期,赶紧把常用任务的提示词优化一遍
- 用豆包1.6的低成本优势,多做一些尝试和实验
- 建立自己的AI知识管理体系,把经验系统化
- 关注AI工具的更新,但不要被新工具绑架,重点是解决实际问题
记住,工具是死的,人是活的。关键不是用了多少 AI 工具,而是能不能让这些工具真正提高你的工作效率和 生活质量 。
最后给大家一个建议:别只是看教程,动手试试! AI 这东西,用多了就熟了,熟了就精了。现在豆包便宜,PromptPilot免费,正是上手的好时机。
Doubao-Seed-1.6-thinking|250715:思考能力强化、支持多模态、256K长上下文
Doubao-Seed-1.6-thinking模型思考能力大幅强化,对比Doubao-1.5-thinking-pro,在Coding、Math、;逻辑推理等基础能力上进一步提升,支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。
Doubao-Seed-1.6-flash|250715:极致速度、支持多模态、256K长上下文,纯文本能力大幅提升近10%
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持 256k 上下文窗口,输出长度支持最大 16ktokens.
Seed1.6-embedding:登顶多榜单****sota ,首发全模态混合检索!
Seed1.6-Embedding 是字节跳动豆包大模型团队推出的最新全模态向量化模型。该模型在效果和模态能力上进一步升级,首次引入了 视频向量化能力,为多模态搜索与理解提供更深层次的表达支持,是所有向量化场景下的最佳模型之选。在纯文本权威测评榜单 MTEB 上,Seed1.6-mbedding 达到了中文 SOTA 效果。在多模态测评榜单MMEBv2上,Seed1.6-embedding在图片、视频任务上都达到了SOTA的效果。
- 全面任务领先: 在图文检索任务中,Seed1.6-Embedding 的图文模态下的理解能力进一步提升,同时延续了上一代模型的SOTA表现,在语义匹配(STS)等通用向量化任务中也取得领先成绩,具备更强的跨任务泛化能力。
- 全模态混合检索: 首次引入视频向量化能力,支持对人物、动作、场景等核心语义特征的统一建模,兼容多帧图像输入作为视频替代方案,进一步拓展输入形态。同时,Seed1.6-Embedding 实现了文本、图像、视频帧等多模态的混合输入融合建模,在跨模态搜索、内容理解、多模态Agent等场景中提供了更灵活的表达能力,为业界首发支持混合模态检索能力的embedding 模型。
- 自定义 指令 能力增强: 模型全面提升了指令理解与响应能力,支持用户通过定制化指令模板引导向量生成表达,使 embedding 表达更加贴合具体业务目标,在真实业务落地时能提供中能更低成本提升场景效果。