大家好,我是刘聪NLP。
豆包1.6模型又更新了,这次发了3个模型,并且都支持视觉理解,也就是可以多模态理解。
- Doubao-Seed-1.6-thinking是一个强制思考模型
- Doubao-Seed-1.6是动态思考模型,支持thinking、non-thinking和自适应思考三种模式
- Doubao-Seed-1.6-flash是一个极速版模型,等同于上一代的lite模型
1.6版本模型相较于1.5版本在coding、math、 逻辑推理等能力上有很大的提高,同时与顶级闭源模型也基本持平,如下官方截图。
来源:https://mp.weixin.qq.com/s/TZeogITwPorPmToXU4f9iQ
这次的定价模式也是新奇,不论是否开启深度思考、还是纯文本或视觉理解任务,token的价格是一致的,而定价取决与输入长度。0-32K的输入,价格是deepseek和seed-1.5的三分之一,又是一波think模型的价格战!
豆包1.6模型实测
先说一下测试的整体感受,
- 对于普通任务,跟1.5感觉相差不大,但推理任务确实有一定的提高
- code能力大幅增强,尤其是写html代码,并且美感也很强
- 视频理解也不错,虽然表格识别依旧存在问题,但网页复刻属实有点东西,截图基本上可以1:1还原
- 当然指令遵循能力还是存在一些问题,后面可能还需要改进 下面测试实例。
文本推理
prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
结果:我万万没想到,它竟然事实校验了,虽然我更希望它回答老鹰本来就会飞,但是它这个角度也算是另辟蹊径了。
prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
结果:对就是4个,他给了另外的解释,就是为啥小红是女性,因为一般如果小红是男性,就会直接说小红的姐妹,而不是小红兄弟的姐妹。。。。
prompt:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?
结果:这道依旧无法攻克,确实是各大模型的难题,哈哈哈
ORC理解
prompt:请逐步详细分析,输出图片中的文字内容
结果:就少了一个字,但是这个手写体确实难,那个“的”确实很难识别了
代码生成
prompt:生成一个打工人时钟的html页面
结果:很酷,生成的这个页面很漂亮,反正打在我的审美上了。
来自 好友@甲木 的表情游戏生成,
结果:很有意思,平时没事儿可以练练反应,我反正一玩儿就是15min~
prompt:复刻一个一模一样的html页面
结果:感觉很强了,基本上都复刻出来了,很满意!
原图
生成网页
还测了不少代码的例子,效果都不错,感兴趣的可以去试一下。
火山AI云原生开发快速搭建Agent
火山引擎也提出了“AI云原生”开发的新范式,简单来讲就是“模型+AI开发平台”,最后直接一步上云部署,让我们来瞅瞅是怎么个事儿。
这里豆包1.6快速搭建两个Agent应用,都是跟它相关,一个将生成的文档写入飞书文档,一个生成html直接在火山部署,外部可访问。
Cline端就用字节的Trae,Lark MCP则在火山引擎的大模型生态广场-MCP Servers。
火山引擎的MCP服务也是集成了丰富的官方云服务(快速是云计算、存储等产品,还有飞书的MCP)及优质三方生态工具,用户可以快速跳转,支持Remote MCP,Local MCP 部署方式,让Agent开发更便捷。
旅游规划写入飞书
简单搞个旅游规划,写入飞书,便于数据整理留存修改。当然其实啥都能写,比如日常写的一些文件,转换完之后看直接写入,省的自己复制粘贴了,在飞书上文档也好改。
在Trae里配置高德MCP和Lark MCP的配置,直接跟着MCP说明来就行。
配置完之后,配置智能体,选择对应的MCP工具。
然后直接问答即可,结果如下:
旅游页面直接部署
这里主要是借助火山引擎原生MCP-VeFaas,自动将html页面部署到火山引擎中,会自动途欢静态网页,然后自动创建API网关,最后直接返回一个公网访问地址,之后你想share的页面都可以这么做。
这里还有个注意点,就是API网关服务要提前授权,貌似账户里要有钱!
以上就是两个例子。
当然我前面写的系统提示词会比较简单,也没写很复杂内容结构,看过manus等agent产品的,都知道,提示词很重要。字节的force上也发布了PromptPilot工具,可以极大加速开发者对agent提示词部分的开发。
它可以通过交互式引导与提示词优化,帮助开发者将模糊需求转化为精准指令;也可以通过sdk进行代码调用。
真的解决了我不太会写提示词的困扰。
原始:
我是高考生,给年份、地点、分数、文理科。请根据历年各省录取线、专业热度、未来薪资趋势,为我匹配10所建议院校和专业,并说明每一个建议的理由(地域、调剂风险、就业),生成一个html页面供我查看
优化后:
你的任务是为一名高考生根据提供的年份、地点、分数、文理科信息,通过检索给考生推荐10所建议院校和专业,并说明每一个学校和专业的建议理由(包括地域、调剂风险、就业情况等),最终生成一个html页面文件供考生查看。
以下是需要用到的信息:
<年份>
{{YEAR}}
</年份>
<地点>
{{LOCATION}}
</地点>
<分数>
{{SCORE}}
</分数>
<文理科>
{{ART\_OR\_SCIENCE}}
</文理科>
在进行院校和专业匹配时,你需要依据历年各省录取线、专业热度、未来薪资趋势来综合考虑。具体步骤如下:
1. 先根据考生所在地点和文理科,检索并筛选出该年份可能符合考生分数的院校范围。
2.如果认为筛选内容不足,可以多次检索。
3 从筛选出的院校中,结合专业热度和未来薪资趋势,挑选出合适的专业。
4. 为每一所建议院校和对应的专业分析地域优势、调剂风险和就业前景。
5. 整理上述信息,生成一个完整的html页面文件,页面应包含10所建议院校和专业的信息以及对应的理由。
在给出最终的html页面之前,请先在<思考>标签中详细说明你的考虑过程,包括如何筛选院校、如何选择专业、如何分析地域、调剂风险和就业等方面。
<思考>
[在此详细说明你的考虑过程]
</思考>
最后,请将生成的html页面内容放在<result>标签内。
<result>
[在此输出完整的html页面内容]
</result>
当然原生的云工具MCP服务,可以实现从工具调用、模型推理、部署运营的深度协同,将Agent开发与云算力结合,更好支持企业服务。
写在最后
这波字节真是更新了不少东西,AI原生,Trae+豆包系列模型+MCP Sever应用仅有。
引用好友知乎@Trisimo崔思莫 的话,
豆包=中国ChatGPT
ChatGPT=美国豆包
这个预言正在成真
一升一胯,双向奔赴
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!