扣子空间更新的「生成播客」这个功能
我顺手体验了一下
真的让我不得不惊讶
效果贼好
特别是生成的音频效果,特别拟人,和真人差不多
抑扬顿挫、停顿、语气等等都不错
下面是我体验的两个案例,有直出的音频
我上传了一个 qwen3 的英文技术报告
期望生成了一个双人对话讲述 Qwen3 的播客
用 qwen3 的英文技术报告,也是正好本地有这个
正好看下英文理解的能力如何
提示词是:“根据这个技术报告,生成20分钟的双人播客, 用中文,然后输出一个音频文件。”
最终的效果如下,不仅仅包含生成的音频,还包括字幕
音频听起来特别逼真,就像真人一样
这是令我非常吃惊的
音频如下
播客字幕
主播A : 哈喽大家好欢迎收听,我们的播客。啊今天呢我们要聊一聊,Qwen3这个语言模型啊看看它到底在性能上面效率上面。多语言的支持上面到底有哪些,新的突破。
主播B : 听起来很有意思,那我们就直接开搞,看看它到底有哪些创新,还有它的应用潜力吧!
主播A : 对今天就是想聊一聊 Qwen3 到底有哪些,突出的特点和,关键的优势。
主播B : Qwen3呢它是一个升级啊它不光是在性能上面有升级在效率上面。还有就是多语言上面都有特别大的提升,对所以它是一个非常强大的语言模型。
主播A : Qwen3呢它是一个,呃多种的这个大型语言模型的一个组合。那它的这个架构设计上面和参数规模上面有什么特别的呢?
主播B : 就是 Qwen3呢它是有,呃密集的和,混合专家这两种架构。然后它的参数呢是从六亿到两千三百五十亿都有啊那其中呢它的这个旗舰型号。Qwen3-235B-A22B 它是一个 MoE 的架构。然后它有两千三百五十亿的参数但是呢它每个 token 呢只激活两百二十亿的参数。所以它是一个,呃既高效又很强大的这样的一个设计。
主播A : 哦那就是说 Qwen3 在创新点上面,还有就是多语言能力上面到底有哪些,亮眼的表现呢?
主播B : 它的创新点呢就是,呃它是第一个把。思考模式和非思考模式,统一到一个框架里面的。哦,那这个就厉害了就是说用户可以不用去手动的切换。然后另外呢它还有一个叫做思考预算。这个机制就是它可以根据你任务的复杂程度,来自动的分配资源。所以它在,效率上面和灵活性上面都特别强。
主播A : 听上去就很智能啊!
主播B : 是,然后多语言能力上面呢它是。呃在三百六十万亿的 token 上面进行了预训练然后它支持一百一十九种语言和方言。那这个是比它的上一个版本 Qwen2.5,要多很多的,Qwen2.5只支持二十九种。所以这个就是说它在全球的这种应用场景下面会更有优势。
主播A : 那 Qwen3 在预训练和后训练上面分别都做了哪些优化呢?
主播B : 它的预训练呢是用了三百六十万亿的 token 这么大的一个数据集。然后它是,呃通过多模态的方法来丰富它的训练数据。比如说它有从 PDF 里面去提取文本。然后也有通过一些模型来生成数学的合成数据和代码数据。然后它是一个三阶段的训练,呃第一个阶段是学习通用的知识表示。然后第二个阶段呢是在一些知识比较密集的领域上面进行,强化。然后第三个阶段呢是针对长上下文进行优化。所以它的这个上下文长度可以达到 32k。
主播A : 听起来就非常的细致啊!
主播B : 是,然后后训练呢它是用了一个多阶段的方法。它是先通过一些思维链的微调啊然后包括一些数学和编码的任务的强化学习。来启动这个推理能力,然后它还会把有推理路径的数据和没有推理路径的数据。混合起来再做一次微调。然后最后再用一个通用领域的强化学习来做一个整体的提升。所以它是一个,逐步的一层一层的去提升这个模型的能力。
主播A : 那 Qwen3 在小模型的能力提升上面,以及它的实验结果上面有哪些值得关注的亮点呢?
主播B : 就是 Qwen3 它是通过一种知识蒸馏的方法。啊,把大模型的知识,转移到小模型里面。然后它是有离线和在线的两种策略,然后这种方法呢是要远远优于传统的强化学习的。所以它可以让小模型也有非常惊人的表现。
主播A : 听起来就非常的高效啊!
主播B : 是,然后实验结果上面呢它的这个预训练模型就已经是非常厉害的了。然后后训练之后呢它更是可以在很多很多的。基准测试上面都达到,顶尖的水平。比如说它的这个旗舰型号在 AIME 上面的得分,还有在这个 LiveCodeBench 上面的得分。都是非常非常厉害的,然后其他的一些模型呢也在。各自的这个参数规模下面展现出了,超强的竞争力。
主播A : 那就是说 Qwen3 它到底在整个,AI 的领域里面是一个什么样的地位,它到底有什么样的价值呢?
主播B : 就是 Qwen3 它是一个非常前沿的。开源的大型语言模型家族,然后它可以支持非常复杂的任务。然后跨越很多领域和语言,然后它的这些创新点和它的这些提升。让它在人工智能这个领域里面有非常大的潜力。
主播A : OK 那么今天我们聊了 Qwen3 它的一些架构上面的突破。然后它的一些多语言的能力,然后它的一些在预训练和后训练上面的一些优化。然后它的一些实验的结果,确实,非常的前沿,然后也非常的有潜力。
主播B : 以上就是这期播客的全部内容啦然后,感谢大家的收听然后咱们下期再见拜拜!
我想测试是否能够访问外部链接,并且生成对应的播客
最近 claude4 很火,但是大家对 claude4 的能力还不太了解
所以我期望把 claude4 的介绍链接扔给它,生成一个讲解的播客
如下
耗时 10 分钟
最终生成的效果如下,包含播客音频,核心亮点,以及字幕
效果也很棒~
音频
字幕
女生 : 哈喽大家好欢迎收听,我们的播客。然后今天呢我们要聊的就是这个Claude 4系列的这两个模型。他们到底在编码,工具的使用,以及这个 API 的能力上面,有什么样的,独到的优势。
男生 : 嗯,听起来很有意思那我们就赶紧开始吧看看这两个模型到底是怎么在这些领域上面,展现实力的。
女生 : 那我们先来聊一聊这个 Claude 4 它到底有哪些,主要的模型然后它的核心的能力到底表现在什么地方?
男生 : Claude 4 它其实主要就是有两个模型一个是 Claude Opus 4,还有一个是 Claude Sonnet 4.对然后他们两个在很多很多方面都表现出来非常强的能力。
女生 : 那这两个模型在编码能力上面,分别都有哪些,特别的表现呢?
男生 : 首先就是这个 Claude Opus 4 它是被广泛认为是,全球最顶尖的编码模型。对,他在这个 swe bench 上面达到了百分之七十二点五。然后在这个 terminal bench 上面是百分之四十三点二。而且他的这个长时间的编码任务上面的稳定性也是非常的强,比如说他可以连续七个小时。都保持非常高的性能,那这个是远远超过了 Sonnet 系列的。然后包括像 Cursor 还有 Replit 他们都专门有讲过。就是他在理解复杂的代码库,以及做一些精确的修改上面的能力是有非常大的突破的。
女生 : 听起来真的很厉害啊那这个 Sonnet 四是不是也不遑多让?
男生 : 完全没错啊就是 Claude Sonnet 4 它是在这个 swe bench 上面达到了百分之七十二点七。然后这个是比他的上一代,有非常大的提升。然后在这个多文件的修改以及这个自主开发上面的能力也是有非常大的提升。比如说像 I Gent 他们就说他们的这个导航错误率几乎降低到了零。然后包括 GitHub 也选择了它作为他们的这个新的编码代理的基础模型。然后包括 Sourcegraph 他们也说它是一个在软件开发领域的一个巨大的飞跃。
女生 : 那这个 Claude Opus 4 和 Claude Sonnet 4 他们在工具的使用上面。和这个所谓的扩展思维能力上面还有什么特别的地方吗?
男生 : 就是这两个模型它是支持在它的这个思维扩展的过程当中去调用工具的。比如说它可以使用网络搜索。然后它也可以在推理和工具使用之间进行灵活的切换,甚至它还可以并行的使用多个工具。然后来让它的这个结果更加的准确,更加的符合你的指令的要求。
女生 : 这听起来就真的很智能了啊那如果是面对比较复杂的任务呢?
男生 : 如果说这个开发者还允许他访问本地文件的话那他还可以。通过这个内存文件来存储一些关键的信息。然后这样的话就可以让他在一些长期的任务当中可以保持更好的连贯性。然后也可以积累一些隐性的知识,就感觉他好像有一个外部的记忆一样,这个真的非常的实用。
女生 : 然后还有就是这个 Anthropic 的这个 API 最近好像也推出了一些新的功能,然后包括这个 Claude 的这两个模型。他们在这个响应模式上面有什么特别的地方吗?
男生 : 对这次的这个 Anthropic 的 API 它新增了四个功能,一个是这个代码执行工具。还有一个是这个 MCP 连接器,然后还有就是文件的 API,然后还有一个就是可以缓存你的提示一个小时。就是这些东西都是让这个开发者可以更方便的去构建一些更强大的 AI 代理。
女生 : 听起来确实非常的实用啊那这个 Claude 的模型在使用上面有什么,独到的地方吗?
男生 : 就是这两个模型它是一个混合的模型,它既可以给你提供这种几乎是即时的响应。也可以给你提供这种深度推理的扩展思维模式。然后这两种模式呢它是在所有的这个,Claude 的订阅计划里面都是可以使用的。然后 Sonnet 四甚至是对免费用户也开放的。然后它的这个部署也是非常灵活的你可以通过 Anthropic 的 API,然后也可以通过 Amazon Bedrock.然后还可以通过 Google Cloud 的 Vertex AI.
女生 : 那这个 Claude 4 它相比之前的版本在避免走捷径这个方面有哪些改进呢?
男生 : 就是这两个模型它通过这个扩展思维的这种设计,然后以及这个并行工具的执行。还有这个内存能力的提升,它在这种容易出现捷径的这种代理任务上面。出现这种行为的可能性要比 Sonnet 3.7 低百分之六十五。
女生 : 那这个 Claude Opus 4 它的这个内存能力到底有多强?然后这个 Claude 4 系列它的这个思维总结功能又是一个什么样的东西呢?
男生 : 就是这个 Claude Opus 4 它的这个内存能力是远远超过了之前的所有的模型的。然后如果说这个开发者给他访问本地文件的权限的话它还可以。通过这个所谓的内存文件来保存一些关键的信息,然后这样的话它就可以在一些长期的任务当中。有更好的这种连贯性和性能,这个是非常非常厉害的。
女生 : 听起来确实是一个很有用的功能啊那这个思维总结功能呢?
男生 : 这个思维总结功能就是说它会用一个比较小的模型。来把它的这个非常冗长的思维过程进行一个压缩。然后这个过程其实只需要百分之五的时间。然后大部分的情况下他的这个思维过程其实都很短可以直接展示。然后如果你是那种需要完全访问他的这个原始的思维链的这种高级用户的话。你还可以通过这个联系销售来开启这个新的开发者模式来满足你的需求。
女生 : 好的那我们今天就是聊了这个 Claude 4 系列的这两个模型的一些。非常厉害的能力啊无论是这个编码,还是说这个工具的使用还是说这个内存的功能。确实看起来都让人非常的期待未来啊!
男生 : 对以上就是这期播客的全部内容啦然后咱们下期再见拜拜拜拜。
使用方式也很简单
现在扣子空间已经放开了邀请码,大家都可以访问使用
直接在输入框写 prompt
可以上传PDF
也可以在 prompt 里面指定文章或者任何链接
让它直接生成就可以
prompt 案例如下
总结这个网页内容生成播客,链接如下:https://www.anthropic.com/news/claude-4,用中文语言阐述,最终输出一个内容总结,字幕以及音频文件。
加油吧
跳脱出我们的舒适圈
AI 在平权,各方边界在重新定义
之前在群里分享的 veo3 制作的产品宣传海报,效果已经让我很惊艳了
有了声音加成的视频生成效果,如虎添翼
字节扣子空间的这个功能,也是让我眼前一亮~
往期推荐
一个5.2万人都在关注的宝藏 prompt 开源项目,值得收藏学习
Claude 4震撼发布:AI 编程与推理的新里程碑, Claude Opus 4 被称为全球最强编程模型,能连续编码 7 小时
谷歌更新 Deep Research、画布、以及veo3视频生成模型,AI更进一步~
5月20号,Github Copilot Agent 重磅更新!
字节开源扣子(coze)可视化工作流构建引擎 FlowGram
从 0 到 1 的Prompt 教程,来自Claude 官方,不会写 prompt的看这个足够
我是大林,大模型搬砖攻城狮,持续关注 AI。微信(dalinvip2023),备注【公众号 AIGC】,进 AIGC 交流群。
主页:https://www.dalinaip.com/about
如果文章对你有一点点 🤏🏻 帮助,关注公众号并【星标】 ,可以及时收到最新 AI 信息,点赞、在看、转发给更多的朋友,后面我继续分享更多的 AI 内容。