数百万小时，6秒，万分之五｜效果不输 ElevenLabs 和 OpenAI, MiniMax 语音大模型能用来做什么？ - 文章 - 开发者社区

从 0 到 1 的 MiniMax 语音大模型

2023 年 11 月，MiniMax 发布语音大模型 abab-speech-01。从 11 月至今，共有超过 400 家企业用户接入我们的语音大模型。

在实际应用中，来自各行各业的用户给我们反馈了很多好的建议和想法。例如，在 复刻有声书 场景下，市面上没有可以批量、快速生成多角色音频的解决方案；在 直播电商 等注重互动性的场景中，各家现有语音能力仍无法做到实时，在生成语音的过程中仍需一定的等待时间，非常影响用户体验；在 教学场景 中，模型碰到特殊字词或者多音字的情况，时常存在发音不准确的问题。

为了给用户带来更加高效、丰富和真实的语音定制体验，我们不断迭代 MiniMax 语音大模型，并基于用户高优需求新增语音 API 接口，并上线了多个产品功能。 MiniMax 是目前第一个开放多角色配音商用接口的公司。

在模型基础能力上，我们的语音模型对长达 数百万小时 的高质量音频数据进行训练，基于它的训练结果，仅用 6 秒 的音频就能完成音色复刻，基于文本生成语音的字错率低至 万分之五 ，已达到全球顶尖水平。

针对用户的高优需求，我们新增了以下产品功能：

三个 API 接口： 多角色音频生成 API、文本角色分类 API 和快速复刻 API，帮助用户自主批量生成、克隆多角色音频；

多语种能力、字典和间隔时长控制， 满足用户丰富的定制化需求，提升教学场景体验

T2A Stream （流式语音输出） 实现生成与输出的同步，减少用户在直播、对话等场景的等待时间。

为了让更多用户体验、使用我们的技术，我们在价格上也做出了调整： T2A Pro、T2A、T2A Stream 等 价格下调为原先的一半 ，由 10 元/万字符降至 5 元/万字符 。

具体功能价格调整见下表：

picture.image

声音小剧场

由于语音模型没有公开的测评集，衡量一个语音模型到底怎么样主要依靠几个比较主观的评判标准，例如：自然度、相似度，可懂度和情感表现等。以下是几个基于我们语音大模型生成、复刻的一些语音效果。大家可以听听看，欢迎拍砖：）

中英文夹杂读着毫无压力

文本：

哎，你说你特别想念某个东西，可以说"I really miss it a lot" 或者"I'm missing it terribly." 这样表达出你的感情。有什么特别想念的嘛？想聊聊吗？

声音1（明杰）：

声音2（晨曦）：

声音3（祁辰）：

跨语种复刻，比原声更自然

文本：

别担心，犯错是学习的一部分，下次你会做得更好的。Don't worry, making mistakes is part of learning. You'll do better next time.

原声音频（童声）：

复刻音频（中+英）：

只用中文原声，也可以复刻出他们讲中、英、日、韩等多种语言的声音：

韩语：

日语：

AI 嬛嬛和四爷，

有没有甄嬛十级学者来检验一下效果？

多音字绕口令也难不倒！

真人都不一定能读准的多音字绕口令，我们的语音模型可以：）出现多音字的绕口令对语音模型理解上下文提出了很高要求。

“人要是行，干一行，行一行，一行行，行行行，行行行，干哪行都行”

实时语音通话，跟小海螺打电话吧

MiniMax 不仅为企业用户和开发者提供语音相关的 API，也为普通用户打磨了多款含有语音功能的产品。例如，我们在 AI 助手 海螺问问 上线了实时语音通话功能——无论你遇到什么问题，都可以随时打电话给小海螺，就像在和朋友聊天一样轻松、自然。小海螺的反应比 ChatGPT 的语音功能还快哦，快来体验一下吧！

唱AI嘻哈

节奏感强、唱腔复杂的饶舌说唱，我们的模型也能够超酷演绎。

想和 AI battle 说唱的朋友可以打开链接尝试：

https://m.xingyeai.com/tag/2760001

听听企业客户和个人开发者怎么说

起点读书

起点读书选择 MiniMax 是因为语音效果的逼真程度让他们很惊喜。“语音的情感表达、节奏控制更接近真人，而且居然有吸气动作！” 起点读书评价。目前，起点读书应用上使用了 MiniMax 语音大模型，为听书用户提供基于小说原文的 AI 朗读服务。

猎豹移动

猎豹的使用场景和很多社交娱乐应用类似：为不同的 AI 虚拟角色打造不同的声音，让用户在聊天的过程更为沉浸。在接入 MiniMax 语音大模型 API 前，猎豹尝试了很多方案，例如请声优录制声音数据后自己训练声音模型。也尝试接入过包括腾讯阿里在内的其他第三方语音服务。但前者成本高、周期长，效率低，后者接口昂贵、可选声线太少、声音机械不够自然。 “我们反复对比测试了市面上多种语音服务、开源技术，最终因为 MiniMax 出色的功能和效果，我们选择了它，”猎豹告诉我们。“MiniMax 提供了‘混和音色’功能，能够像调色盘一样通过各种基础音色来混合调制出我们想要的音色，MiniMax 解决了我们对语音功能‘自然’、‘丰富’、‘自定义’的需求。”

雷鸟科技

TCL 旗下的雷鸟科技在电视上的少儿应用和虚拟人聊天的场景内也接入了 MiniMax 语音大模型。 “之前大部分使用了传统 TTS 语音技术，”雷鸟科技表示。“虽然，TTS 语音技术比较成熟，但是拟人度还是与新一代语音大模型上存在差距。MiniMax 的最大优点在于声音拟真能力，官网也提供了多个公网音色可以直接通过混音在多个场景使用，音色丰富度高且调用方便。”

好未来

去年春天，好未来通过程序员和创意工作者了解到 MiniMax 的语音大模型。随后，便接入 MiniMax 语音生成能力生产内容，并应用于智能硬件及不同教学内容中。

“我们之前使用过科大讯飞和微软 Azure 等服务。大语言模型驱动的创新模式和更自然的输出结果对我们的内容生产效率有很大提升。”

高途

另一个教育行业的应用案例是和高途的合作。MiniMax 为高途旗下数字人“文勇老师”提供了语音生成服务。“文勇老师”可以和学生 1V1 问答，实现互动式授课与教学。高途说，“MiniMax 的模型实现的语音效果是各家之中最好的，流畅度、自然度，音色的复刻还原度，都最能贴合 AI 数字人老师的使用场景。”

哄哄模拟器

上周，AI 应用哄哄模拟器爆火全网。上线第一天，就积累了 60 万用户。这款应用现在不仅可以模拟哄虚拟女友，还可以哄虚拟男友和老板。作为这款爆红应用的开发者，王登科觉得光有文字回复不够，应该增加语音功能，让用户有更沉浸的体验。在尝试了市面上不同的语音解决方案后，登科选择接入 MiniMax 的语音 API。“ 之前觉得最好的（语音提供方）是微软的 Azure TTS，”登科说。“结果发现你们比他们的还要好。模型的语义识别非常强，文字内容能很准确的反映到音色上。” 他解释道，比如，愤怒有愤怒的声音，开心有开心的感觉。而且，细微停顿都非常自然！

希望这篇文章能让大家更好的了解 MiniMax 语音大模型及支持的实际应用场景。欢迎有需求的企业客户和开发者去 MiniMax 开放平台体验，一起探索更多的玩法和实践 :) 想尝试我们语音功能的朋友们，也可以去应用商店下载 MiniMax 旗下的产品 海螺问问 和星野体验哦。

星野官网 https://www.xingyeai.com/ ｜海螺问问官网 https://hailuoai.com/

保持耐心，不断进化。

Intelligence with everyone.

联系我们

picture.image

更多咨询详见官网

https://api.minimax.chat

商务合作请联系

open-platform@minimaxi.com

picture.image