简介
本月,MiniMax针对 语音大模型 进行重大升级,合成效果显著提升,同时发布 T2A large接口 支持超长文本场景。另外,MiniMax正式上线 知识库检索API ,支持高效检索文档信息。最后,MiniMax开放平台官网进行 全新改版升级 ,新增和优化多项功能,让用户拥有更加流畅、便捷的使用体验。
语音大模型更新
MiniMax语音大模型进行全面更新,在 节奏韵律的自然度、情感表达的丰富度与中英双语的融合度 方面实现显著升级。升级范围包括T2A接口、T2A pro接口与语音体验中心。
节奏更自然、情感更丰富
MiniMax语音大模型能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音,本次升级更是优化了 语音的流畅度和韵律感 ,同时增强了语音在 情感表达时的张力与细腻度 ,使复刻效果 更为逼真 。
中英混合更流畅
MiniMax语音大模型能在不同语种间实现自由转换,本次升级更是针对 含有英文短句的中英混合场景 实现效果提升,使听觉体验 更自然流畅 。
T2A large接口 上线
本次上线的T2A large(异步超长文本语音合成)接口,是继T2A和T2A pro接口后, 专为处理庞大篇幅文本 的全新接口。该接口尤其适用于 整本有声读物 的制作场景,它能够一次性处理像《红楼梦》这样的长篇作品,同时支持多参数调整,提供简洁实用的解决方案。
*注:T2A large接口为异步接口,在提交长文本语音合成请求后,合成结果在提交之日次日起7天内完成(T+7),音频文件在服务端可保存7天。
适用超长文本合成场景
一次性针对整本书籍进行语音合成 ,最高可支持1000万字符输入
丰富的接口功能
在T2A接口的基础上,支持单次合成最高 1000万字符 输入
支持 非法字符检测
支持 语调、语速、音量、比特率、采样率 相关参数调整特性
支持 音频时长、音频大小 等返回参数
支持 时间戳(字幕)返回 ,精确到句
知识库检索接口上线
MiniMax本月不仅在语音方面进行全面升级,还上线了知识库检索功能。通过支持 高效检索文档中的特定信息 ,该接口能助力大模型进行更为 精准、有针对性的回答 ,适用客服、问答等多元场景。
支持高效、精准检索文档信息
Retrieval(知识库检索)接口 :通过支持高效检索文档信息,为大模型补充相关领域知识,准确回答专业问题
File(文档)接口 :通过上传pdf、docx、txt格式的文档,与知识库检索等功能配合使用,实现信息检索
功能发布
语音接口参数提升
默认采样率提升至 32k, 提升音频音质
语音体验中心更新
新增混音: 增加双音色混音,可以通过混音提供不同的音色选择与可能性
新增voiceid输入: 前置音色权重都调整为0,则音色输入以输入的voiceid为准,极大方便使用音色复刻的客户直接进行调用
新增参数: 新增比特率、采样率参数调整特性
用户注册与账户管理优化
开放平台官网注册流程优化为手机号注册
用户可自助修改/重置登录密码
用户可自助换绑邮箱号
企业认证增加文案引导,优化认证流程
开放平台移动端页面优化完成
将开放平台的文档中心、文本体验中心、场景示例与登录/注册部分进行优化,使之与移动端更加适配
开放平台首页改版升级
大模型介绍: 拆分语音大模型场景介绍,方便用户快速找到所需模型类型
适用场景: 增加各场景的语音demo,方便用户快速体验语音大模型
客户案例: 新增头部客户案例,增强客户对MiniMax产品及服务价值的理解
Embeddings(向量)
接口正式收费
Embeddings接口使用MiniMax自研embo-01模型,在单独使用该接口时的具体计费价格为0.0005元/1000token
点击文末链接 ,进入MiniMax开放平台官网,即可实时查看平台最新动态~
联系我们
更多咨询详见官网
商务合作请联系
op
点击查看平台最新动态