刚刚，OpenAI又发新货！3新模型+1个新网站，语音识别比Whisper更强！ - 文章 - 开发者社区

🍹

Insight Daily

🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

就在刚刚，OpenAI 又出新货了。

三个音频模型：gpt-4o-mini-tts（文字转语音），gpt-4o-transcribe 和 gpt-4o-mini-transcribe（语音转文字）。

新的 SOTA Speech2Text 模型（明显优于 Whisper 3），而新的文本转语音模型，允许提示个性和情感。

在 FLEURS 测试里，两个 transcribe 模型的错误率比 Whisper 低多了。

图里比的就是 "词错误率" (WER)，WER 越低，模型转录就越准确，性能就越好。看柱状图，颜色深的柱子是 OpenAI 新模型，浅色的是其他模型，柱子越矮越好。

picture.image

上：与自己模型对比；下：与市面其他模型对比

结果很明显，无论是和 Whisper v2/v3 比，还是和 Gemini、scribe-v1、nova-2 & nova-3 这些模型比，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的 WER 都更低，这意味着它们在转录准确率上，全面超越了之前的模型。

而且，新模型在 FLEURS 这个涵盖 100 多种语言的 benchmark 上都表现出色，语言覆盖和多语种能力也大幅提升。

服务于企业级 AI 客服代理的

Decagon公司表示：这个新的语音转文本模型在嘈杂或带口音的语音中具有更高的准确度，

picture.image

而gpt-4o-m ini-t ts：允许用户不仅指定模型说什么，还可以指定怎么说，这为客户服务和创意叙事等各种用例提供了更定制化的体验。

picture.image

这个文本转语音的，官方给了一个交互网站：https://www.openai.fm/

picture.image

但也有人发现，这模型对日语好像不太灵光，有些字会跳过去，估计是日

语数据练得还不够。

英语的挺好，中文的我试了一下感觉也就一般吧。国内的豆包、 minmax好多了。

三款模型定价如下：

picture.image

不少网友表示。这次价格良心，跟之前的 Whisper 差不多，mini 版更便宜。

这两套模型下来又为开发提供了新的方向和可能，还是挺有用的：

picture.image

最后，这个交互网站也不错：

🌟 知音难求，自我修 **炼亦艰，

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）。**

参考链接：

[1] http s://web.lmarena.ai/leaderboard

点这里👇关注我，记得标星哦～