Kimi-Audio 的 TTS 效果如何？ - 文章 - 开发者社区

picture.image

Kimi-Audio开放了模型和推理脚本，但不支持TTS推理。魔改了模型可以支持TTS的任务，能同时输出文本和音频。

测试发现：

官方没有放出指令的格式，SFT各任务的prompt。支持自己的任务，需要自行构建SFT数据并训练。

下面是一些音频样例：

请将文字转化为语音:你好，我是小凯，我是一个AI模型。

用孙悟空的声音说话,除了语音不用说多余的话:俺老孙一个跟头十万八千里，玉帝老儿的凌霄殿也挡不住！

用开心愉悦的语气说话,除了语音不要输出其它内容:偶然翻到以前的照片，和朋友一起搞怪的瞬间，看着看着就笑出了声。

用愤怒生气的感觉合成语音,除了语音不要输出其它内容:等了半小时外卖，结果送错了餐，打电话过去还一直占线，气死我了！

用愤怒的语气合成:等了半小时外卖，结果送错了餐，打电话过去还一直占线，气死我了！

请将文字转换为音频内容，语气愤怒。等了半小时外卖，结果送错了餐，打电话过去还一直占线，气死我了！

请将文字转换为音频内容，语气愤怒。明明说好他负责的工作，最后又全推给我，真当我是冤大头啊？

请将文字转换为音频内容，用比较慢的语速说话。嗯...让我想想...这件事可能需要再考虑一下...

请将文字转换为音频内容,快语速。本来今天挺开心的，等等！我煤气灶关了吗？

请将文字转换为音频内容,慢语速。本来今天挺开心的，等等！我煤气灶关了吗？

点个「赞」+「在看」❤️

让我们知道这份文字有温暖到你，也是我们持续创作的最大动力！