Kimi-Audio开放了模型和推理脚本,但不支持TTS推理。魔改了模型可以支持TTS的任务,能同时输出文本和音频。
测试发现:
-
- audio的输出和text的输出有时会不同步,即内容不一致。一般音频会更多些。
-
- 存在重复无法结束的现象。
-
- 只有一个女音色,不能换音色。
-
- 可以控制情感和语速,但不清楚具体的指令格式,只能纯摸索。
-
- 音质一般。
-
- 不支持方言。
官方没有放出指令的格式,SFT各任务的prompt。支持自己的任务,需要自行构建SFT数据并训练。
下面是一些音频样例:
请将文字转化为语音:你好,我是小凯,我是一个AI模型。
用孙悟空的声音说话,除了语音不用说多余的话:俺老孙一个跟头十万八千里,玉帝老儿的凌霄殿也挡不住!
用开心愉悦的语气说话,除了语音不要输出其它内容:偶然翻到以前的照片,和朋友一起搞怪的瞬间,看着看着就笑出了声。
用愤怒生气的感觉合成语音,除了语音不要输出其它内容:等了半小时外卖,结果送错了餐,打电话过去还一直占线,气死我了!
用愤怒的语气合成:等了半小时外卖,结果送错了餐,打电话过去还一直占线,气死我了!
请将文字转换为音频内容,语气愤怒。等了半小时外卖,结果送错了餐,打电话过去还一直占线,气死我了!
请将文字转换为音频内容,语气愤怒。明明说好他负责的工作,最后又全推给我,真当我是冤大头啊?
请将文字转换为音频内容,用比较慢的语速说话。嗯...让我想想...这件事可能需要再考虑一下...
请将文字转换为音频内容,快语速。本来今天挺开心的,等等!我煤气灶关了吗?
请将文字转换为音频内容,慢语速。本来今天挺开心的,等等!我煤气灶关了吗?
点个「赞」+「在看」❤️
让我们知道这份文字有温暖到你,也是 我们持续 创作的最大动力!
推荐
GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比
Fully Sharded Data Parallelism (FSDP)
CosyVoice 2:基于大型语言模型的可扩展流式语音合成技术
Mini-Omni2: with Vision, Speech and Duplex Capabilities
亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南
要用 AI 裁员 50% 的千亿独角兽,公开认错,重启招聘!
single codebook和dual codebook在LLM中向量量化上有什么区别?
亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南
Telling gcc directly to link a library statically
Telling gcc directly to link a library statically
