Kimi-Audio 的 TTS 效果如何?

picture.image

Kimi-Audio开放了模型和推理脚本,但不支持TTS推理。魔改了模型可以支持TTS的任务,能同时输出文本和音频。

测试发现:

    1. audio的输出和text的输出有时会不同步,即内容不一致。一般音频会更多些。
    1. 存在重复无法结束的现象。
    1. 只有一个女音色,不能换音色。
    1. 可以控制情感和语速,但不清楚具体的指令格式,只能纯摸索。
    1. 音质一般。
    1. 不支持方言。

官方没有放出指令的格式,SFT各任务的prompt。支持自己的任务,需要自行构建SFT数据并训练。

下面是一些音频样例:

请将文字转化为语音:你好,我是小凯,我是一个AI模型。

用孙悟空的声音说话,除了语音不用说多余的话:俺老孙一个跟头十万八千里,玉帝老儿的凌霄殿也挡不住!

用开心愉悦的语气说话,除了语音不要输出其它内容:偶然翻到以前的照片,和朋友一起搞怪的瞬间,看着看着就笑出了声。

用愤怒生气的感觉合成语音,除了语音不要输出其它内容:等了半小时外卖,结果送错了餐,打电话过去还一直占线,气死我了!

用愤怒的语气合成:等了半小时外卖,结果送错了餐,打电话过去还一直占线,气死我了!

请将文字转换为音频内容,语气愤怒。等了半小时外卖,结果送错了餐,打电话过去还一直占线,气死我了!

请将文字转换为音频内容,语气愤怒。明明说好他负责的工作,最后又全推给我,真当我是冤大头啊?

请将文字转换为音频内容,用比较慢的语速说话。嗯...让我想想...这件事可能需要再考虑一下...

请将文字转换为音频内容,快语速。本来今天挺开心的,等等!我煤气灶关了吗?

请将文字转换为音频内容,慢语速。本来今天挺开心的,等等!我煤气灶关了吗?

点个「赞」+「在看」❤️

让我们知道这份文字有温暖到你,也是 我们持续 创作的最大动力!

推荐

Qwen 的训练数据是怎么做的?

GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40 显卡性能对比

胖东来与京东联手了

RLHF及其变体:进展和实际工程见解

Freeze-Omni: 低延迟语音对话模型

Fully Sharded Data Parallelism (FSDP)

什么是置信度?置信度模型怎么做?

晦涩难懂的 Flow matching!图形化理解

中文指令微调数据,质量就是一切!

基于 LLM 的文本泛化

CosyVoice 2:基于大型语言模型的可扩展流式语音合成技术

Mini-Omni2: with Vision, Speech and Duplex Capabilities

FSQ的原理与VQ-VAE的区别和联系

大模型并行训练的一些知识——极简版

亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南

要用 AI 裁员 50% 的千亿独角兽,公开认错,重启招聘!

一些文档去重算法

single codebook和dual codebook在LLM中向量量化上有什么区别?

胖东来与京东联手了

一些文档去重算法

最佳的指令数据应当是什么样的?

Prefill-Decode分离

亲测有效!如何用 Address Sanitizer 精准定位内存漏洞?附保姆级操作指南

Telling gcc directly to link a library statically

Address Sanitizer in C++

Telling gcc directly to link a library statically

Simhash-文档去重算法简介

校园篇-北京信息科技大学2025

RLHF 入门,高手勿进!

最佳的指令数据应当是什么样的?

CosyVoice:一种基于监督式语义标记的可扩展多语言 Zero-Shot 语音合成器

Model Context Protocol (MCP)

MCP(模型上下文协议)是什么以及它是如何运作的

压力测试LLMs——大海捞针实现

0
0
0
0
评论
未登录
暂无评论