ChatTTS 保姆级教程从入门到精通 - 文章 - 开发者社区

ChatTTS 保姆级教程从入门到精通 🚀

大家好，我是猫头虎 🐱🐯

欢迎来到这篇 ChatTTS 保姆级教程！今天我们将深入探讨 ChatTTS，从入门到精通，让你掌握这款强大的文本转语音工具。不论你是初学者还是有一定基础的用户，都能在这篇文章中找到有用的信息。

🚀 一、ChatTTS 简介及安装指南

ChatTTS 是一款为对话场景设计的语音合成模型，专为 LLM 助手任务优化。它不仅支持多语言（中文和英文），还能预测和控制细粒度的韵律特征，包括笑声、停顿和插话等。使用这款工具，你可以实现自然流畅的语音合成，特别适合对话任务。

安装步骤：

创建 conda 环境：

  
conda create -n chattts python=3.9  
conda activate chattts

安装必要的依赖：

  
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia  
pip install omegaconf vocos transformers vector-quantize-pytorch

启动 Web 界面：

  
python webui.py  
python webui.py --server_port=8080

🚀 二、关键参数详解

picture.image

Input text : 在 input text 区域输入你想要 ChatTTs 读的文本，

Generate: 点击 generate
Output audio: 接着等个几十秒。下面output audio 区出现了音频，点击播放即可。

在使用 ChatTTS 过程中，了解和调整关键参数非常重要：

Audio Seed 🎶

含义 : 用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音，便于实验和调试。
推荐 Seed : 3798-知性女、462-大舌头女、2424-低沉男。

Text Seed 📝

含义 : 类似于 Audio Seed，在文本生成阶段用于初始化随机数生成器的种子值。

Refine Text ✨

建议 : 勾选此选项可以对输入文本进行优化或修改，提升语音的自然度和可理解性。

Audio Temperature 🌡️

含义 : 控制输出的随机性。数值越高，生成的语音越可能包含意外变化；数值较低则趋向于更平稳的输出。

Top_P 和 Top_K 📊

Top_P : 核采样策略，定义概率累积值，模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
Top_K : 限制模型考虑的可能词汇数量，设置为一个具体数值，模型将只从这最可能的 K 个词中选择下一个词。

🚀 三、进阶使用技巧

picture.image

除了基本的参数设置，你还可以通过本地部署 Web UI 或 API 的方式进行更细粒度的控制，比如调整笑声、停顿和口音。以下是一些常用的控制标记：

[oral_(0-9)] : 控制口音强度
[laugh_(0-2)] : 控制笑声
[break_(0-7)] : 控制停顿时间

试试不同的组合，比如 [oral 2][laugh 0][break 4]，探索更多有趣的语音效果。

picture.image

🚀 四、实战经验分享

在实际使用 ChatTTS 过程中，有几点需要注意：

避免使用标点和阿拉伯数字 ：当前版本对中文标点和阿拉伯数字支持有限，建议转换为读音友好的形式。
处理长文本 ：ChatTTS 目前对超过 30 秒的音频效果不佳，需要手动修复。
字母间隔 ：确保字母之间用空格分割，否则会被当作一个单词读取。

总结

通过本文，你应该对 ChatTTS 有了更全面的了解和掌握。从基础安装到关键参数设置，再到高级使用技巧，希望这些内容对你有所帮助。如果你对生成的声音不满意，可以尝试调整 Audio Seed。欢迎大家扫描下方二维码，加入我们的交流群，与更多爱好者交流学习经验。

🌟 扫码进群，关注我 🌟

picture.image

QR Code

在线体验入口：https://huggingface.co/spaces/Dzkaka/ChatTTS

谢谢大家的阅读！更多精彩内容，请继续关注猫头虎的公众号，我们下期再见！👋