告别天价API账单！开源Chatterbox语音服务器上线，隐私与效率双赢！ - 文章 - 开发者社区

在需要高质量语音合成的场景中，第三方API（如ElevenLabs）不仅成本高昂，还可能带来隐私泄露风险，而直接部署开源模型往往配置复杂。

开源TTS与自托管的兴起，可以帮助我们很好的解决这一大痛点！

一款由devnen团队开源的TTS语音服务项目：Chatterbox-TTS-Server ，可以帮助绝大多数人简单、高效的运行自己的TTS语音服务。

picture.image

它是基于Resemble AI的Chatterbox TTS模型打造的开源自托管语音合成服务器，实际是一个开源FastAPI服务器，提供了直观的Web界面、OpenAI兼容API和强大的声音克隆功能，支持GPU加速和Docker部署。

功能亮点

• 自带 Web UI 界面 ：现代Web界面，支持文本输入、参数调优，直观易用。
• 声音克隆 ：可上传参考音频，生成相似语音声音。
• 预定义声音库 ：多种高质量合成声音可选，固定seed确保一致性。
• 智能长文本处理 ：自动按句子分块，逐块生成音频并无缝拼接，突破单次生成限制。
• OpenAI兼容API ：tts端点兼容OpenAI格式，轻松集成到现有项目。
• GPU加速 ：支持CUDA，RTX 3090生成实时或更快。
• Docker部署 ：一键Compose部署，容器化支持云端/本地。

安装与部署

Chatterbox-TTS-Server 的安装同大部分开源项目一样，只需要按照固定步骤进行即可。

前提：准备好相应的硬件条件及Python环境。

① 下载项目


 
 
 
 
   
git clone https://github.com/devnen/Chatterbox-TTS-Server.git  
cd Chatterbox-TTS-Server

② 创建虚拟环境


 
 
 
 
   
# windows  
python -m venv venv  
.\venv\Scripts\activate  
  
# linux  
python3 -m venv venv  
source venv/bin/activate

③ 安装依赖


 
 
 
 
   
# 适合无GPU的硬件环境  
pip install --upgrade pip  
pip install -r requirements.txt  
  
# 适合拥有英伟达GPU的硬件环境  
pip install --upgrade pip  
pip install -r requirements-nvidia.txt  
  
# 适合拥有AMD GPU的硬件环境  
pip install --upgrade pip  
pip install -r requirements-rocm.txt

拥有英伟达GPU的环境，执行完以上步骤，可以使用下面的命令验证下：


 
 
 
 
   
python -c "import torch; print(f'PyTorch version: {torch.\_\_version\_\_}'); print(f'CUDA available: {torch.cuda.is\_available()}'); print(f'Device name: {torch.cuda.get\_device\_name(0) if torch.cuda.is\_available() else None}')"

如果 CUDA 可用：显示 True，则你的设置正确！

同理，拥有AMD GPU环境的，可以执行以下命令验证：


 
 
 
 
   
python -c "import torch; print(f'PyTorch version: {torch.\_\_version\_\_}'); print(f'ROCm available: {torch.cuda.is\_available()}'); print(f'Device name: {torch.cuda.get\_device\_name(0) if torch.cuda.is\_available() else None}')"

如果ROCm可用：显示True，则你的设置正确！

同时该项目也提供了Google Colab演示脚本，及详细的Docker部署方法，详情指南可以在项目Readme文档下查看。

picture.image