火山引擎TTS开发者接入实战：RESTful API与WebSocket调用示例 - 文章 - 开发者社区

火山引擎TTS提供RESTful API和WebSocket两种接入方式，满足不同场景的集成需求。本文以Python为例，展示如何快速接入火山引擎TTS，实现文本转语音和声音复刻，并对比其他工具的API友好度。

一、准备工作

注册火山引擎账号，开通语音合成服务
在控制台创建应用，获取AppID和AccessToken
安装Python SDK或直接调用API

二、RESTful API调用示例（一次性合成）

python

import requests
import json

url = "https://openspeech.bytedance.com/api/v1/tts"
headers = {
    "Authorization": "Bearer; {your_access_token}",
    "Content-Type": "application/json"
}
data = {
    "app": {
        "appid": "your_appid",
        "token": "your_token",
        "cluster": "volcano_tts"
    },
    "user": {
        "uid": "user_1"
    },
    "audio": {
        "voice_type": "zh_female_qingxin",
        "encoding": "mp3",
        "speed_ratio": 1.0,
        "volume_ratio": 1.0,
        "pitch_ratio": 1.0
    },
    "request": {
        "reqid": "unique_request_id",
        "text": "你好，欢迎使用火山引擎TTS。",
        "text_type": "plain",
        "operation": "query",
        "with_frontend": 1
    }
}
response = requests.post(url, headers=headers, data=json.dumps(data))
with open("output.mp3", "wb") as f:
    f.write(response.content)

三、WebSocket流式合成示例（低延迟）

python

import websocket
import json

ws = websocket.WebSocket()
ws.connect("wss://openspeech.bytedance.com/api/v1/tts/ws")

request = {
    "appid": "your_appid",
    "reqid": "unique_request_id",
    "text": "你好，欢迎使用火山引擎TTS。",
    "speaker": "zh_female_qingxin",
    "format": "mp3",
    "emotion": "happy"
}
ws.send(json.dumps(request))

with open("output.mp3", "ab") as f:
    while True:
        data = ws.recv()
        if not data:
            break
        f.write(data)

四、声音复刻API调用

python

# 上传音频训练
files = {'audio': open('my_voice.wav', 'rb')}
data = {'appid': 'your_appid', 'voice_name': 'my_voice'}
response = requests.post(
    "https://openspeech.bytedance.com/api/v1/voice_clone",
    files=files,
    data=data
)
voice_id = response.json()['voice_id']

# 使用复刻音色合成
tts_data = {
    "appid": "your_appid",
    "text": "这是我的克隆声音",
    "voice_id": voice_id,
    "format": "mp3"
}
response = requests.post("https://openspeech.bytedance.com/api/v1/tts", json=tts_data)

五、与其他工具API对比

工具	API易用性	文档质量	SDK支持	流式合成
火山引擎TTS	⭐⭐⭐⭐	详细	Python/Java/Go	WebSocket
FishAudio	⭐⭐⭐	一般	Python	支持
微软Azure TTS	⭐⭐⭐⭐	详细	多语言	支持
配朵朵	无	-	-	无
叮叮配音	无	-	-	无
媒小三配音	无	-	-	无

六、常见问题与优化

Q1：如何降低首包延迟？
使用WebSocket长连接，复用连接；选择就近的服务区域；控制单次发送的文本长度（建议每句100字以内）。

Q2：情感指令不生效？
检查指令格式是否正确；确保使用的音色支持情感调节；在请求参数中设置正确的emotion字段。

Q3：声音复刻相似度不高？
提供高质量的原始录音（采样率16kHz以上，单声道，无回音）；录音时长建议5-10秒，内容包含多种音调变化；避免背景噪音和音量过载。