语音助手的自然对话有个隐形挑战:如何准确判断用户是否说完。多数方案要不停顿0.5-1秒才响应,而Smart Turn把这个决策过程压缩到12毫秒,比人类眨眼还快3倍。
最新v3.1版本有两个新改进:
- 新增Liva AI、Midcentury和MundoAI提供的真实人声数据集,英语识别准确率从88.3%提升到95.6%
- 首次推出32MB未量化版本,在NVIDIA L40S上推理仅需2毫秒
这个8MB大小的模型能跑在任何笔记本上。测试数据显示,在AWS c7a.2xlarge实例上完成单次推理仅需9毫秒,而云端标准vCPU约70毫秒。作为对比,人类平均对话停顿间隔是200-300毫秒。
有意思的是,虽然80%训练数据仍是TTS生成的,但团队发现真实人声中那些微妙的呼吸声、语气词等"噪声",恰恰是判断说话状态的关键。三家数据合作伙伴分别贡献了特定场景的语料:
- Liva AI专注不同情绪状态下的对话转折
- Midcentury提供12种语言的跨文化对话样本
- MundoAI采集了16种语言的方言变体
技术团队建议在CPU环境运行时设置两个环境变量,可减少线程竞争带来的性能损耗:
OMP_NUM_THREADS=1
OMP_WAIT_POLICY="PASSIVE"
目前支持的语言包括阿拉伯语、孟加拉语、中文等23种,完整列表已在HuggingFace开源。
这个模型还是挺实用的,就像团队在博客里说的,"自然对话不需要理解每句话,但必须知道什么时候该接话"。
项目地址:https://huggingface.co/pipecat-ai/smart-turn-v3
关注公众号回复“进群”入群讨论。
