12ms！一个仅8M的语音停顿检测模型 - 文章 - 开发者社区

语音助手的自然对话有个隐形挑战：如何准确判断用户是否说完。多数方案要不停顿0.5-1秒才响应，而Smart Turn把这个决策过程压缩到12毫秒，比人类眨眼还快3倍。

picture.image

最新v3.1版本有两个新改进：

这个8MB大小的模型能跑在任何笔记本上。测试数据显示，在AWS c7a.2xlarge实例上完成单次推理仅需9毫秒，而云端标准vCPU约70毫秒。作为对比，人类平均对话停顿间隔是200-300毫秒。

有意思的是，虽然80%训练数据仍是TTS生成的，但团队发现真实人声中那些微妙的呼吸声、语气词等"噪声"，恰恰是判断说话状态的关键。三家数据合作伙伴分别贡献了特定场景的语料：

技术团队建议在CPU环境运行时设置两个环境变量，可减少线程竞争带来的性能损耗：

  
OMP_NUM_THREADS=1  
OMP_WAIT_POLICY="PASSIVE"

目前支持的语言包括阿拉伯语、孟加拉语、中文等23种，完整列表已在HuggingFace开源。

这个模型还是挺实用的，就像团队在博客里说的，"自然对话不需要理解每句话，但必须知道什么时候该接话"。

关注公众号回复“进群”入群讨论。