12ms!一个仅8M的语音停顿检测模型

智能语音交互大模型GPU

语音助手的自然对话有个隐形挑战:如何准确判断用户是否说完。多数方案要不停顿0.5-1秒才响应,而Smart Turn把这个决策过程压缩到12毫秒,比人类眨眼还快3倍。

picture.image

最新v3.1版本有两个新改进:

  1. 新增Liva AI、Midcentury和MundoAI提供的真实人声数据集,英语识别准确率从88.3%提升到95.6%
  2. 首次推出32MB未量化版本,在NVIDIA L40S上推理仅需2毫秒

这个8MB大小的模型能跑在任何笔记本上。测试数据显示,在AWS c7a.2xlarge实例上完成单次推理仅需9毫秒,而云端标准vCPU约70毫秒。作为对比,人类平均对话停顿间隔是200-300毫秒。

有意思的是,虽然80%训练数据仍是TTS生成的,但团队发现真实人声中那些微妙的呼吸声、语气词等"噪声",恰恰是判断说话状态的关键。三家数据合作伙伴分别贡献了特定场景的语料:

  • Liva AI专注不同情绪状态下的对话转折
  • Midcentury提供12种语言的跨文化对话样本
  • MundoAI采集了16种语言的方言变体

技术团队建议在CPU环境运行时设置两个环境变量,可减少线程竞争带来的性能损耗:

  
OMP_NUM_THREADS=1  
OMP_WAIT_POLICY="PASSIVE"

目前支持的语言包括阿拉伯语、孟加拉语、中文等23种,完整列表已在HuggingFace开源。

这个模型还是挺实用的,就像团队在博客里说的,"自然对话不需要理解每句话,但必须知道什么时候该接话"。

项目地址:https://huggingface.co/pipecat-ai/smart-turn-v3

关注公众号回复“进群”入群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论