诸子AI
诸子AI
AI智能语音交互
第一个场景,通话使用。 这是大部分智能硬件设计麦克风的主要原因,很多声学做起来感觉很简单的错觉也来源于此。第二个场景,较安静环境下人机交互。 复用第一个场景的声学硬件,第二个场景马马虎虎也能用,虽然部分情况下效果不理想,但是,还没到完全不能用的状态。第三个场景,高噪环境下人机交互。 主要是户外和人流量较多的环境下使用人机交互,第一个场景的声学硬件完全不能使用。对于第一个场景,通话使用,现在的主流芯
163
0
0
0
音视频智能语音交互
声音(目标声音和噪音)一起被智能硬件的麦克风(阵列)采集到,在智能硬件的芯片上通过预处理之后,然后再送往云端进行ASR(语音转文字)。而很多智能硬件识别效果不好的主要原因是因为预处理,也就是声学处理没有做好,才导致识别效果不好。 就像人耳朵一样,没听清楚讲话内容,可不得乱猜一通!现在,云端的语音识别(ASR)可以通过SDK/API进行调用,大厂提供的识别接口背后所使用的算法和效果基本都差不多。毕竟
217
0
0
0