对Ticwatch手表说“你好问问”就能唤醒语音助手,请问这是什么原理?
3 个回答
——————————————————分割线————————————————
语音识别原理
一般的语音识别系统很庞大,一般的移动设备根本无法搭建,因此目前大多数语音识别技术都在搭在云端,就是说你必须联网。
一个完整的语音交互系统包括语音识别、语音合成(TTS)、语义理解、垂直搜索、智能推送等部分。
“你好问问”这种离线语音识别技术主要包括语音识别、实时监听。
首先说说语音识别的技术。
1、我们知道语音是一种声波,要识别这个声波首先是分帧(也就是切割声音)。
2、但声波只是数据,我们要从中提取信息,于是就有了“变换与特征提取”,这里提取的特征就是人耳能理解的特征,表示方式是机器能理解的一系列多维向量。
3、之后就是把特征向量输入到程序中(目前主要用深度神经网络DNN,尤其是DCNN),把特征识别成S音标(或者说音素)。这里提到了音素,啥是音素呢?不是a/b/c/d,而是元音、辅音,英语是48个音素。对应的,汉语是声母、韵母。其实这里面还有一个“音素的状态”,是比音素更细致的东西,暂不提。
4、把音素组合成单词或者汉字拼音。这个就比较好理解,对吧?一个汉字拼音或者一个英文单词都是由好些个音素组成的。
5、把好些汉字读音们识别成汉字们。汉字呢,有好多重音字,比英文单词更复杂些。比如“变换”、“变幻”。此时肯定是没法理解的,必须放在语境中去。这就需要大量的词库啦。
说简单点:
1、把声波切割成帧。
2、在帧中提取特征向量。
3、把特征向量组成音素。
4、音素组合成拼音。
5、拼音映射成汉字。
———————————————————分割线—————————————————
“你好问问”背后的历史
先从出门问问CTO雷欣说起。他以前是Google总部Staff Research科学家、谷歌语音搜索开发者,领导开发了基于深度神经网络(DNN)的离线语音识别系统。
以下是雷欣的资料:
【最具价值CTO评选秀】出门问问CTO雷欣:从技术极客到核心管理的秘密-CSDN.NET
后来,出门问问在2013年上线了深度神经网络(DNN)系统,并与约翰霍普金斯大学(The Johns Hopkins University)语研究组保持合作关系——这个学校是CEO李志飞母校。
为了让你用语音撩妹 这家公司做了这些
离线语音识别是个啥
离线语音识别的难点在于这个汉字词库不能太大、占用CPU不能太多,实时监听时功耗不能太高。这就有个采样的问题。每家技术都不太一样。说简单就是低功耗、离线的语音识别系统。
因为限制比较多,目前国内外能做到这一点的公司不太多(需要聘请大量高学历的科研人员呀)。国内没几家,出门问问是一个。难就难在语音识别系统很庞大,要用到云,一般的移动设备根本无法搭建。目前大多数语音识别技术都在搭在云端的,就是说你必须联网。
具体技术环节两句话讲不清。我先给你说一下背后的故事,新浪新闻《李志飞从0实现“你好问问”语音搜索》: 李志飞:出门问问打造“你好问问”语音搜索 。
这里面讲了一些技术实现原理《为了让你用语音撩妹 这家公司做了这些》 为了让你用语音撩妹 这家公司做了这些
下面两个是程序的实现方式,比较烧脑:
Speech SDK 做离线语音识别:
http:// blog.163.com/charlie_ru zhen/blog/static/977378282009817101716761/
Android平台使用PocketSphinx做离线语音识别,小范围语音99%识别率
——————————————————分割线——————————————————
延伸阅读:出门问问历史及出门问问现有产品(连接中给出了出门问问的产品)
你好问问(出门问问APP那个搜索热词)的技术原理是什么?
需要指出的是,不管是公众号还是APP、软件还是硬件,上面提到的这些产品都和出门问问“人工智能语音交互技术”离不开,其使用了DNN(深度神经网络,打败李世石的围棋程序AlphaGo也使用DNN算法)。这是出门问问的核心。