对Ticwatch手表说“你好问问”就能唤醒语音助手,请问这是什么原理?

最近在用这个手表,从语音命令到执行背后是什么原理,与硬件有关吗?
关注者
16
被浏览
8,797

3 个回答

这个吧,“你好问问”是出门问问设计的语音热词,用于唤醒语音搜索服务。智能手表Ticwatch、出门问问手机APP等产品中有用到“你好问问”热词。与Siri需要按键开启、在网络下才能正常使用不同,“你好问问”这一热词使用了离线语音唤醒技术。

——————————————————分割线————————————————


语音识别原理


一般的语音识别系统很庞大,一般的移动设备根本无法搭建,因此目前大多数语音识别技术都在搭在云端,就是说你必须联网。

一个完整的语音交互系统包括语音识别、语音合成(TTS)、语义理解、垂直搜索、智能推送等部分。


“你好问问”这种离线语音识别技术主要包括语音识别、实时监听。

首先说说语音识别的技术。


1、我们知道语音是一种声波,要识别这个声波首先是分帧(也就是切割声音)。

2、但声波只是数据,我们要从中提取信息,于是就有了“变换与特征提取”,这里提取的特征就是人耳能理解的特征,表示方式是机器能理解的一系列多维向量。

3、之后就是把特征向量输入到程序中(目前主要用深度神经网络DNN,尤其是DCNN),把特征识别成S音标(或者说音素)。这里提到了音素,啥是音素呢?不是a/b/c/d,而是元音、辅音,英语是48个音素。对应的,汉语是声母、韵母。其实这里面还有一个“音素的状态”,是比音素更细致的东西,暂不提。

4、把音素组合成单词或者汉字拼音。这个就比较好理解,对吧?一个汉字拼音或者一个英文单词都是由好些个音素组成的。

5、把好些汉字读音们识别成汉字们。汉字呢,有好多重音字,比英文单词更复杂些。比如“变换”、“变幻”。此时肯定是没法理解的,必须放在语境中去。这就需要大量的词库啦。

说简单点:

1、把声波切割成帧。

2、在帧中提取特征向量。

3、把特征向量组成音素。

4、音素组合成拼音。

5、拼音映射成汉字。


———————————————————分割线—————————————————

“你好问问”背后的历史

先从出门问问CTO雷欣说起。他以前是Google总部Staff Research科学家、谷歌语音搜索开发者,领导开发了基于深度神经网络(DNN)的离线语音识别系统。
以下是雷欣的资料:
【最具价值CTO评选秀】出门问问CTO雷欣:从技术极客到核心管理的秘密-CSDN.NET
后来,出门问问在2013年上线了深度神经网络(DNN)系统,并与约翰霍普金斯大学(The Johns Hopkins University)语研究组保持合作关系——这个学校是CEO李志飞母校。
为了让你用语音撩妹 这家公司做了这些

离线语音识别是个啥


离线语音识别的难点在于这个汉字词库不能太大、占用CPU不能太多,实时监听时功耗不能太高。这就有个采样的问题。每家技术都不太一样。说简单就是低功耗、离线的语音识别系统。


因为限制比较多,目前国内外能做到这一点的公司不太多(需要聘请大量高学历的科研人员呀)。国内没几家,出门问问是一个。难就难在语音识别系统很庞大,要用到云,一般的移动设备根本无法搭建。目前大多数语音识别技术都在搭在云端的,就是说你必须联网。


具体技术环节两句话讲不清。我先给你说一下背后的故事,新浪新闻《李志飞从0实现“你好问问”语音搜索》: 李志飞:出门问问打造“你好问问”语音搜索
这里面讲了一些技术实现原理《为了让你用语音撩妹 这家公司做了这些》 为了让你用语音撩妹 这家公司做了这些
下面两个是程序的实现方式,比较烧脑:
Speech SDK 做离线语音识别:
blog.163.com/charlie_ru

Android平台使用PocketSphinx做离线语音识别,小范围语音99%识别率


——————————————————分割线——————————————————


延伸阅读:出门问问历史及出门问问现有产品(连接中给出了出门问问的产品)

你好问问(出门问问APP那个搜索热词)的技术原理是什么?

需要指出的是,不管是公众号还是APP、软件还是硬件,上面提到的这些产品都和出门问问“人工智能语音交互技术”离不开,其使用了DNN(深度神经网络,打败李世石的围棋程序AlphaGo也使用DNN算法)。这是出门问问的核心。
其实本质上是语音唤醒技术,参见问题
语音唤醒技术的原理是什么?