对Ticwatch手表说“你好问问”就能唤醒语音助手，请问这是什么原理？

Question

对Ticwatch手表说“你好问问”就能唤醒语音助手，请问这是什么原理？

最近在用这个手表，从语音命令到执行背后是什么原理，与硬件有关吗？

关注者

16

被浏览

8,797

3 个回答

其实本质上是语音唤醒技术，参见问题
语音唤醒技术的原理是什么？

发布于 2016-03-04

zachary 语音识别业余研究爱好者 · Accepted Answer

这个吧，“你好问问”是出门问问设计的语音热词，用于唤醒语音搜索服务。智能手表Ticwatch、出门问问手机APP等产品中有用到“你好问问”热词。与Siri需要按键开启、在网络下才能正常使用不同，“你好问问”这一热词使用了离线语音唤醒技术。

——————————————————分割线————————————————

语音识别原理

一般的语音识别系统很庞大，一般的移动设备根本无法搭建，因此目前大多数语音识别技术都在搭在云端，就是说你必须联网。

一个完整的语音交互系统包括语音识别、语音合成（TTS）、语义理解、垂直搜索、智能推送等部分。

“你好问问”这种离线语音识别技术主要包括语音识别、实时监听。

首先说说语音识别的技术。

1、我们知道语音是一种声波，要识别这个声波首先是分帧（也就是切割声音）。

2、但声波只是数据，我们要从中提取信息，于是就有了“变换与特征提取”，这里提取的特征就是人耳能理解的特征，表示方式是机器能理解的一系列多维向量。

3、之后就是把特征向量输入到程序中（目前主要用深度神经网络DNN，尤其是DCNN），把特征识别成S音标（或者说音素）。这里提到了音素，啥是音素呢？不是a/b/c/d，而是元音、辅音，英语是48个音素。对应的，汉语是声母、韵母。其实这里面还有一个“音素的状态”，是比音素更细致的东西，暂不提。

4、把音素组合成单词或者汉字拼音。这个就比较好理解，对吧？一个汉字拼音或者一个英文单词都是由好些个音素组成的。

5、把好些汉字读音们识别成汉字们。汉字呢，有好多重音字，比英文单词更复杂些。比如“变换”、“变幻”。此时肯定是没法理解的，必须放在语境中去。这就需要大量的词库啦。

说简单点：

1、把声波切割成帧。

2、在帧中提取特征向量。

3、把特征向量组成音素。

4、音素组合成拼音。

5、拼音映射成汉字。

———————————————————分割线—————————————————

“你好问问”背后的历史

先从出门问问CTO雷欣说起。他以前是Google总部Staff Research科学家、谷歌语音搜索开发者，领导开发了基于深度神经网络（DNN）的离线语音识别系统。
以下是雷欣的资料：
【最具价值CTO评选秀】出门问问CTO雷欣：从技术极客到核心管理的秘密-CSDN.NET
后来，出门问问在2013年上线了深度神经网络(DNN)系统，并与约翰霍普金斯大学（The Johns Hopkins University）语研究组保持合作关系——这个学校是CEO李志飞母校。
为了让你用语音撩妹这家公司做了这些

离线语音识别是个啥

离线语音识别的难点在于这个汉字词库不能太大、占用CPU不能太多，实时监听时功耗不能太高。这就有个采样的问题。每家技术都不太一样。说简单就是低功耗、离线的语音识别系统。

因为限制比较多，目前国内外能做到这一点的公司不太多（需要聘请大量高学历的科研人员呀）。国内没几家，出门问问是一个。难就难在语音识别系统很庞大，要用到云，一般的移动设备根本无法搭建。目前大多数语音识别技术都在搭在云端的，就是说你必须联网。

具体技术环节两句话讲不清。我先给你说一下背后的故事，新浪新闻《李志飞从0实现“你好问问”语音搜索》：李志飞：出门问问打造“你好问问”语音搜索。
这里面讲了一些技术实现原理《为了让你用语音撩妹这家公司做了这些》为了让你用语音撩妹这家公司做了这些
下面两个是程序的实现方式，比较烧脑：
Speech SDK 做离线语音识别：
http:// blog.163.com/charlie_ru zhen/blog/static/977378282009817101716761/

Android平台使用PocketSphinx做离线语音识别，小范围语音99%识别率

——————————————————分割线——————————————————

延伸阅读：出门问问历史及出门问问现有产品（连接中给出了出门问问的产品）

你好问问（出门问问APP那个搜索热词）的技术原理是什么？

需要指出的是，不管是公众号还是APP、软件还是硬件，上面提到的这些产品都和出门问问“人工智能语音交互技术”离不开，其使用了DNN（深度神经网络，打败李世石的围棋程序AlphaGo也使用DNN算法）。这是出门问问的核心。