900字范文 > 基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

时间：2020-08-23 23:26:11

语音唤醒，即关键词检索（keyword spotting, KWS）。用语音唤醒设备，让设备由休眠状态切换至工作状态。

下面主要对基于端到端的深度学习方法的语音唤醒模型总结。

模型输入为语音，输出为各唤醒词的概率，一个模型解决，不需要再进行解码。

通常包括三个部分：第一步是特征的提取，第二步是一个神经网络，它的输入是语音特征，输出是各个关键词和非关键词即Filler这样一个后验概率。由于第二步的网络是以帧为单位输出后验值的，就需要第三步对后验值以一定的窗长进行平滑，平滑后的后验值如果超过一定阈值会被认为是唤醒了。

1、基于CNN的语音唤醒

《Convolutional Neural Networks for Small-footprint Keyword Spotting _Google》

基于CNN的KWS模型。构建可以识别 10 个不同字词的基本语音识别网络。该模型会尝试将时长为 1 秒的音频片段归类为无声、未知字词、“yes”、“no”、“up”、“down”、“left”、“right”、“on”、“off”、“stop”或“go”。

基于端到端的深度学习方法，可以作为入门资料，模型比较简单。设计了几个不同的CNN结构。缺点是模型参数比较多，运算量较大。

开源代码，在TensorFlow官网可以下载。

/tensorflow/tensorflow/tree/master/tensorflow/examples/speech_commands

2、基于CRNN模型的语音唤醒

（1）An End-to-End Architecture for Keyword Spotting and Voice Activity Detection

(NIPs、 Mindori)

关键词：Olivia

网络结构：CRNN网络，一层CNN层，三层RNN层(256个节点)

损失函数：CTC Loss

不带噪声数据集：正样本1544条，负样本526k.

带噪声数据集：正样本1544*10条，负样本526k +57k.

预处理：VAD ，用网络训练

注：模型参数～1.5M ，稍大

开源代码：

/mindorii/kws

（2）Attention-based End-to-End Models for Small-Footprint Keyword Spotting (Interspeech )

关键词：xiao-ai-tong-xue

网络结构：CRNN网络，一层CNN层，两层RNN层(64个节点)

数据集:

训练集：正样本188.9k, 负样本 1007.4k

验证集：正样本9.9k, 负样本 53k

测试集：正样本 28.8k , 负样本32.8k

输入特征：PCEN特征。每条音频持续时间1.9 seconds.

后处理:注意力机制

（3）Convolutional Recurrent Neural Networks for Small-Footprint KeywordSpotting (Interspeech)

关键词：TalkType

网络结构：CRNN网络，一层CNN层，两层RNN层(64个节点)

数据集：总共16k

输入特征：PCEN特征。每条音频持续时间1.5 seconds.

（4）Sequence-to-Sequence models for small-footprint keyword spotting(arXiv)

3、基于DNN模型的语音唤醒

（1）Small-Footprint Keyword Spotting Using Deep Neural Networks (, Google)

3层DNN网络

（2）Efficient Voice Trigger Detection for Low Resource Hardware (Interspeech )

关键词：Hey Siri

用两个检测器：

第一个较小的检测器，DNN网络，共5层，每层32个隐藏节点。

第二个较大的检测器，DNN网络，共5层，每层192个隐藏节点。

输出的Softmax层包含20个节点：关键词“Hey Siri”包含6个音素，每个音素分为3个状态（开始、中间、结束），剩下两个节点对于silence 和 background 状态。

输入特征：MFCC 特征，13维。25ms为一帧。

数据集：4000句包含关键词，2000个小时不包含关键词。

注：网络输出用HMM解码，需要进行帧级别的标注。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。