900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

时间:2020-08-23 23:26:11

相关推荐

基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

语音唤醒,即关键词检索(keyword spotting, KWS)。用语音唤醒设备,让设备由休眠状态切换至工作状态。

下面主要对基于端到端的深度学习方法的语音唤醒模型总结。

模型输入为语音,输出为各唤醒词的概率,一个模型解决,不需要再进行解码。

通常包括三个部分:第一步是特征的提取,第二步是一个神经网络,它的输入是语音特征,输出是各个关键词和非关键词即Filler这样一个后验概率。由于第二步的网络是以帧为单位输出后验值的,就需要第三步对后验值以一定的窗长进行平滑,平滑后的后验值如果超过一定阈值会被认为是唤醒了。

1、基于CNN的语音唤醒

《Convolutional Neural Networks for Small-footprint Keyword Spotting _Google》

基于CNN的KWS模型。构建可以识别 10 个不同字词的基本语音识别网络。该模型会尝试将时长为 1 秒的音频片段归类为无声、未知字词、“yes”、“no”、“up”、“down”、“left”、“right”、“on”、“off”、“stop”或“go”。

基于端到端的深度学习方法,可以作为入门资料,模型比较简单。设计了几个不同的CNN结构。缺点是模型参数比较多,运算量较大。

开源代码,在TensorFlow官网可以下载。

/tensorflow/tensorflow/tree/master/tensorflow/examples/speech_commands

2、基于CRNN模型的语音唤醒

(1)An End-to-End Architecture for Keyword Spotting and Voice Activity Detection

(NIPs、 Mindori)

关键词:Olivia

网络结构:CRNN网络,一层CNN层,三层RNN层(256个节点)

损失函数:CTC Loss

不带噪声数据集:正样本1544条,负样本526k.

带噪声数据集:正样本1544*10条,负样本526k +57k.

预处理:VAD ,用网络训练

注:模型参数~1.5M ,稍大

开源代码:

/mindorii/kws

(2)Attention-based End-to-End Models for Small-Footprint Keyword Spotting (Interspeech )

关键词:xiao-ai-tong-xue

网络结构:CRNN网络,一层CNN层,两层RNN层(64个节点)

数据集:

训练集:正样本188.9k, 负样本 1007.4k

验证集:正样本9.9k, 负样本 53k

测试集:正样本 28.8k , 负样本32.8k

输入特征:PCEN特征。每条音频持续时间1.9 seconds.

后处理:注意力机制

(3)Convolutional Recurrent Neural Networks for Small-Footprint KeywordSpotting (Interspeech)

关键词:TalkType

网络结构:CRNN网络,一层CNN层,两层RNN层(64个节点)

数据集:总共16k

输入特征:PCEN特征。每条音频持续时间1.5 seconds.

(4)Sequence-to-Sequence models for small-footprint keyword spotting(arXiv)

3、基于DNN模型的语音唤醒

(1)Small-Footprint Keyword Spotting Using Deep Neural Networks (, Google)

3层DNN网络

(2)Efficient Voice Trigger Detection for Low Resource Hardware (Interspeech )

关键词:Hey Siri

用两个检测器:

第一个较小的检测器,DNN网络,共5层,每层32个隐藏节点。

第二个较大的检测器,DNN网络,共5层,每层192个隐藏节点。

输出的Softmax层包含20个节点:关键词“Hey Siri”包含6个音素,每个音素分为3个状态(开始、中间、结束),剩下两个节点对于silence 和 background 状态。

输入特征:MFCC 特征,13维。25ms为一帧。

数据集:4000句包含关键词,2000个小时不包含关键词。

注:网络输出用HMM解码,需要进行帧级别的标注。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。