900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 多模态语义分析_学术竞赛 | 冠军方案分享科大讯飞AI开发者大赛多模态情感分析赛道...

多模态语义分析_学术竞赛 | 冠军方案分享科大讯飞AI开发者大赛多模态情感分析赛道...

时间:2019-02-11 09:50:25

相关推荐

多模态语义分析_学术竞赛 | 冠军方案分享科大讯飞AI开发者大赛多模态情感分析赛道...

10月23日,由科大讯飞汇聚产学研各界力量发起的“ iFLYTEK A.I. 开发者大赛”在合肥落下帷幕。赛博智能团队的袁志强、杜润岩、魏楷文、刘帆帆等研究生组成的队伍,在孙显和张文凯两位老师的指导下,从全国8654支参赛队伍中脱颖而出,夺得多模态情感分析与识别挑战赛赛道冠军,本篇为其冠军方案分享。

队长袁志强与讯飞总裁刘庆峰先生合照

颁奖现场(右二为赛博智能团队)

图源 /

赛题描述

人工智能是通过计算机程序来模拟呈现人类智能的技术。当智能可以被模拟,人类的情绪与情感是否也可以模拟?多模态情感分析与识别挑战赛旨在增强机器的情绪识别能力,通过语音对人类情绪进行识别,结果评价指标为F1-score。

相比其他竞赛,本次竞赛更具挑战性,提供的训练数据更少,数据类型更多,总体为低资源的竞赛任务,测试集中的受试者完全独立于训练集,且要求算法不能使用任何预训练模型。这对算法的鲁棒性精度都提出了更高要求。

冠军方案分享

团队考虑到人与人之间的“个体差异性”,来优化算法设计。通过transformer模块对前端卷积网络提取到的特征进行了时序上的二次特征重建。在训练过程中提出了Horizontal Mixup音频数据增强方法,采用了多种训练技巧,包括频谱图的平移、缩放、多尺度训练、cutoff数据增强、椒盐噪声增强,类别平衡方法、warmup策略、余弦学习率衰减等。

01

梅尔频谱图抽取

梅尔频谱图是语音特征提取中最常用的方法之一,团队经大量尝试,采取了梅尔频谱图作为基本特征。在特征抽取之前,首先使用预加重方法过滤信号中存在的冲激信号和杂波,接着将每个完整的音频信号切分为若干段,为防止频谱泄露,对分帧后的信号进行加窗处理,加窗后使用快速傅里叶变换(FFT),发掘信号在不同频率处的特征。接着将信号进行了梅尔频谱转换,使信号的改变和人耳的感知相一致。

梅尔频谱图抽取

02

数据增强

大赛训练样本不足是限制模型性能的重要因素。4个类别的训练样本仅有1784个样本,而测试样本有1400个。因此,必须通过合适的数据增强对训练样本进行扩充,提高模型鲁棒性。

团队发现了四种在音频情感分析任务中较为有效的数据增强方法,分别为图像挖剪、加入椒盐噪声、随机裁剪和图像叠加,以上四种方法均迁移自经典的自然图像数据增强方法。

音频频谱增强中有效的数据增强方式

然后,团队在Mixup数据增强方法的基础上提出了Horizontal Mixup方法,该方法通过将两张频谱图像按照不同的时序权重进行叠加,将模型错误率降低了1.6个百分点。

不同于自然图像,音频频谱图在横向代表了时序,纵向则代表了在某时刻的频率分布情况。基于此,团队在进行Mixup时,同时考虑了时间的影响,如下图(b)所示,将两幅频谱图像在像素级别按时间顺序进行权重改变得到两幅中间图像,之后将两幅中间图像进行再进行像素级相加。

本团队提出的Horizontal Mixup方法

03

Res-Trans模型

传统利用频谱图来进行语音情感分类的方法,通常利用自然图像领域的预训练网络模型,在频谱图像上进行二次训练。但频谱图不同于传统的自然图像,两个时序的帧之间存在着相关性,因此团队对时序信号进行了二次特征重建。

首先使用卷积网络提取出频谱图中所含有的音频特征,之后采用自然语言处理中对时序建模常用的transformer对频谱图像特征进行了二次表征。为了进一步增强模型的鲁棒性,使用话音人判断的额外任务来对前端卷积网络进行约束。

Res-Trans模型框架

加入通道注意力的resnet-18

团队使用ResNet-18作为前端特征提取网络。为调整网络中的通道关联性,通过获取空间相关性的学习机制来改善网络的学习性能,团队遵循SENet做法,在ResNet-18网络中加入通道注意力,进一步抑制频谱图中无用的特征表示。去除ResNet-18网络中的最后一层分类层和池化层,取网络输出的512个的特征图作为前端卷积网络提取出的音频特征。

加入通道注意力的ResNet

话音人预测任务

为确保ResNet-18提取出的特征足够合理,同时避免网络过深造成的影响,首先进行话音人预测任务,在话音人预测任务结束后,固定残差网络的权重,仅将残差网络做为频谱图的音频特征提取器。

Self-Attention 模块

self-attention模块

为了对上一步得到的特征进行二次建模,使用transformer网络对ResNet-18网络提取出的音频特征进行特征重建。将ResNet-18编码器输出的音频特征图输入进self-attention模块,在进行编码后使用线性层来获得最终的分类结果。

04

训练技巧

训练技巧在比赛过程中会视情况不断调整,很难定量描述,在此仅提供大致的提升效果。

数据增强方法

训练数据中样本过少,需大程度的数据增强。原有的在自然图像领域的图像增强方法如翻转、旋转、颜色变换等在音频频谱数据上并不能用。经过实验,团队发现四种在音频情感分析任务中较为有效的数据增强方法,分别为Cutout、Salt and Pepper Noise、Random-cut和Mixup,这些数据增强方法在B榜有5%的提升

类别均衡训练

训练样本中的类别“平和”的个数是类别“伤心”的两倍左右,数据存在不均衡问题。团队对类别少的样本进行上采样,同时使用Focal Loss来解决类别不均衡问题,该方法在B榜有1.5%的提升

模型过拟合抑制

数据少是痛点,同时赛事方也限制使用预训练模型。为了解决模型过拟合的问题,第一,先对前端的ResNet-18采用话音人识别的额外任务进行了预训练;第二,使用了label smoothing的策略再次抑制了模型的过拟合现象;第三,使用了instanceNorm和batchNorm归一化了特征层。该方法在B榜有1.3%的提升

模型集成

由于提交次数限制,因此在提交之前对模型进行TTA整合是一项非常有必要的工作。同时,通过集成学习的方法来进一步地提升模型的测试集准确率,整合的模型有:

Res18-trans(backbone)

√ DPN-98

√ResNeXt

√ResNeSt

√DenseNet

√ResNet-50

√CapsuleNetwork

团队采用了加权投票的方法进行了模型整合,整合后的模型在B榜约有2.2%的提升

总结展望

回顾此次比赛,与对手的拉锯战不断展开,大家都在不断地你追我赶。从决赛中看,任何时候都不能松懈,要有记录实验细节记录线上得分的习惯,这往往会成为决定胜负的关键。此外受制于比赛时间,本方案还存在一定的提升和改进空间:

加入更多的数据增强技术:数据增强在此次的任务中相当重要,原始的数据集太小根本不足以使得模型获得一套鲁棒的参数,因此需要更多的数据增强技术来增强数据。

融合时序模型进行建模:此次只用到了梅尔频谱图来进行了建模,但完全可以使用LSTM等时序模型来对其时序特征进行建模,这是优化的重点。

采用数据蒸馏来融合多模模型:由于时间原因,团队没有对最终的模型进行整合。未来工作可以使用数据蒸馏的方法将多模模型融合为较小的模型,进而极大的提高程序的运行效率。

参考文献

[1]C. Singh, A. Kumar, A. Nagar, S. Tripathi and P. Yenigalla, "Emoception: An Inception Inspired Efficient Speech Emotion Recognition Network," IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), SG, Singapore, .

[2] B. T. Atmaja and M. Akagi, "Speech Emotion Recognition Based on Speech Segment Using LSTM with Attention Model," IEEE International Conference on Signals and Systems (ICSigSys), Bandung, Indonesia, .

作者介绍

袁志强:博士在读,导师为王宏琦研究员。由哈尔滨工程大学保送至中国科学院大学,研究方向为遥感图像语义检索。

杜润岩:博士在读,导师为郭智研究员。由天津大学保送至中国科学院大学,研究方向为语义描述生成。

刘帆帆:硕士在读,导师为赵文哲副研究员。由大连海事大学保送至中国科学院大学,研究方向为目标检测。

魏楷文:博士在读,导师为郭智研究员。由重庆大学保送至中国科学院大学,研究方向为事件抽取。

作者:袁志强

编辑:颜诗垚

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。