发明名称 一种半监督语音特征可变因素分解方法
摘要 本发明公开了一种半监督语音特征可变因素分解方法,把语音特征分成四类:情感相关特征、性别相关特征、年龄相关特征、包括噪声和语种的其他因素相关特征。首先,对语音进行预处理得到语谱图,不同尺寸的语谱块输入无监督特征学网络SAE,预训练得到不同尺寸的卷积核,然后分别用不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y。y作为半监督卷积神经网络的输入,通过最小化四个不同的损失函数项将y分解成四类特征。本发明解决了情感、性别、年龄语音特征相互混杂导致识别准确率不高的问题,可分别用于基于语音信号的不同识别需求,还可以用于分解更多因素。
申请公布号 CN104021373B 申请公布日期 2017.02.15
申请号 CN201410229537.5 申请日期 2014.05.27
申请人 江苏大学 发明人 毛启容;黄正伟;薛文韬;于永斌;詹永照;苟建平;邢玉萍
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 江苏纵联律师事务所 32253 代理人 蔡栋
主权项 一种半监督语音特征可变因素分解方法,其特征在于包括下列步骤:步骤一,预处理:对语音样本进行预处理得到语谱图,再采用PCA进行主成份分析降维以及白化,从中提取出不同尺寸的语谱块;步骤二,无监督的局部不变特征学习:将所述语谱块作为无监督特征学习SAE的输入,通过输入不同尺寸的语谱块,预训练得到不同尺寸的卷积核,然后分别用所述不同尺寸的卷积核对整个语谱图进行卷积,得到若干特征映射图,再对所述特征映射图进行最大池化,最终把特征堆叠起来形成局部不变特征y;步骤三,基于卷积神经网络的半监督特征学习:将所述局部不变特征y作为半监督学习算法的输入,利用基于卷积神经网络的半监督学习的方法,通过四个不同的损失函数将局部不变特征y分解成四类特征;所述四类特征包括情感相关特征、性别相关特征、年龄相关特征、以及包括噪声和语种的其他因素相关特征;所述半监督学习的损失函数由重构误差函数、判别损失函数、正交损失函数、显著性损失函数四部分组成;对于所述重构误差函数,所述四类特征都要参与重构局部不变特征y,误差采用均方误差;对于所述判别损失函数,先对有标签的数据进行类别预测,然后计算预测标签和真实标签之间的差异作为判别损失函数的值;对于所述正交损失函数,目的是使所述四类特征相互正交,表示输入局部不变特征y的不同的方向;对于所述显著性损失函数,目的是学习到仅体现识别目标类别之间的差异且更具有类别区分性的特征;通过最小化所述重构误差函数、判别损失函数、正交损失函数、显著性损失函数来获得四个损失函数的参数包括偏置和权重,从而得到所述四类特征。
地址 212013 江苏省镇江市学府路301号
您可能感兴趣的专利