一种说话人识别方法及系统,申请号CN201210555152.9-传众专利搜索

发明名称	一种说话人识别方法及系统
摘要	本发明涉及一种说话人识别方法，所述方法包括：通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术，能够有效地克服现有总变化因子分析技术存在的不足，进一步提高说话人识别性能。
申请公布号	CN103077720B	申请公布日期	2015.02.11
申请号	CN201210555152.9	申请日期	2012.12.19
申请人	中国科学院声学研究所;北京中科信利技术有限公司	发明人	周若华;颜永红;梁春燕;杨琳
分类号	G10L17/12(2013.01)I	主分类号	G10L17/12(2013.01)I
代理机构	北京亿腾知识产权代理事务所 11309	代理人	陈霁
主权项	一种说话人识别方法，其特征在于，所述方法包括：通过训练得到邻域保持嵌入空间矩阵；基于所述邻域保持嵌入空间矩阵进行说话人识别；所述基于所述邻域保持嵌入空间矩阵进行说话人识别，包括：对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w；使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’；将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模；借助支持向量机SVM打分，根据打分结果识别说话人；其中，所述通过训练得到邻域保持嵌入空间矩阵具体为：选择多句包含说话人标注信息的训练语句，生成对应于每一训练语句的向量，并根据所述对应于训练语句的向量得到训练数据集W；根据所述对应于训练语句的向量构建邻接图，为不同的向量设置不同的顶点，不同顶点之间设置边；计算邻接图边的权重，得到权值矩阵E；根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵；所述根据所述训练数据集和所述权值矩阵构建特征矩阵，求解所述特征矩阵的特征值，以及多个最大特征值对应的特征向量，根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为：根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNW<sup>T</sup>a,其中,N＝(I‑E)<sup>T</sup>(I‑E),I为对角元素均为1、其余元素均为0的对角矩阵，根据WNW<sup>T</sup>a＝λWW<sup>T</sup>a，求解特征值λ以及特征向量a，根据前K个最大特征值对应的特征向量a<sub>1</sub>,a<sub>2</sub>,...a<sub>K</sub>得到邻域保持嵌入空间矩阵A<sub>NPE</sub>＝(a<sub>1</sub>,a<sub>2</sub>,...a<sub>K</sub>)<sup>T</sup>。
地址	100190 北京市海淀区北四环西路21号