发明名称 一种说话人识别方法及系统
摘要 本发明涉及一种说话人识别方法,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人。本发明实施例采用一种新型的基于邻域保持嵌入NPE的因子分析技术,能够有效地克服现有总变化因子分析技术存在的不足,进一步提高说话人识别性能。
申请公布号 CN103077720B 申请公布日期 2015.02.11
申请号 CN201210555152.9 申请日期 2012.12.19
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 周若华;颜永红;梁春燕;杨琳
分类号 G10L17/12(2013.01)I 主分类号 G10L17/12(2013.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种说话人识别方法,其特征在于,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人;其中,所述通过训练得到邻域保持嵌入空间矩阵具体为:选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W;根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边;计算邻接图边的权重,得到权值矩阵E;根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵;所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为:根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNW<sup>T</sup>a,其中,N=(I‑E)<sup>T</sup>(I‑E),I为对角元素均为1、其余元素均为0的对角矩阵,根据WNW<sup>T</sup>a=λWW<sup>T</sup>a,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量a<sub>1</sub>,a<sub>2</sub>,...a<sub>K</sub>得到邻域保持嵌入空间矩阵A<sub>NPE</sub>=(a<sub>1</sub>,a<sub>2</sub>,...a<sub>K</sub>)<sup>T</sup>。
地址 100190 北京市海淀区北四环西路21号
您可能感兴趣的专利