主权项 |
一种说话人识别方法,其特征在于,所述方法包括:通过训练得到邻域保持嵌入空间矩阵;基于所述邻域保持嵌入空间矩阵进行说话人识别;所述基于所述邻域保持嵌入空间矩阵进行说话人识别,包括:对于每一个高斯混合模型GMM均值超向量x进行主成分分析PCA降维得到向量w;使用所述邻域保持嵌入空间矩阵对于每一个所述向量w进行映射得到向量w’;将经过映射得到的所述向量w’作为支持向量机SVM的输入特征进行后端分类建模;借助支持向量机SVM打分,根据打分结果识别说话人;其中,所述通过训练得到邻域保持嵌入空间矩阵具体为:选择多句包含说话人标注信息的训练语句,生成对应于每一训练语句的向量,并根据所述对应于训练语句的向量得到训练数据集W;根据所述对应于训练语句的向量构建邻接图,为不同的向量设置不同的顶点,不同顶点之间设置边;计算邻接图边的权重,得到权值矩阵E;根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵;所述根据所述训练数据集和所述权值矩阵构建特征矩阵,求解所述特征矩阵的特征值,以及多个最大特征值对应的特征向量,根据所述特征向量得到所述的邻域保持嵌入空间矩阵,具体为:根据所述训练数据集W和所述权值矩阵E构建特征矩阵WNW<sup>T</sup>a,其中,N=(I‑E)<sup>T</sup>(I‑E),I为对角元素均为1、其余元素均为0的对角矩阵,根据WNW<sup>T</sup>a=λWW<sup>T</sup>a,求解特征值λ以及特征向量a,根据前K个最大特征值对应的特征向量a<sub>1</sub>,a<sub>2</sub>,...a<sub>K</sub>得到邻域保持嵌入空间矩阵A<sub>NPE</sub>=(a<sub>1</sub>,a<sub>2</sub>,...a<sub>K</sub>)<sup>T</sup>。 |