发明名称 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
摘要 本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。
申请公布号 CN105469784A 申请公布日期 2016.04.06
申请号 CN201410459009.9 申请日期 2014.09.10
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 杨琳;索宏彬;周若华;颜永红
分类号 G10L15/06(2013.01)I;G10L17/00(2013.01)I;G10L17/04(2013.01)I 主分类号 G10L15/06(2013.01)I
代理机构 北京方安思达知识产权代理有限公司 11472 代理人 王宇杨;王敬波
主权项 概率线性鉴别分析模型生成方法,包括如下步骤:步骤101),采集一定数量的语音数据作为训练语句,并进行预处理;步骤102),提取预处理后的训练语句的梅尔频率倒谱系数特征;步骤103),基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子;步骤104),基于所有训练语句的总变化量因子生成概率线性鉴别分析模型;所述概率线性鉴别分析模型包括:说话人矩阵和概率线性鉴别分析模型的残差方差矩阵。
地址 100190 北京市海淀区北四环西路21号