发明名称 声纹模型自动重建的方法和装置
摘要 本申请提供了一种声纹模型自动重建的方法和装置,包括:将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据;确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;使用筛选后的多组语音数据更新时间窗管道中的语音数据;使用更新后的时间窗管道中的语音数据自动重建声纹模型。从而解决了由于时间变化导致说话人模型波动,进而导致话说人识别正确率低的问题。
申请公布号 CN104616655A 申请公布日期 2015.05.13
申请号 CN201510061721.8 申请日期 2015.02.05
申请人 清华大学 发明人 郑方;李蓝天;邬晓钧;别凡虎;王军
分类号 G10L17/04(2013.01)I 主分类号 G10L17/04(2013.01)I
代理机构 北京润泽恒知识产权代理有限公司 11319 代理人 兰淑铎
主权项 一种声纹模型自动重建的方法,其特征在于,包括:将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;使用筛选后的多组语音数据更新时间窗管道中的语音数据;使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
地址 100084 北京市海淀区清华大学FIT楼1-303