发明名称 |
声纹模型自动重建的方法和装置 |
摘要 |
本申请提供了一种声纹模型自动重建的方法和装置,包括:将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据;确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;使用筛选后的多组语音数据更新时间窗管道中的语音数据;使用更新后的时间窗管道中的语音数据自动重建声纹模型。从而解决了由于时间变化导致说话人模型波动,进而导致话说人识别正确率低的问题。 |
申请公布号 |
CN104616655A |
申请公布日期 |
2015.05.13 |
申请号 |
CN201510061721.8 |
申请日期 |
2015.02.05 |
申请人 |
清华大学 |
发明人 |
郑方;李蓝天;邬晓钧;别凡虎;王军 |
分类号 |
G10L17/04(2013.01)I |
主分类号 |
G10L17/04(2013.01)I |
代理机构 |
北京润泽恒知识产权代理有限公司 11319 |
代理人 |
兰淑铎 |
主权项 |
一种声纹模型自动重建的方法,其特征在于,包括:将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;使用筛选后的多组语音数据更新时间窗管道中的语音数据;使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。 |
地址 |
100084 北京市海淀区清华大学FIT楼1-303 |