发明名称 基于锚模型空间投影序数比较的快速说话人确认方法
摘要 本发明涉及一种基于锚模型空间投影序数比较的快速说话人确认方法,首先用将测试语音进行锚模型映射,然后将映射后的测试语音与其所声明的说话人进行序数比较。所述的锚模型映射为:首先对测试语音进行特征提取,得到一组特征向量序列,然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量。所述序数比较为将得分向量中的得分排序,并比较测试语音与声明说话人的得分序数并计算序数的欧式距离,最后将序数距离与阈值比较得到最终结果。本发明有益的效果是:利用锚模型简化确认系统中的训练过程,克服用单个人特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛的安全性和适应性。
申请公布号 CN100570712C 申请公布日期 2009.12.16
申请号 CN200510061955.9 申请日期 2005.12.13
申请人 浙江大学 发明人 杨莹春;吴朝晖;杨旻
分类号 G10L17/00(2006.01)I;G10L15/00(2006.01)I 主分类号 G10L17/00(2006.01)I
代理机构 杭州九洲专利事务所有限公司 代理人 陈继亮
主权项 1、一种基于锚模型空间投影序数比较的快速说话人确认方法,其特征在于:首先用将测试语音进行锚模型映射,然后将映射后的测试语音与其所声明的说话人进行序数比较;锚模型映射为:首先对测试语音进行特征提取,得到一组特征向量序列,然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度,得到映射后的得分向量;序数比较为将得分向量中的得分排序,并比较测试语音与声明说话人的得分序数并计算序数的欧式距离,最后将序数距离与阈值比较得到最终结果;该方法具体步骤如下:第一步:音频预处理:音频预处理分为采样量化,去零漂,预加重和加窗三个部分;第二步:特征提取:音频帧上的特征提取包括能量和梅尔倒谱系数的提取;第三步、锚模型训练:锚模型的训练过程分为背景模型的训练和锚模型自适应,背景模型和锚模型都是高斯混合模型,是用多个高斯分布的线性组合近似说话人的特征分布;M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>P</mi><mi>i</mi></msub><msub><mi>b</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><msub><mi>b</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>N</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>,</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>p</mi><mo>/</mo><mn>2</mn></mrow></msup><msup><mrow><mo>|</mo><msub><mi>p</mi><mi>i</mi></msub><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mrow><mo>{</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msubsup><mi>R</mi><mi>i</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mo>}</mo></mrow></math>]]></maths>其中,p是特征的维数,b<sub>i</sub>(x)为核函数,是均值矢量为μ<sub>i</sub>、协方差矩阵为R<sub>i</sub>的高斯分布函数,M是GMM模型的阶数,在建立说话人模型以前设为一确定整数,λ={P<sub>i</sub>,μ<sub>i</sub>,R<sub>i</sub>|i=1,2,...,M}为说话人特征分布GMM中的参数,作为高斯混合分布的加权系数,P<sub>i</sub>应满足使得:<maths num="0003"><![CDATA[<math><mrow><msubsup><mo>&Integral;</mo><mrow><mo>-</mo><mo>&infin;</mo></mrow><mrow><mo>+</mo><mo>&infin;</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><mi>&lambda;</mi><mo>)</mo></mrow><mi>dx</mi><mo>=</mo><mn>1</mn></mrow></math>]]></maths>背景模型由大量语音数据训练而成,用来消除背景差异和自适应锚模型,锚模型为由一组特定说话人语音训练成的一组高斯混合模型;第四步、锚空间投影:用户语音输入后,经特征提取,得到一特征向量序列;该序列输入到锚模型的各个GMM中,得到一组相似度值组成的向量SCV:SCV={s<sub>1</sub>,s<sub>2</sub>,...s<sub>n</sub>},其中s<sub>i</sub>是第i个锚模型GMM的得分与背景模型得分之差;第五步、基于序数比较的确认:比较得分向量SCV中各维度序数;首先将SCV={s<sub>1</sub>,s<sub>2</sub>,...s<sub>n</sub>}里的得分进行排序:s<sub>i1</sub>>s<sub>i2</sub>>...>s<sub>in</sub>,根据这个序列,可以得到得分序数向量V’={o<sub>1</sub>,o<sub>2</sub>,...o<sub>n</sub>},其中,o<sub>ij</sub>=j;确认时,对说声称的说话人的注册语音和测试语音都求序数向量,并比较两个向量之间的距离:d=|V<sub>1</sub>’-V<sub>2</sub>’|<sup>2</sup>;将距离与阈值比较,若距离小于阈值,则接受为同一个说话人,反之则拒绝。
地址 310027浙江省杭州市西湖区浙大路38号浙江大学计算机学院曹光彪东楼505室