一种全盲的数字语音认证方法,申请号CN200910052050.3-传众专利搜索

发明名称	一种全盲的数字语音认证方法
摘要	本发明公开了一种全盲的数字语音信号认证方法，其步骤为：(1)对要判别的语音信号分帧处理；(2)将各帧信号分成K段，对各段数据去均值处理；(3)将所得对各帧各段数据做作FFT变换，求其双谱值；(4)以平滑所得各帧数据双谱估计值作双谱等高图；(5)以帧语音信号双谱等高图判断是否存在非线性耦合；(6)判断第一次认定经过篡改的此帧语音信号是否要再次认定其篡改的更精确位置；(7)将需再次认定的经过篡改的帧语音信号再更细分帧，重复上述步骤(2)~(6)，认定此帧语音信号更准确篡改位置。该方法能在缺乏数字水印或数字签名的认证消息情况下，有效判定数字语音信号是否经过篡改及其篡改位置的确定，其认证过程不需要在语音信号中预嵌入任何数据。
申请公布号	CN101562016A	申请公布日期	2009.10.21
申请号	CN200910052050.3	申请日期	2009.05.26
申请人	上海大学	发明人	宋波;方勇;王正宁;徐斌
分类号	G10L19/00(2006.01)I	主分类号	G10L19/00(2006.01)I
代理机构	上海上大专利事务所（普通合伙）	代理人	陆聪明
主权项	1.一种全盲的数字语音认证方法，其特征在于该方法具体步骤如下：(1)、对需要判别的语音信号进行分帧处理：对长度为L的、需要判别的语音信号x(n)进行分帧处理，各帧信号包含N个数据；(2)、将各帧信号分成K段，对各段数据去均值处理：将各帧中N个数据分成K段，允许相邻数据之间有重叠，各段包含M个数据，对各段数据分别进行去均值处理；(3)、将所得对各帧各段数据做作FFT变换，在频域内求其双谱值：对第i段数据{x<sup>i</sup>(0)，x<sup>i</sup>(1)，…，x<sup>i</sup>(M-1)}作FFT，得到X<sup>i</sup>(λ)，其中λ＝0，1，…，M/2，i＝1，…，K，在频域内求其三阶累积量，得到双谱估计：<maths num="0001"><![CDATA[<math><mrow><msup><mover><mi>b</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mrow><mo>(</mo><msub><mi>λ</mi><mn>1</mn></msub><mo>,</mo><msub><mi>λ</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>/</mo><mi>Δ</mi><mo>)</mo></mrow><munderover><mi>Σ</mi><mrow><msub><mi>k</mi><mn>1</mn></msub><mo>=</mo><mo>-</mo><msub><mi>L</mi><mn>1</mn></msub></mrow><msub><mi>L</mi><mn>1</mn></msub></munderover><munderover><mi>Σ</mi><mrow><msub><mi>k</mi><mn>2</mn></msub><mo>=</mo><mo>-</mo><msub><mi>L</mi><mn>1</mn></msub></mrow><msub><mi>L</mi><mn>1</mn></msub></munderover><msup><mi>X</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mrow><mo>(</mo><msub><mi>λ</mi><mn>1</mn></msub><mo>+</mo><msub><mi>k</mi><mn>1</mn></msub><mo>)</mo></mrow><msup><mi>X</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mrow><mo>(</mo><msub><mi>λ</mi><mn>2</mn></msub><mo>+</mo><msub><mi>k</mi><mn>2</mn></msub><mo>)</mo></mrow><msup><mi>X</mi><mrow><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>*</mo></mrow></msup><mrow><mo>(</mo><msub><mi>λ</mi><mn>1</mn></msub><mo>+</mo><msub><mi>k</mi><mn>1</mn></msub><mo>+</mo><msub><mi>λ</mi><mn>2</mn></msub><mo>+</mo><msub><mi>k</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></math>]]></maths>其中，Δ＝f<sub>s</sub>/N<sub>0</sub>，f<sub>s</sub>为语音的采样频率，而N<sub>0</sub>和L<sub>1</sub>应选择为满足M＝(2L<sub>1</sub>+1)N<sub>0</sub>的值；(4)、以平滑所得的各帧数据的双谱估计值作出双谱等高图：平滑上述所得各段数据的双谱估计，得到<maths num="0002"><![CDATA[<math><mrow><mover><mi>B</mi><mo>^</mo></mover><mrow><mo>(</mo><msub><mi>ω</mi><mn>1</mn></msub><mo>,</mo><msub><mi>ω</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>K</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msup><mover><mi>b</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mrow><mo>(</mo><msub><mi>ω</mi><mn>1</mn></msub><mo>,</mo><msub><mi>ω</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow></math>]]></maths>作为此帧语音信号的双谱估计值，并作出双谱等高图，其中，<maths num="0003"><![CDATA[<math><mrow><msub><mi>ω</mi><mn>1</mn></msub><mo>=</mo><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>π</mi><msub><mi>f</mi><mi>s</mi></msub></mrow><msub><mi>N</mi><mn>0</mn></msub></mfrac><mo>)</mo></mrow><msub><mi>λ</mi><mn>1</mn></msub><mo>,</mo></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><msub><mi>ω</mi><mn>2</mn></msub><mo>=</mo><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>π</mi><msub><mi>f</mi><mi>s</mi></msub></mrow><msub><mi>N</mi><mn>0</mn></msub></mfrac><mo>;</mo><mo>)</mo></mrow><msub><mi>λ</mi><mn>2</mn></msub></mrow></math>]]></maths>(5)、以上述帧语音信号的双谱等高图判断是否存在非线性耦合：判断语音帧信号是否存在着非线性耦合现象的方法是将上述帧语音信号的双谱等高图，判断是否存在非线性耦合现象，若不存在非线性耦合，则认定此帧语音信号未经过篡改，则结束认定，若存在非线性耦合，则第一次认定此帧语音信号经过了篡改，转步骤(6)；(6)、判断第一次认定经过篡改的此帧语音信号是否需要再次认定其篡改的更精确位置：根据测试者的需求判断上述认定的经过篡改的帧语音信号是否需要进一步认定其篡改的更精确位置，若不需要再次认定，则结束认定，若需要再次认定，则转步骤(7)；(7)、需要再次认定的经过篡改的帧语音信号进行再更细的分帧，重复上述步骤(2)~(6)，认定此帧语音信号更准确的篡改位置：若需要进一步的准确定位，根据语音信号的可发声单位为最小单位，进行更细的分帧，重复上述步骤(2)~(6)，确定此帧语音信号更准确的篡改位置。
地址	200444上海市宝山区上大路99号