一种声音重录攻击的识别方法,申请号CN201610889813.X-传众专利搜索

发明名称	一种声音重录攻击的识别方法
摘要	本发明涉及多媒体信息安全领域，具体是涉及一种声音重录攻击的识别方法；其特征在于，主要包括以下步骤：首先，提取MFCC；其次，对语音片段x(n)分帧；第三，提取语音识别特征；第四，训练出SVM分类器；输入原始语音作为正例训练样本，输入录制语音作为反例训练样本，从正反例样本中提取特征F以训练出SVM分类器；最后，测试识别；提取特征测试语音的特征F并输入SVM分类器进行判别。本发明技术方案在识别性能上能达到99.67％，能在大多数应用场合中成功识别重录声音。
申请公布号	CN106409298A	申请公布日期	2017.02.15
申请号	CN201610889813.X	申请日期	2016.09.30
申请人	广东技术师范学院	发明人	王泳;李山路
分类号	G10L17/02(2013.01)I;G10L17/04(2013.01)I;G10L17/26(2013.01)I;G10L25/24(2013.01)I;G10L25/45(2013.01)I;G10L25/51(2013.01)I	主分类号	G10L17/02(2013.01)I
代理机构		代理人
主权项	一种声音重录攻击的识别方法，其特征在于，主要包括以下步骤：首先，提取MFCC；其次，对语音片段x(n)分帧；所述语音片段x(n)分帧分成N帧，则每帧分别提取前L维MFCC系数、前L维一次差分MFCC系数(ΔMFCC)和前L维二次差分MFCC系数(ΔΔMFCC)，获得3个L维向量，记x(n)第i帧的MFCC向量的第j个元素为v<sub>ij</sub>，则x(n)所有帧的MFCC向量的第j个元素V<sub>j</sub>可表示为V<sub>j</sub>＝{v<sub>1j</sub>，v<sub>2j</sub>，…，v<sub>Nj</sub>}，j＝1，2，…，L (1)第三，提取语音识别特征；使用两种统计矩，即向量V<sub>j</sub>的均值E<sub>j</sub>和V<sub>j</sub>与V<sub>j</sub>的相关系数C<sub>jj</sub>，即E<sub>j</sub>＝E(V<sub>j</sub>)，j＝1，2，…，L (2)<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><msub><mi>C</mi><mrow><msup><mi>jj</mi><mo>′</mo></msup></mrow></msub><mo>=</mo><mfrac><mrow><mi>cov</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>j</mi></msub><mo>,</mo><msub><mi>V</mi><msup><mi>j</mi><mo>′</mo></msup></msub><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><mi>V</mi><mi>A</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msqrt><msqrt><mrow><mi>V</mi><mi>A</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>V</mi><msup><mi>j</mi><mo>′</mo></msup></msub><mo>)</mo></mrow></mrow></msqrt></mrow></mfrac></mrow></mtd><mtd><mrow><mn>1</mn><mo>≤</mo><mi>j</mi><mo><</mo><msup><mi>j</mi><mo>′</mo></msup><mo>≤</mo><mi>L</mi></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FSA0000135171490000011.GIF" wi="1195" he="181" /></maths>两种统计特征联合组成基于MFCC的统计特征向量，即F<sub>MFCC</sub>＝[E<sub>1</sub>，E<sub>2</sub>，…，E<sub>L</sub>，C<sub>12</sub>，C<sub>13</sub>，…，C<sub>(L‑1)L</sub>] (4)其中，F<sub>MFCC</sub>的维数为L+1+2+…+(L‑1)＝L+L(L‑1)/2＝(L<sup>2</sup>+L)/2，对ΔMFCC向量和ΔΔMFCC向量计算相同的统计特征向量F<sub>ΔMFCC</sub>和F<sub>ΔΔMFCC</sub>，将F<sub>MFCC</sub>、F<sub>ΔMFCC</sub>和F<sub>ΔΔMFCC</sub>连在一起组成x(n)的特征向量F，即F＝[F<sub>MFCC</sub>，F<sub>ΔMFCC</sub>，F<sub>ΔΔMFCC</sub>] (5)其中，F的维数为3(L<sup>2</sup>+L)/2；F即为本发明采用的识别特征；第四，训练出SVM分类器；输入原始语音作为正例训练样本，输入录制语音作为反例训练样本，从正反例样本中提取特征F以训练出SVM分类器；最后，测试识别；提取特征测试语音的特征F并输入SVM分类器进行判别。
地址	510665 广东省广州市天河区石牌中山大道293号