发明名称 一种声音重录攻击的识别方法
摘要 本发明涉及多媒体信息安全领域,具体是涉及一种声音重录攻击的识别方法;其特征在于,主要包括以下步骤:首先,提取MFCC;其次,对语音片段x(n)分帧;第三,提取语音识别特征;第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。本发明技术方案在识别性能上能达到99.67%,能在大多数应用场合中成功识别重录声音。
申请公布号 CN106409298A 申请公布日期 2017.02.15
申请号 CN201610889813.X 申请日期 2016.09.30
申请人 广东技术师范学院 发明人 王泳;李山路
分类号 G10L17/02(2013.01)I;G10L17/04(2013.01)I;G10L17/26(2013.01)I;G10L25/24(2013.01)I;G10L25/45(2013.01)I;G10L25/51(2013.01)I 主分类号 G10L17/02(2013.01)I
代理机构 代理人
主权项 一种声音重录攻击的识别方法,其特征在于,主要包括以下步骤:首先,提取MFCC;其次,对语音片段x(n)分帧;所述语音片段x(n)分帧分成N帧,则每帧分别提取前L维MFCC系数、前L维一次差分MFCC系数(ΔMFCC)和前L维二次差分MFCC系数(ΔΔMFCC),获得3个L维向量,记x(n)第i帧的MFCC向量的第j个元素为v<sub>ij</sub>,则x(n)所有帧的MFCC向量的第j个元素V<sub>j</sub>可表示为V<sub>j</sub>={v<sub>1j</sub>,v<sub>2j</sub>,…,v<sub>Nj</sub>},j=1,2,…,L  (1)第三,提取语音识别特征;使用两种统计矩,即向量V<sub>j</sub>的均值E<sub>j</sub>和V<sub>j</sub>与V<sub>j</sub>的相关系数C<sub>jj</sub>,即E<sub>j</sub>=E(V<sub>j</sub>),j=1,2,…,L  (2)<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><msub><mi>C</mi><mrow><msup><mi>jj</mi><mo>&prime;</mo></msup></mrow></msub><mo>=</mo><mfrac><mrow><mi>cov</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>j</mi></msub><mo>,</mo><msub><mi>V</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><mi>V</mi><mi>A</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msqrt><msqrt><mrow><mi>V</mi><mi>A</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>V</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow></mrow></msqrt></mrow></mfrac></mrow></mtd><mtd><mrow><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&lt;</mo><msup><mi>j</mi><mo>&prime;</mo></msup><mo>&le;</mo><mi>L</mi></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FSA0000135171490000011.GIF" wi="1195" he="181" /></maths>两种统计特征联合组成基于MFCC的统计特征向量,即F<sub>MFCC</sub>=[E<sub>1</sub>,E<sub>2</sub>,…,E<sub>L</sub>,C<sub>12</sub>,C<sub>13</sub>,…,C<sub>(L‑1)L</sub>]  (4)其中,F<sub>MFCC</sub>的维数为L+1+2+…+(L‑1)=L+L*(L‑1)/2=(L<sup>2</sup>+L)/2,对ΔMFCC向量和ΔΔMFCC向量计算相同的统计特征向量F<sub>ΔMFCC</sub>和F<sub>ΔΔMFCC</sub>,将F<sub>MFCC</sub>、F<sub>ΔMFCC</sub>和F<sub>ΔΔMFCC</sub>连在一起组成x(n)的特征向量F,即F=[F<sub>MFCC</sub>,F<sub>ΔMFCC</sub>,F<sub>ΔΔMFCC</sub>]  (5)其中,F的维数为3*(L<sup>2</sup>+L)/2;F即为本发明采用的识别特征;第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。
地址 510665 广东省广州市天河区石牌中山大道293号