发明名称 |
一种声音重录攻击的识别方法 |
摘要 |
本发明涉及多媒体信息安全领域,具体是涉及一种声音重录攻击的识别方法;其特征在于,主要包括以下步骤:首先,提取MFCC;其次,对语音片段x(n)分帧;第三,提取语音识别特征;第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。本发明技术方案在识别性能上能达到99.67%,能在大多数应用场合中成功识别重录声音。 |
申请公布号 |
CN106409298A |
申请公布日期 |
2017.02.15 |
申请号 |
CN201610889813.X |
申请日期 |
2016.09.30 |
申请人 |
广东技术师范学院 |
发明人 |
王泳;李山路 |
分类号 |
G10L17/02(2013.01)I;G10L17/04(2013.01)I;G10L17/26(2013.01)I;G10L25/24(2013.01)I;G10L25/45(2013.01)I;G10L25/51(2013.01)I |
主分类号 |
G10L17/02(2013.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种声音重录攻击的识别方法,其特征在于,主要包括以下步骤:首先,提取MFCC;其次,对语音片段x(n)分帧;所述语音片段x(n)分帧分成N帧,则每帧分别提取前L维MFCC系数、前L维一次差分MFCC系数(ΔMFCC)和前L维二次差分MFCC系数(ΔΔMFCC),获得3个L维向量,记x(n)第i帧的MFCC向量的第j个元素为v<sub>ij</sub>,则x(n)所有帧的MFCC向量的第j个元素V<sub>j</sub>可表示为V<sub>j</sub>={v<sub>1j</sub>,v<sub>2j</sub>,…,v<sub>Nj</sub>},j=1,2,…,L (1)第三,提取语音识别特征;使用两种统计矩,即向量V<sub>j</sub>的均值E<sub>j</sub>和V<sub>j</sub>与V<sub>j</sub>的相关系数C<sub>jj</sub>,即E<sub>j</sub>=E(V<sub>j</sub>),j=1,2,…,L (2)<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><msub><mi>C</mi><mrow><msup><mi>jj</mi><mo>′</mo></msup></mrow></msub><mo>=</mo><mfrac><mrow><mi>cov</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>j</mi></msub><mo>,</mo><msub><mi>V</mi><msup><mi>j</mi><mo>′</mo></msup></msub><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><mi>V</mi><mi>A</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msqrt><msqrt><mrow><mi>V</mi><mi>A</mi><mi>R</mi><mrow><mo>(</mo><msub><mi>V</mi><msup><mi>j</mi><mo>′</mo></msup></msub><mo>)</mo></mrow></mrow></msqrt></mrow></mfrac></mrow></mtd><mtd><mrow><mn>1</mn><mo>≤</mo><mi>j</mi><mo><</mo><msup><mi>j</mi><mo>′</mo></msup><mo>≤</mo><mi>L</mi></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FSA0000135171490000011.GIF" wi="1195" he="181" /></maths>两种统计特征联合组成基于MFCC的统计特征向量,即F<sub>MFCC</sub>=[E<sub>1</sub>,E<sub>2</sub>,…,E<sub>L</sub>,C<sub>12</sub>,C<sub>13</sub>,…,C<sub>(L‑1)L</sub>] (4)其中,F<sub>MFCC</sub>的维数为L+1+2+…+(L‑1)=L+L*(L‑1)/2=(L<sup>2</sup>+L)/2,对ΔMFCC向量和ΔΔMFCC向量计算相同的统计特征向量F<sub>ΔMFCC</sub>和F<sub>ΔΔMFCC</sub>,将F<sub>MFCC</sub>、F<sub>ΔMFCC</sub>和F<sub>ΔΔMFCC</sub>连在一起组成x(n)的特征向量F,即F=[F<sub>MFCC</sub>,F<sub>ΔMFCC</sub>,F<sub>ΔΔMFCC</sub>] (5)其中,F的维数为3*(L<sup>2</sup>+L)/2;F即为本发明采用的识别特征;第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。 |
地址 |
510665 广东省广州市天河区石牌中山大道293号 |