发明名称 一种基于量化特性的语音篡改定位检测方法
摘要 本发明公开了一种基于量化特性的语音篡改定位检测方法,主要是基于现有技术中帧偏移的MP3篡改定位检测算法进行的深入研究,并提出一种更新的检测方法用于描述量化特性,这种检测方法无需进行帧偏移检测,故能避免计算帧偏移带来的计算复杂性,极大降低了计算的复杂度,同时还解决了帧偏移无法检测的高码率情况,实验结果表明这种检测方法具有较高的检测准确率。
申请公布号 CN105719660A 申请公布日期 2016.06.29
申请号 CN201610038523.4 申请日期 2016.01.21
申请人 宁波大学 发明人 王让定;陶表犁;严迪群;金超;周劲蕾
分类号 G10L25/48(2013.01)I 主分类号 G10L25/48(2013.01)I
代理机构 宁波天一专利代理有限公司 33207 代理人 刘赛云
主权项 一种基于量化特性的语音篡改定位检测方法,其特征在于该语音篡改定位检测方法包括如下步骤:步骤一、选取给定的包含L个样本的语音信号X,将X划分为每帧1152个样本,每帧有50%的重叠,因此一共有<img file="163328dest_path_image001.GIF" wi="83" he="27" />帧,<img file="407228dest_path_image002.GIF" wi="259" he="27" />,其中F表示分帧和加窗函数操作;步骤二、应用滤波器组和MDCT到每一帧,以获取其频谱系数<img file="596901dest_path_image003.GIF" wi="309" he="27" />,其中<img file="559041dest_path_image004.GIF" wi="22" he="18" />表示滤波器组和MDCT,<img file="187468dest_path_image005.GIF" wi="27" he="27" />表示第<img file="489136dest_path_image006.GIF" wi="12" he="19" />帧的频谱,每帧包含576个频谱系数;<img file="410563dest_path_image007.GIF" wi="344" he="27" />,其中<img file="797682dest_path_image008.GIF" wi="16" he="18" />表示提取每帧频谱系数中值为0和<img file="229800dest_path_image009.GIF" wi="52" he="25" />的个数,记为;<img file="120396dest_path_image010.GIF" wi="50" he="30" />步骤三、对<img file="979767dest_path_image011.GIF" wi="26" he="27" />的每一个频谱系数用<img file="588603dest_path_image012.GIF" wi="55" he="26" />,进行如下公式量化:<img file="824412dest_path_image013.GIF" wi="521" he="87" /><img file="835094dest_path_image014.GIF" wi="71" he="35" />表示第<img file="366831dest_path_image015.GIF" wi="14" he="21" />帧中第<img file="462963dest_path_image016.GIF" wi="17" he="27" />个频谱系数,<img file="236884dest_path_image017.GIF" wi="62" he="33" />表示量化的第<img file="102072dest_path_image015.GIF" wi="14" he="21" />帧第<img file="303246dest_path_image016.GIF" wi="17" he="27" />个频谱系数,用<img file="886674dest_path_image018.GIF" wi="27" he="23" />表示第<img file="198707dest_path_image015.GIF" wi="14" he="21" />帧的量化频谱系数;步骤四、将获取的量化频谱系数<img file="744833dest_path_image019.GIF" wi="19" he="22" />,应用<img file="54591dest_path_image020.GIF" wi="19" he="19" />函数获取每帧中值为0的个数记为<img file="187632dest_path_image021.GIF" wi="30" he="27" />,<img file="241039dest_path_image022.GIF" wi="282" he="34" />,并计算<img file="143136dest_path_image023.GIF" wi="175" he="32" />;步骤五、最后计算<img file="623796dest_path_image024.GIF" wi="546" he="69" />其中find函数表示<img file="978554dest_path_image025.GIF" wi="15" he="25" />中值不等于0时返回索引值;<img file="835651dest_path_image026.GIF" wi="14" he="18" />表示设置的阈值,在实验中设置为4,也即表示返回没有连续出现4个值为0值的位置,其中设置检测时滑动框数量为6个单位,表示检测的精度在6/2帧的范围,也即检测误差为3帧,经过计算并最终确认语音文件的篡改定位。
地址 315211 浙江省宁波市江北区风华路818号