主权项 |
一种基于量化特性的语音篡改定位检测方法,其特征在于该语音篡改定位检测方法包括如下步骤:步骤一、选取给定的包含L个样本的语音信号X,将X划分为每帧1152个样本,每帧有50%的重叠,因此一共有<img file="163328dest_path_image001.GIF" wi="83" he="27" />帧,<img file="407228dest_path_image002.GIF" wi="259" he="27" />,其中F表示分帧和加窗函数操作;步骤二、应用滤波器组和MDCT到每一帧,以获取其频谱系数<img file="596901dest_path_image003.GIF" wi="309" he="27" />,其中<img file="559041dest_path_image004.GIF" wi="22" he="18" />表示滤波器组和MDCT,<img file="187468dest_path_image005.GIF" wi="27" he="27" />表示第<img file="489136dest_path_image006.GIF" wi="12" he="19" />帧的频谱,每帧包含576个频谱系数;<img file="410563dest_path_image007.GIF" wi="344" he="27" />,其中<img file="797682dest_path_image008.GIF" wi="16" he="18" />表示提取每帧频谱系数中值为0和<img file="229800dest_path_image009.GIF" wi="52" he="25" />的个数,记为;<img file="120396dest_path_image010.GIF" wi="50" he="30" />步骤三、对<img file="979767dest_path_image011.GIF" wi="26" he="27" />的每一个频谱系数用<img file="588603dest_path_image012.GIF" wi="55" he="26" />,进行如下公式量化:<img file="824412dest_path_image013.GIF" wi="521" he="87" /><img file="835094dest_path_image014.GIF" wi="71" he="35" />表示第<img file="366831dest_path_image015.GIF" wi="14" he="21" />帧中第<img file="462963dest_path_image016.GIF" wi="17" he="27" />个频谱系数,<img file="236884dest_path_image017.GIF" wi="62" he="33" />表示量化的第<img file="102072dest_path_image015.GIF" wi="14" he="21" />帧第<img file="303246dest_path_image016.GIF" wi="17" he="27" />个频谱系数,用<img file="886674dest_path_image018.GIF" wi="27" he="23" />表示第<img file="198707dest_path_image015.GIF" wi="14" he="21" />帧的量化频谱系数;步骤四、将获取的量化频谱系数<img file="744833dest_path_image019.GIF" wi="19" he="22" />,应用<img file="54591dest_path_image020.GIF" wi="19" he="19" />函数获取每帧中值为0的个数记为<img file="187632dest_path_image021.GIF" wi="30" he="27" />,<img file="241039dest_path_image022.GIF" wi="282" he="34" />,并计算<img file="143136dest_path_image023.GIF" wi="175" he="32" />;步骤五、最后计算<img file="623796dest_path_image024.GIF" wi="546" he="69" />其中find函数表示<img file="978554dest_path_image025.GIF" wi="15" he="25" />中值不等于0时返回索引值;<img file="835651dest_path_image026.GIF" wi="14" he="18" />表示设置的阈值,在实验中设置为4,也即表示返回没有连续出现4个值为0值的位置,其中设置检测时滑动框数量为6个单位,表示检测的精度在6/2帧的范围,也即检测误差为3帧,经过计算并最终确认语音文件的篡改定位。 |