发明名称 一种基于设备本底噪声频谱特征的手机来源识别方法
摘要 本发明公开了一种基于设备本底噪声频谱特征的手机来源识别方法,其对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取,对每个近静音段进行后处理并拼接整合成最终近静音段;然后根据每个手机对应的所有最终近静音段获取对应的测试语音子库;接着获取所有手机对应的通用背景噪声模型;之后获取每个手机的每个最终本底噪声及其频谱分布特征;再通过构建总训练集和总测试集,并分别得到训练特征空间和测试特征空间;最后对训练特征空间和测试特征空间先后进行降维和归一化,再对归一化后的训练特征空间进行模型训练,利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别;优点是识别准确率高、稳定性好,且计算复杂度低。
申请公布号 CN106531159A 申请公布日期 2017.03.22
申请号 CN201611129639.5 申请日期 2016.12.09
申请人 宁波大学 发明人 王让定;裴安山;严迪群;金超;徐宏伟
分类号 G10L15/06(2013.01)I;G10L15/08(2006.01)I;G10L19/012(2013.01)I;G10L19/02(2013.01)I;G10L21/0208(2013.01)I;G10L25/51(2013.01)I 主分类号 G10L15/06(2013.01)I
代理机构 宁波奥圣专利代理事务所(普通合伙) 33226 代理人 周珏
主权项 一种基于设备本底噪声频谱特征的手机来源识别方法,其特征在于包括以下步骤:①选取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的参与者;然后利用M个手机同时采集每个参与者用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取10个语音片段作为语音样本;再将每个手机对应的共10N个语音样本构成一个语音子库;其中,M&gt;1,N≥1;②利用自适应端点检测算法对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取;然后对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理,以消除近静音段中不必要的语音部分,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;再将每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段拼接起来整合成一个最终近静音段;③保留每个手机对应的所有最终近静音段中时长大于或等于1.5秒的最终近静音段,并将保留的所有最终近静音段构成该手机对应的用于求取本底噪声的频谱分布特征的测试语音子库;④利用改进的谱减法抑制每个手机对应的测试语音子库中的每个近静音段的背景噪声,得到每个手机对应的测试语音子库中的每个近静音段的背景噪声模型;然后获得所有手机对应的通用背景噪声模型,将第k个频率点处所有手机对应的通用背景噪声模型描述为BN<sub>mean</sub>(k),<img file="FDA0001175848220000011.GIF" wi="757" he="134" />其中,符号“| |”为取绝对值符号,BN<sub>m</sub>(k,n)表示第m个手机对应的测试语音子库中的所有近静音段的背景噪声模型的语谱图中的第k个频率点、第n帧在短时傅里叶变换域的频谱系数,1≤k≤K,K表示每个近静音段的频率点的总个数,<img file="FDA0001175848220000012.GIF" wi="269" he="119" />K<sub>fft</sub>表示短时傅里叶变换的点数;⑤将每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型的差值作为该手机的一个本底噪声;然后对每个手机的每个本底噪声进行中值滤波处理以去除每个手机的每个本底噪声中残余的背景噪声,得到每个手机的每个最终本底噪声;接着对每个手机的每个最终本底噪声进行傅里叶变换,得到每个手机的每个最终本底噪声的频谱系数;再对每个手机的每个最终本底噪声的频谱系数取10的对数,得到每个手机的每个最终本底噪声的取对数后的频谱系数;最后沿时间轴对每个手机的每个最终本底噪声的取对数后的频谱系数前T帧取平均,将该平均值作为每个手机的每个最终本底噪声的频谱分布特征;其中,傅里叶变换的点数为K<sub>fft</sub>,T帧的时长小于或等于1.5秒,且T≥3,每个手机的每个最终本底噪声的频谱分布特征的维数为K;⑥统计每个手机对应的测试语音子库中的近静音段的总个数,以最小的总个数为基准数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集;接着将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间;之后利用主成分分析方法对训练特征空间进行降维操作,再对降维后的训练特征空间中的所有值进行归一化处理;并根据对训练特征空间进行降维操作所采用的映射矩阵对测试特征空间进行降维操作,再对降维后的测试特征空间中的所有值进行归一化处理;最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,得到一个训练好的多分类模型,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。
地址 315211 浙江省宁波市江北区风华路818号