发明名称 一种识别音频中人声的方法及装置
摘要 本发明公开了一种识别音频中人声的方法及装置,所述方法包括:对音频数据进行分帧处理;使用阶数为P的线性预测编码(LPC)分析分帧处理后的每一帧音频数据并提取音频特征,所述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度;根据所述音频特征形成P+3阶特征向量;使用支持向量机(SVM)算法对所述特征向量进行训练得到相应的支持向量机;根据所述支持向量机识别所述每一帧音频数据中是否含有人声。本发明可以实现音频中人声的高精度高置信度的识别,为歌曲内容分析提供基础性服务,从而进一步的实现歌词同步、歌曲分类、歌曲推荐等功能。
申请公布号 CN103489445B 申请公布日期 2016.03.30
申请号 CN201310429920.0 申请日期 2013.09.18
申请人 北京音之邦文化科技有限公司 发明人 田彪
分类号 G10L17/00(2013.01)I;G10L17/02(2013.01)I;G10L17/04(2013.01)I 主分类号 G10L17/00(2013.01)I
代理机构 北京品源专利代理有限公司 11332 代理人 胡彬
主权项 一种识别音频中人声的方法,其特征在于,包括:对音频数据进行分帧处理;使用阶数为P的线性预测编码LPC分析分帧处理后的每一帧音频数据并提取音频特征,所述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度;根据所述音频特征形成P+3阶特征向量;使用支持向量机SVM算法对所述特征向量进行训练得到相应的支持向量机;根据所述支持向量机识别所述每一帧音频数据中是否含有人声。
地址 100085 北京市海淀区清河安宁庄东路18号23号楼二层2108