一种识别音频中人声的方法及装置,申请号CN201310429920.0-传众专利搜索

发明名称	一种识别音频中人声的方法及装置
摘要	本发明公开了一种识别音频中人声的方法及装置，所述方法包括：对音频数据进行分帧处理；使用阶数为P的线性预测编码(LPC)分析分帧处理后的每一帧音频数据并提取音频特征，所述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度；根据所述音频特征形成P+3阶特征向量；使用支持向量机(SVM)算法对所述特征向量进行训练得到相应的支持向量机；根据所述支持向量机识别所述每一帧音频数据中是否含有人声。本发明可以实现音频中人声的高精度高置信度的识别，为歌曲内容分析提供基础性服务，从而进一步的实现歌词同步、歌曲分类、歌曲推荐等功能。
申请公布号	CN103489445B	申请公布日期	2016.03.30
申请号	CN201310429920.0	申请日期	2013.09.18
申请人	北京音之邦文化科技有限公司	发明人	田彪
分类号	G10L17/00(2013.01)I;G10L17/02(2013.01)I;G10L17/04(2013.01)I	主分类号	G10L17/00(2013.01)I
代理机构	北京品源专利代理有限公司 11332	代理人	胡彬
主权项	一种识别音频中人声的方法，其特征在于，包括：对音频数据进行分帧处理；使用阶数为P的线性预测编码LPC分析分帧处理后的每一帧音频数据并提取音频特征，所述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度；根据所述音频特征形成P+3阶特征向量；使用支持向量机SVM算法对所述特征向量进行训练得到相应的支持向量机；根据所述支持向量机识别所述每一帧音频数据中是否含有人声。
地址	100085 北京市海淀区清河安宁庄东路18号23号楼二层2108