发明名称 |
一种识别音频中人声的方法及装置 |
摘要 |
本发明公开了一种识别音频中人声的方法及装置,所述方法包括:对音频数据进行分帧处理;使用阶数为P的线性预测编码(LPC)分析分帧处理后的每一帧音频数据并提取音频特征,所述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度;根据所述音频特征形成P+3阶特征向量;使用支持向量机(SVM)算法对所述特征向量进行训练得到相应的支持向量机;根据所述支持向量机识别所述每一帧音频数据中是否含有人声。本发明可以实现音频中人声的高精度高置信度的识别,为歌曲内容分析提供基础性服务,从而进一步的实现歌词同步、歌曲分类、歌曲推荐等功能。 |
申请公布号 |
CN103489445B |
申请公布日期 |
2016.03.30 |
申请号 |
CN201310429920.0 |
申请日期 |
2013.09.18 |
申请人 |
北京音之邦文化科技有限公司 |
发明人 |
田彪 |
分类号 |
G10L17/00(2013.01)I;G10L17/02(2013.01)I;G10L17/04(2013.01)I |
主分类号 |
G10L17/00(2013.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
胡彬 |
主权项 |
一种识别音频中人声的方法,其特征在于,包括:对音频数据进行分帧处理;使用阶数为P的线性预测编码LPC分析分帧处理后的每一帧音频数据并提取音频特征,所述音频特征包括短时过零率、P阶LPC预测系数和LPC预测残差幅度谱的偏度和峰度;根据所述音频特征形成P+3阶特征向量;使用支持向量机SVM算法对所述特征向量进行训练得到相应的支持向量机;根据所述支持向量机识别所述每一帧音频数据中是否含有人声。 |
地址 |
100085 北京市海淀区清河安宁庄东路18号23号楼二层2108 |