发明名称 一种广播电视语音识别系统方法及系统
摘要 本发明公开了一种广播电视语音识别方法及系统,其中方法包括:根据广播电视数据提取出音频数据;对音频数据进行预处理,得到特征文本数据;将特征文本数据发送给云服务器进行识别处理,得到男女声识别、说话人识别以及语音识别结果;对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识,生成结构化的语音识别结果。该方法对现有语音识别方法进行改进,融合各种广播电视数据预处理技术以及广播电视语音识别方法,对语音数据针对广播电视行业的数据处理要求进行识别处理,对各识别结果进行融合并生成结构化的语音识别结果,能够为后续广播电视节目的其他业务的智能化处理提供基础数据,且处理速度加快并提高准确度。
申请公布号 CN103700370B 申请公布日期 2016.08.17
申请号 CN201310648375.4 申请日期 2013.12.04
申请人 北京中科模识科技有限公司 发明人 陈鑫玮
分类号 G10L15/26(2006.01)I;G10L15/30(2013.01)I;H04N21/439(2011.01)I 主分类号 G10L15/26(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 李相雨
主权项 一种广播电视语音识别方法,其特征在于,包括:S1、根据广播电视数据提取出音频数据;S2、对所述音频数据进行预处理,得到特征文本数据;其中,步骤S2对所述音频数据进行预处理具体包括:S21、对所述音频数据进行切分和碎片化处理生成若干个句子文件;S22、对所述句子文件进行非语音过滤,留下语音句子文件;S23、对每个语音句子文件进行宽窄带判别,对判别为宽带信号的语音句子文件添加宽带标识,判别为窄带信号的语音句子文件添加窄带标识;S24、对添加宽带标识和窄带标识的语音句子文件进行音频特征提取,得到特征文本数据,其中所述特征文本数据中包含该语音句子的起止时间、语音特征信息、该句子归属的音视频文件名称和对应的宽窄带标识;S3、将所述特征文本数据发送给云服务器进行识别处理,得到男女声识别、说话人识别以及语音识别结果;步骤S3将所述特征文本数据发送给云服务器进行识别处理包括:男女声识别、说话人识别、语音内容识别和标点符号识别,生成含有标识的语音识别结果;并且步骤S3进行识别处理的过程是根据语言模型库进行识别的,且所述语音模型库通过网络文本采集和网络文本学习不断进行更新;所述语音模型库的更新步骤包括:S31、从互联网中定期搜集网络文本;S32、通过搜集的网络文本对网络文章进行分词,并统计词频、词数,将分词结果、网络热词采集结果以及统计数据录入该语音识别系统中的语言模型库,供各语音识别模块进行参考,实现对语言模型库的定期更新,以保障广播电视语音识别的准确率;S4、对所述数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识,生成结构化的语音识别结果;步骤S4对所述语音识别结果进行融合以及结构化文本标识具体包括:S41、对各个语音识别结果进行汇总、对齐,并按照其中包含的起止时间进行排序;S42、对排序后的语音识别结果按照结构化格式进行标记,包括说话人性别标识、说话人标识、语音内容、标点符号以及时间戳。
地址 100190 北京市海淀区中关村东路95号自动化大厦5层