发明名称 一种基于语音识别的视频播放控制方法和系统
摘要 本发明公开了一种基于语音识别的视频控制方法,包括:对用户的语音进行训练提取语音特征并保存在语音特征库中;接收用户的语音控制命令,与所述保存的用户语音特征进行对比;其中,当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制。本发明采取了上述技术方案以后,克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点;并且,由于本申请的语音特征是基于特定人而保存在语音特征库中,能够实现基于特征人的语音识别的效果,并且,该种方法进行语音识别和控制,其准确率较高。此外,本发明还公开了一种基于语音识别的视频控制系统。
申请公布号 CN102568478B 申请公布日期 2015.01.07
申请号 CN201210025924.8 申请日期 2012.02.07
申请人 合一网络技术(北京)有限公司 发明人 吴昊宇;邓龙;姚键;邱丹;潘柏宇;卢述奇;刘睿姝
分类号 G10L15/30(2013.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L25/48(2013.01)I;H04N21/432(2011.01)I 主分类号 G10L15/30(2013.01)I
代理机构 北京庆峰财智知识产权代理事务所(普通合伙) 11417 代理人 刘元霞
主权项 一种基于语音识别的视频控制方法,包括:当用户没有进行语音特征训练时,对用户的语音进行训练提取语音特征,并基于用户的UID将所述UID和具体的语音特征一起保存在服务器中的语音特征库中,其中,该语音特征库是一个互联网服务器中的数据库;在语音特征库存储所述UID以及用户的语音特征之后,接收具有所述UID的用户在本机、他机或移动设备上输入的语音控制命令,与所述语音特征库保存的用户语音特征进行对比;其中,当该用户的语音特征与服务器中的用户语音特征相匹配后,提取该语音控制命令并基于该语音控制命令进行视频播放的控制;所述对用户语音进行训练提取语音特征并基于用户的UID将所述UID和具体的语音特征一起保存在语音特征库中,具体包括:计算用户的语音的声学参数,提取出能够反映语音信号特征的关键特征参数并进行降维;获取用户输入的若干次控制命令的训练语音;经过预处理和语音特征后,得到特定用户的语音特征矢量参数并和用户的UID一起存储在网络服务器中的语音特征库中;所述具有所述UID的用户在本机、他机或移动设备上输入的语音控制命令,与所述保存的用户语音特征进行对比,具体包括:将具有所述UID的用户后续输入的语音控制命令与语音特征库中存储的该用户的UID对应的各指令语音特征进行相似度量,判断用户的语音控制命令是否匹配语音特征库的特征;其中,用户在观看过程中,需要首先对着麦克风说出某个发语词;语音识别程序在识别发语词之后,在特定时间内的操作命令被认为是有效的,并且进行识别,匹配相应的操作命令,并且做出反应;其中,在语音识别程序识别发语词特定时间之后,如果没有识别出语音控制命令,那么再次进行等待阶段,这时候需要再次对麦克风说出发语词,之后才能进行语音控制;其中,当用户B试图使用用户A的UID进行语音识别,点击开始后给出指令播放,服务器搜索用户A的UID的语音特征,发现本次语音指令的语音特征与特定语音特征库中UID对应的用户A的语音特征不匹配,则给出提示信息,提示用户B注册或登录自己的账户,再进行语音识别的操作。
地址 100080 北京市海淀区海淀大街8号中钢国际广场A座5层A、C区