发明名称 一种具有语音识别功能的网络教学方法及系统
摘要 本发明提供一种网络教学方法及系统,实现了人脸识别和语音识别的双识别身份验证,教学过程和口语训练、测试和考试过程中对于语音信号采集的精准度,采用多模型打分测评,提高了测评的准确度,使得网络教学更加自主有效,特别是在涉及朗读、听力及背诵等教学时,可以通过系统的这些功能提高学的真实性和有效性。本发明的方法把人脸识别和声纹识别结合起来,在用户进行口语测试前或系统登录时,检查用户的身份,可以更好的鼓励用户在使用过程中真人发音测试。
申请公布号 CN105681920B 申请公布日期 2017.03.15
申请号 CN201511024902.X 申请日期 2015.12.30
申请人 深圳市鹰硕音频科技有限公司 发明人 李明;全小虎;卢启伟;徐永健
分类号 H04N21/478(2011.01)I;H04N5/76(2006.01)I;H04N21/472(2011.01)I;H04N21/6405(2011.01)I;H04N21/8547(2011.01)I;H04N21/433(2011.01)I;H04N21/43(2011.01)I;H04N21/2747(2011.01)I;H04N21/81(2011.01)I;G09B5/06(2006.01)I;G10L17/00(2013.01)I 主分类号 H04N21/478(2011.01)I
代理机构 北京和信华成知识产权代理事务所(普通合伙) 11390 代理人 胡剑辉
主权项 一种具有语音识别功能的网络教学方法,其特征在于,包括以下步骤:用户语音和用户图像采集步骤,用于在用户登陆网络教学系统时采集用户的音频数据和图像数据;前端处理:用于对上述采集的音频数据和图像数据进行处理:对于音频数据:送到前端处理模块进行语音增强,得到干净清晰的语音信号;对于图像数据:使用图像变换、灰度变换、直方图变换、空间域图像平滑、同态滤波处理光照的影响,进行图像增强,清晰图像的特征,得到高质量的人脸图像;特征比对步骤:前端处理后提取图像特征和声纹特征,然后与所述网络教学系统保存的用户模板特征进行比对,检测是否为用户本人;身份验证:通过声纹识别和人脸识别双重验证判断是否验证通过,如果验证通过,进入口语打分步骤;口语打分步骤:采用语音识别方法对用户的口语进行打分;所述网络教学方法用于包括多个用户终端和服务器的网络教学系统,它们通过网络进行通信,进一步还包括:—数据采集步骤,用于采集网络教学过程中的图像数据、应用数据和/或音频数据,该数据采集步骤所采集的数据用于同步显示、实时录制和/或语音识别,所述图像数据和音频数据的采集步骤包括前述的用户语音和用户图像的采集;—同步显示步骤,用于将所述采集的数据自动同步显示或者传送至学生用户终端上;—实时录制步骤,用于将所述采集的数据分别保存至数据库,使得用户可以点播回放教学过程;和—点播回放步骤,用于根据用户的请求,将保存的采集数据传送给用户并且在用户终端上组合以再现教学过程;所述数据采集步骤包括:—启动用户终端步骤,准备获取用于同步显示的数据以及教学过程中产生的音频数据,所述用于同步显示的数据包括同屏显示数据和同屏应用数据;—同屏显示数据获取步骤,获取用于图像同步显示的同屏显示图像数据;—同屏应用数据获取步骤,获取用于同步显示的同屏应用操作数据,其包括对于屏幕上显示的电子文档的各种应用操作;—音频数据获取步骤,获取教学过程中产生的用于同步传输、实时录制和语音识别的音频数据;—图像压缩步骤,采用JPEG格式压缩获取的所述同屏显示图像数据;—图像发送判断步骤,判断经过所述图像压缩步骤压缩的相邻两幅所述同屏显示图像是否相同,根据判断结果确定是否发送所述图像;—确定发送图像分割步骤,分割确定要发送的且文件大小超过UDP协议数据包的经过压缩的所述图像数据和所述音频数据,与符合协议大小要求的图像数据一起,形成待发送数据包。
地址 518100 广东省深圳市宝安区新安街道新安三路建达工业园1栋二楼202B