发明名称 结合图像的语音定位和增强系统及方法
摘要 本发明提供一种结合图像的语音定位和增强系统及方法,所述定位系统包括图像识别跟踪子系统和语音定位和增强子系统。图像识别跟踪子系统包括:摄像头,用于采集图像序列;图像识别跟踪单元,用于识别人员并缓存脸部三维坐标;通过识别人员执行的第一预定义操作唤醒语音定位和增强子系统,并发送脸部三维坐标;跟踪识别所述人员,并发送更新的脸部三维坐标。语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位。本发明实现了结合图像的语音跟踪定位,且具备适用于复杂环境的优点。
申请公布号 CN106024003A 申请公布日期 2016.10.12
申请号 CN201610304047.6 申请日期 2016.05.10
申请人 北京地平线信息技术有限公司 发明人 徐荣强
分类号 G10L21/0216(2013.01)I;G06K9/00(2006.01)I;G01S5/18(2006.01)I 主分类号 G10L21/0216(2013.01)I
代理机构 北京志霖恒远知识产权代理事务所(普通合伙) 11435 代理人 陈姗姗
主权项 一种结合图像的语音定位和增强系统,其特征在于,所述系统包括图像识别跟踪子系统和语音定位和增强子系统;所述图像识别跟踪子系统包括:摄像头,用于采集当前场景的图像序列;图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;所述语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
地址 100080 北京市海淀区海淀大街3号B座10层10-031