基于视线跟踪与语音识别的字符输入装置和方法,申请号CN201210517734.8-传众专利搜索

发明名称	基于视线跟踪与语音识别的字符输入装置和方法
摘要	基于视线跟踪与语音识别的字符输入装置和方法，本发明的装置包括头盔单元，ARM核单元，图像采集卡，语音识别模块，DSP核单元，场景图像处理模块，坐标转换模块，界面模块。本发明的方法在采集并处理眼图、场景图像和用户语音信号的基础上，先通过校准得到标定系数，再通过求解二维标定方程、坐标转换矩阵得到用户视线注视点在界面坐标系中的坐标值，最终获得期望输入的字符，并配合用户的语音信息，完成字符输入操作以及四则运算操作。本发明具有字符输入注视精度高，头部活动范围较大，操作简捷的优点。具备良好的实用性和可操作性。
申请公布号	CN103076876B	申请公布日期	2016.02.10
申请号	CN201210517734.8	申请日期	2012.11.22
申请人	西安电子科技大学	发明人	何迪;彭弘铭;崔耀;于明轩;王军宁;高静;魏雯婷
分类号	G06F3/01(2006.01)I;G10L15/22(2006.01)I	主分类号	G06F3/01(2006.01)I
代理机构	陕西电子工业专利中心 61205	代理人	田文英;王品华
主权项	一种基于视线跟踪与语音识别的字符输入方法，其具体步骤如下：(1)绘制界面1a)启动界面模块，创建两个界面视图；1b)在一个界面视图中绘制9个坐标已知的均匀分布点，作为界面中的校准标志点；1c)在另一个界面视图中绘制输入键盘：绘制任意4个坐标已知的点，作为界面中的转换标志点，按照电脑常用键盘的字符分布，划分出5行共55个边界值已知的分块区域，依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键；(2)采集眼图、场景图像2a)头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图；2b)场景摄像机采集用户正前方场景图像；(3)处理眼图眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值，将瞳孔中心坐标值减去普尔钦光斑中心坐标值，获得瞳孔‑光斑矢量值；(4)处理场景图像4a)构建场景图像坐标系：以步骤2b)采集的场景图像左上角的点为原点，以像素点在图像上的列号为X轴坐标值，以像素点在图像上的行号为Y轴坐标值，构建完成场景图像坐标系；4b)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法，得到步骤1b)中9个校准标志点在场景图像坐标系中的坐标值；4c)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法，得到步骤1c)中4个转换标志点在场景图像坐标系中的坐标值；(5)判断校准标志点的个数5a)统计当前用户确认成功后的校准标志点个数；5b)若已校准的校准标志点个数小于9，则执行步骤(6)；5c)若已校准的校准标志点个数等于9且步骤(7)未执行，则执行步骤(7)；5d)若已校准的校准标志点个数等于9且步骤(7)已执行过，则执行步骤(8)；(6)标志点校准6a)语音识别模块接收到用户语音信号为“YES”，则表示当前标志点校准成功，返回步骤(2)，由界面模块对下一个校准标志点采集眼图；6b)语音识别模块接收到用户语音信号为“NO”，则表示当前标志点校准失败，返回步骤(2)，由界面模块对当前校准标志点采集眼图；(7)求解标定系数标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值，以及步骤(3)中与校准标志点对应的瞳孔‑光斑矢量值分别代入二维标定方程组，求解得到二维标定方程组的标定系数；(8)获得用户视线注视点8a)将步骤(3)中的用户视线注视点瞳孔‑光斑矢量，以及步骤(7)中解得的标定系数分别代入二维标定方程组，求解得到用户视线注视点在场景图像坐标系中的坐标值；8b)构建界面坐标系：以界面图像左上角的点为原点，以像素点在图像上的列号为X轴坐标值，以像素点在图像上的行号为Y轴坐标值，构建完成界面坐标系，获得4个转换标志点在界面坐标系的坐标值；8c)将步骤4c)中4个转换标志点在场景图像坐标系的坐标值，以及在步骤8b)中界面坐标系的坐标值，代入跟踪方程，求解得到坐标转换矩阵；所述的跟踪方程为矩阵形式，具体表达式如下：X<sub>c</sub>＝HX<sub>s</sub>X<sub>c</sub>＝(x<sub>c</sub>，y<sub>c</sub>，1)<sup>T</sup>X<sub>s</sub>＝(x<sub>s</sub>，y<sub>s</sub>，z<sub>s</sub>)<sup>T</sup>其中，X<sub>c</sub>与X<sub>s</sub>分别表示界面坐标系与场景图像坐标系中点坐标向量，H为坐标转换矩阵，x<sub>c</sub>与y<sub>c</sub>分别表示界面坐标系中点的X轴坐标值与Y轴坐标值，x<sub>s</sub>与y<sub>s</sub>分别表示场景图像坐标系中点的X轴坐标值与Y轴坐标值，z<sub>s</sub>表示场景图像坐标系中点的Z轴坐标值，z<sub>s</sub>＝x<sub>s</sub>+y<sub>s</sub>‑1，c表示界面坐标系，s表示场景图像坐标系，T表示转置操作；8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值，以及步骤8c)中解得的坐标转换矩阵，代入跟踪方程，求解得到用户视线注视点在界面坐标系中的坐标值；所述的跟踪方程为矩阵形式，具体表达式如下：X<sub>c</sub>＝HX<sub>s</sub>X<sub>c</sub>＝(x<sub>c</sub>，y<sub>c</sub>，1)<sup>T</sup>X<sub>s</sub>＝(x<sub>s</sub>，y<sub>s</sub>，z<sub>s</sub>)<sup>T</sup>其中，X<sub>c</sub>与X<sub>s</sub>分别表示界面坐标系与场景图像坐标系中点坐标向量，H为坐标转换矩阵，x<sub>c</sub>与y<sub>c</sub>分别表示界面坐标系中点的X轴坐标值与Y轴坐标值，x<sub>s</sub>与y<sub>s</sub>分别表示场景图像坐标系中点的X轴坐标值与Y轴坐标值，z<sub>s</sub>表示场景图像坐标系中点的Z轴坐标值，z<sub>s</sub>＝x<sub>s</sub>+y<sub>s</sub>‑1，c表示界面坐标系，s表示场景图像坐标系，T表示转置操作；(9)完成期望字符输入9a)界面模块检测步骤8d)的用户视线注视点在界面坐标系中的坐标值处于步骤1c)中的哪一个分块区域，由所确定的分块区域得知界面输入键盘上与之对应的键；9b)语音识别模块接收到用户语音信号为“YES”，且当前输入键不为“Esc”时，则认为完成了当前期望字符的输入，返回执行步骤(2)，输入下一期望字符；9c)语音识别模块接收到用户语音信号为“YES”，且当前输入键为“Esc”时，则执行步骤(10)；9d)语音识别模块接收到用户语音信号为“NO”时，返回执行步骤(2)，重新输入期望字符；(10)退出字符输入。
地址	710071 陕西省西安市太白南路2号