发明名称 多维感官人机交互系统及交互方法
摘要 多维感官人机交互系统及交互方法,是一种基于头部姿态控制、语音控制和键盘鼠标操作等交互方式相结合的多维感知人机交互系统及方法,由8个模块组成:用户信息采集模块、用户信息识别分析模块、头部姿态控制功能模块、语音控制功能模块、存储模块、界面交互模块、自定制模块和程序控制模块。该方法通过采集用户信息、识别分析用户信息、头部姿态控制或语音控制功能实现、用户界面输出4个过程实现。本发明具有适用范围广、可维护性好、扩展性好等优点。此外,该系统为计算机用户提供了一种新颖的人机交互的处理方法,对于普通用户提高操作效率、颈部健身,以及老年人学计算机,都有很大的帮助。
申请公布号 CN102622085A 申请公布日期 2012.08.01
申请号 CN201210105344.X 申请日期 2012.04.11
申请人 北京航空航天大学 发明人 宋友;张野;王泽强;王洪磊;钦恩强;罗云峰
分类号 G06F3/01(2006.01)I;G06F3/048(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F3/01(2006.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉
主权项 多维感官人机交互系统,其特征在于包括:用户信息采集模块、用户信息识别分析模块、头部姿态控制功能模块、语音控制功能模块、存储模块、界面交互模块和程序控制模块;其中:用户信息采集模块:从操作系统默认的视频输入设备和音频输入设备获取视频流和音频流,并将视频流和音频流送至用户信息识别分析模块中;如果找不到视频输入设备或音频输入设备,则交由程序控制模块阻塞用户信息识别分析模块、头部姿态控制功能模块、语音控制功能模块中与头部姿态或语音有关的程序流程;用户信息识别分析模块:对从用户信息采集模块中得到的视频流和音频流进行处理,得到能够直接处理的信息对象;对于视频流的处理,从视频流中提取到彩色帧,经过颜色空间转换、均值化处理、图像缩放、边缘处理、计算积分图像和使用分类器搜索目标后,检测出每一帧中的头部图像,得到每一帧所识别出的头部图像的数组,并将每一帧所识别出的头部图像的数组送至头部姿态控制功能模块;对于音频流的处理,调用相关的语音应用程序接口(SAPI),通过语音识别引擎将语音转换成语音信息文本,交给语音控制功能模块使用;头部姿态控制功能模块:从得到的每一帧头部图像的数组中检测出最大的头部作为识别的用户的头部,根据识别出的用户头部,确定用户头部的中心位置,并计算出连续N帧的头部中心位置的平均值作为标定值;当某一帧用户头部的中心位置的超出平均值达到模块设定的阈值时,则判定用户头部处于运动状态;否则,判定用户头部处于静止状态;用户头部处于运动状态时,该模块提供两种模式供用户选择:普通模式和游戏模式,用户可通过程序控制模块对这两种模式进行选择;若用户选择普通模式,该模块可根据头部动作方向控制鼠标的移动方向,即将头部动作方向映射为鼠标的移动方向;若用户选择游戏模式,该模块可根据头部动作方向模拟游戏的方向按键;同时,该模块将识别 出的头部区域、头部动作方向传给界面交互模块;语音控制功能模块:接受用户信息识别分析模块输出的语音信息文本,由程序控制模块判断系统听写状态是否开启,用户可通过程序控制模块选择听写状态的开启与关闭;若听写状态开启,则接受语音信息文本后,调用存储模块中的快捷键语音命令,进行查找匹配,如果匹配成功,则触发对应的键盘按键事件,完成语音命令所代表的windows操作系统的快捷键操作;如果匹配失败,则将接受的语音信息文以文字的形式发送到剪切板中,再粘贴到鼠标光标所在处,完成听写功能;若听写状态关闭,首先将接收到的语音信息文本与存储模块中存储的语音命令进行查找匹配,找到相应的语音命令;根据语音命令的内容,完成不同的操作;若语音命令属于语音控制鼠标命令,则根据语音命令的内容触发语音命令所映射的鼠标动作;若语音命令属于语音启动程序命令,则启动语音命令中程序路径下的应用程序;若语音命令属于语音模拟快捷键命令,则根据语音命令中的按键方式触发相应的按键操作;若语音命令属于语音打开网页标签命令,则在浏览器中打开语音命令的网址对应的网页;同时,该模块将识别出的语音命令内容传给界面交互模块;存储模块:利用哈希表和XML文件存储了语音信息文本对应的语音命令;哈希表存储了系统有限的常用基本语音命令,即语音控制鼠标命令,其内容为鼠标的各种事件;当语音控制功能模块调用该部分命令,则将其鼠标的各种事件作为参数传递给语音控制功能模块中的鼠标动作函数。XML文件则存储了可扩展的语音命令,包括语音模拟快捷键命令,语音启动应用程序命令、语音打开网页标签命令;当语音控制功能模块调语音模拟快捷键命令,则将其中存储的快捷键组合方式作为参数传递给语音控制功能模块中的模拟快捷键按键函数;当语音控制功能模块调语音启动快捷键命令,则将其中存储的应用程序名作为参数传递给语音控制功能模块中的启动程序函数;当语音控制功能模块调语音打开网页标签命令,则将其中存储的网址作为参数传递给语音控制功能模块中的网页打开函数;该模块还允许对XML中存储的命令进行增加、修改、 删除和查询操作;界面交互模块:接收程序控制模块传来的各功能流程的运行情况,在主窗体界面上显示各功能的激活状态,并提示用户可进行的操作;接收头部姿态控制功能模块传来的头部区域和头部动作方向情况,在主窗体上绘制的视频窗口上绘制人脸区域,并在鼠标附近绘制了上下左右四个方向的可变色的半透明箭头用以标明头部动作的移动方向;接收语音命令模块传来的语音命令内容,在主窗体上以文字形式显示语音命令的内容,以便用户查看;程序控制模块:接受头部姿态控制功能模块传递的数据,包括头部姿态控制功能模块是否开启,头部姿态控制功能模块处于哪种模式,即普通模式或者游戏模式;该模块还允许用户切换头部姿态控制功能模块的启用与关闭,允许用户切换头部姿态控制功能模块两种模式的切换;接收语音控制功能模块传递的数据,包括语音控制功能模块是否开启,语音控制功能模块是否处于听写状态下;允许用户切换语音控制功能模块的启用与关闭,允许用户切换语音控制模块听写状态的开启与关闭;接收用户信息采集模块传递的信息,即视频输入设备和语音输入设备是否存在,程序控制功能根据信息,决定是否开启头部姿态控制功能模块或者语音控制功能模块;自定制模块:允许用户对语音命令进行修改,修改的数据通过界面交互模块从用户出获取,修改后的语音命令传递给存储模块重新存储;用户可自定制的内容包括:识别头部动作的阈值,即头部动作灵敏度,语音控制功能使用的语音命令。
地址 100191 北京市海淀区学院路37号