发明名称 具有智能语音交互功能的三维数字人像
摘要 本发明涉及具有智能语音交互功能的三维数字人像。包括四个部分:用户输入模块、处理模块、三维数字人像专家系统、反馈输出模块。在手机和平板电脑等移动终端上,用户输入信息,经输入模块的识别后,交给处理模块处理。处理模块在三维数字人像专家系统的帮助下,根据输入信息,将三维数字人像进行相应的状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动。
申请公布号 CN104536677A 申请公布日期 2015.04.22
申请号 CN201510027338.0 申请日期 2015.01.20
申请人 湖南化身科技有限公司 发明人 程志全;徐华勋
分类号 G06F3/0487(2013.01)I;G06F3/0488(2013.01)I 主分类号 G06F3/0487(2013.01)I
代理机构 湖南省国防科技工业局专利中心 43102 代理人 冯青
主权项 具有智能语音交互功能的三维数字人像,包括四个部分:用户输入模块、处理模块、三维数字人像专家系统、反馈输出模块,其特征在于,用户的输入信息,经用户输入模块的识别后,交给处理模块处理,处理模块在三维数字人像专家系统的帮助下,根据输入信息,将三维数字人像进行状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动,所述用户输入模块1)对于用户的触摸动作,根据触摸动作所点击的三维人像模型的位置,区分出用户所点击的模型部位,进而识别出触摸动作的含义,将该识别信息转化为控制信号,其实现流程如下:a)预先分割三维数字人像模型M为人像部位的集合,即M={M<sub>i</sub>, i=1,…,N},其中,N为部位的总数目,M<sub>i</sub>为部位,b)对于用户在屏幕上的触摸动作I,检测其点击的人像部位M<sub>j</sub>,从而,根据预先设定的动作知识库,识别出I的含义,表示为控制信号W,将其传递给处理模块;2)对于声音输入,根据语言模型,识别声音的语义,将其转化为控制信号W,采用基于统计模式识别的隐含马尔科夫模型,给定输入信号或特征序列I={I<sub>1</sub>, I<sub>2</sub>, …, I<sub>n</sub>},符号集W = {W<sub>1</sub>,W<sub>2</sub>, …, W<sub>n</sub>},求解符号串W=W<sub>1</sub>,W<sub>2</sub>,…,W<sub>k</sub>,使得:W = argmax  P(W|I)通过贝叶斯公式,上式改写为W = argmax  P(I|W)P(W) / P(I)上式中,P(I|W)为声学特征模型,P(W)为词串的统计建模,输入串I,P(I)是确定的,从而,语音识别用下面的公式来表示W = argmax P(I|W)P(W);所述处理模块采用哈希查找算法,将识别出的控制信号W作为关键字,查找出相对应的三维数字人像的状态变换功能<i>f</i>,具体过程包括:用给定的哈希函数构造哈希表、根据选择的冲突处理方法解决状态变换功能的冲突、在哈希表的基础上执行哈希查找;所述三维数字人像专家系统为具有三维数字人像知识和经验的计算机程序系统,通过对三维数字人像的建模,采用人工智能中的知识表示和知识推理技术,来确定控制信号的上下文,模拟由专家解决的三维数字人像状态变换问题,达到专家解决问题能力的水平;所述反馈输出模块反馈三维数字人像的状态变换结果,通过终端,以视觉和听觉信号的输出方式,反馈给用户,完成三维数字人像与用户间的交互。
地址 410013 湖南省长沙市岳麓大道233号科技大厦1301室