发明名称 一种浅层自然口语理解系统及方法
摘要 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。
申请公布号 CN101645064B 申请公布日期 2011.04.06
申请号 CN200810239727.X 申请日期 2008.12.16
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 徐为群;包长春;李亚丽;潘接林;颜永红
分类号 G06F17/27(2006.01)I;G10L15/20(2006.01)I;G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L15/08(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉
主权项 一种浅层自然口语理解系统,该系统包括:一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语音序列输出;一词汇特征提取模块,用于通过各个实体类和非实体类经常出现的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的预处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入最大熵分类模块;一最大熵分类模块,用于对输入的实体类别的所有点取最优分类,得到相应的分类标记序列,并将该分类标记序列送入维特比搜索模块;及一维特比搜索模块,用于在输入的分类标记序列网中搜索最优路径,最终得到命名实体。
地址 100190 北京市海淀区北四环西路21号中国科学院声学研究所