发明名称 汉语词法分析方法
摘要 本发明是一种汉语词法分析方法,包括以下步骤:1)从一给定的训练语料中获得特征函数和权重;2)切分输入的汉语文本:将输入的汉语文本切分为多个语句,一个语句为一个字序列;3)计算输入的汉语文本对应的字序列的所有可能的词法信息标记序列的条件概率;4)确定输入的汉语文本对应的字序列的最终的词法信息标记序列;5)进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果。本发明将汉语词法分析的三项子任务统一到字序列标注框架中实现,克服了错误向上传递放大累加,多类信息难以整合利用的不足,计算简单、运算量小;完全脱离词典,对未登录词语也能较好的切分和标注。
申请公布号 CN103473221A 申请公布日期 2013.12.25
申请号 CN201310421538.5 申请日期 2013.09.16
申请人 于江德;刘运通;王希杰 发明人 于江德;刘运通;王希杰;胡顺义;郑霞;葛彦强;王继鹏
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京同辉知识产权代理事务所(普通合伙) 11357 代理人 赵慧
主权项 一种汉语词法分析方法,其特征在于,包括以下步骤:1)从一给定的训练语料中获得特征函数和权重:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照所述设定的样本窗口大小通过所述特征模板集扩展出上下文特征,每个特征对应一组特征函数,多组所述的上下文特征对应多组特征函数,并求取所述多组特征函数的的权重,多个权重组成权重向量;2)切分输入的汉语文本:将输入的汉语文本切分为多个语句,一个语句为一个字序列;3)计算输入的汉语文本对应的字序列的所有可能的词法信息标记序列的条件概率:获得所述输入的汉语文本对应的每个字序列的所有可能的词法信息标记序列,计算每种所述词法信息标记序列的条件概率;其中,所述词法信息标记序列为由一个字序列中所有字的词法信息标记组成的序列,所述词法信息标记包括词位信息、词性信息和命名实体信息三类;4)确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列:将具有最高条件概率值的词法信息标记序列确定为所述输入的汉语文本对应的字序列的最终的词法信息标记序列;5)进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果:根据最终的词法信息标记序列中的“词位信息”进行汉语分词,得到分词结果;根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注,得到词性标注结果;或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别,得到命名实体识别结果;对于多字词的情况,选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。
地址 455000 河南省安阳市弦歌大道436号安阳师范学院计算机与信息工程学院