发明名称 基于线性模型的汉语词法分析方法
摘要 本发明提供一种基于线性模型的汉语词法分析方法,包括如下步骤:1)输入汉语语句,设定分析窗口长度;2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。本发明能够显著地提高了切分和标注的精确度。
申请公布号 CN101295295A 申请公布日期 2008.10.29
申请号 CN200810114950.1 申请日期 2008.06.13
申请人 中国科学院计算技术研究所 发明人 姜文斌;黄亮;刘群;吕雅娟
分类号 G06F17/27(2006.01) 主分类号 G06F17/27(2006.01)
代理机构 北京泛华伟业知识产权代理有限公司 代理人 王勇
主权项 1.一种提供的基于线性模型的汉语词法分析方法,包括如下步骤:1)输入汉语语句,设定分析窗口长度,2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。
地址 100190北京市海淀区中关村科学院南路6号