发明名称 |
汉语依存树库中未登录词的处理方法 |
摘要 |
本发明属于计算语言学的自然语言处理领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时,抽取所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对<词性,词性>回升到<词性,词>或<词,词性>,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。 |
申请公布号 |
CN103678272B |
申请公布日期 |
2016.04.06 |
申请号 |
CN201210344884.3 |
申请日期 |
2012.09.17 |
申请人 |
北京信息科技大学 |
发明人 |
吕学强;郑略省;王玥;关晓炟 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种汉语依存树库中未登录词的处理方法,其特征在于,所述方法包括以下步骤:步骤A:利用同义词词林,查找未登录词的所有同义词;步骤B:根据汉字字形特征,设计词语之间的字形相似度计算模型,计算未登录词及其所有同义词之间的字形相似度;步骤C:当未登录词存在多个同义词与之映射时,抽取所映射的词及其对应词性的信息量,改进字形相似度计算模型;步骤D:根据字形相似度,抽取未登录词的最优映射词,作为树库中对未登录词的解释。 |
地址 |
100192 北京市海淀区清河小营东路12号北京信息科技大学 |