汉语依存树库中未登录词的处理方法,申请号CN201210344884.3-传众专利搜索

发明名称	汉语依存树库中未登录词的处理方法
摘要	本发明属于计算语言学的自然语言处理领域，公开了一种汉语依存树库中未登录词的处理方法，该方法包括步骤：A，利用同义词词林，查找未登录词的所有同义词；B，根据汉字字形特征，计算未登录词与其所有同义词之间的字形相似度；C，当未登录词与多个同义词的字形相似度相同时，抽取所映射的词及其对应的词性的信息量，改进字形相似度计算模型；D，抽取字形相似度最大的词为未登录词的最优映射词，作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下，令依存句法分析中的单元对<词性，词性>回升到<词性，词>或<词，词性>，从而达到细化信息粒度，缓解数据稀疏问题，改进依存句法分析性能。
申请公布号	CN103678272B	申请公布日期	2016.04.06
申请号	CN201210344884.3	申请日期	2012.09.17
申请人	北京信息科技大学	发明人	吕学强;郑略省;王玥;关晓炟
分类号	G06F17/27(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构		代理人
主权项	一种汉语依存树库中未登录词的处理方法，其特征在于，所述方法包括以下步骤：步骤A：利用同义词词林，查找未登录词的所有同义词；步骤B：根据汉字字形特征，设计词语之间的字形相似度计算模型，计算未登录词及其所有同义词之间的字形相似度；步骤C：当未登录词存在多个同义词与之映射时，抽取所映射的词及其对应词性的信息量，改进字形相似度计算模型；步骤D：根据字形相似度，抽取未登录词的最优映射词，作为树库中对未登录词的解释。
地址	100192 北京市海淀区清河小营东路12号北京信息科技大学