发明名称 |
一种基于依存分析的中文兼类词处理方法 |
摘要 |
中文兼类词的词性标注是当前影响中文信息处理系统性能的主要问题之一。兼类词是指中文中存在的一词具有多种词性的语法现象,如动名词同形。本发明公开了一种基于依存分析的中文兼类词处理方法,该方法包括如下三个部分:首先选择大量包含兼类词的语句作为训练语料,通过依存分析得到具有较高准确率和覆盖率的兼类词语义角色统计规则;然后对待处理文本进行句子划分、分词、词性标注和依存分析预处理,并基于词法、句法和语境规则库对分词结果中的兼类词词性进行标注;最后采用预先得到的兼类词语义角色统计规则,通过依存分析进一步准确识别兼类词在不同上下文环境下的词性。该方法能够有效提高中文文本处理的词性标注准确度,可广泛应用于各种中文信息处理系统。 |
申请公布号 |
CN105005557A |
申请公布日期 |
2015.10.28 |
申请号 |
CN201510475708.7 |
申请日期 |
2015.08.06 |
申请人 |
电子科技大学 |
发明人 |
刘峤;刘瑶;秦志光;其他发明人请求不公开姓名 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于依存分析的中文兼类词处理方法,所述方法包括:兼类词依存分析语义角色统计规则获取;对输入文本进行自然语言预处理以及使用词法、句法、语境规则库识别语句中兼类词词性;使用预先得到的兼类词依存分析语义角色统计规则识别语句中兼类词词性。 |
地址 |
611731 四川省成都市高新区(西区)西源大道2006号 |