发明名称 基于组合方法的越南语兼类词消歧方法
摘要 本发明涉及基于组合方法的越南语兼类词消歧方法,属于自然语言处理技术领域。本发明首先从越南语文本中抽取越南语兼类词字段,构建兼类词字段库,其次对兼类词字段库分别进行最大熵、条件随机场、支持向量机词性歧义消解建模,再把待消歧的兼类词字段测试语料通过已构建的三大统计分析模型进行消歧,综合分析结果,得到兼类词的词性标记。本发明提出的基于组合方法的越南语兼类词消歧方法,对越南语的兼类词实现了有效的消歧,为后续越南语词性标注、词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;解决了对于单一学器会造成泛化性能不佳的问题。
申请公布号 CN106202035A 申请公布日期 2016.12.07
申请号 CN201610496446.7 申请日期 2016.06.30
申请人 昆明理工大学 发明人 郭剑毅;刘艳超;余正涛;线岩团;严馨;文永华
分类号 G06F17/27(2006.01)I;G06F17/28(2006.01)N 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 基于组合方法的越南语兼类词消歧方法,其特征在于:所述基于组合方法的越南语兼类词消歧方法的具体步骤如下:Step1、首先对越南语句子级词性标注语料,结合越南语兼类词字典,抽取得到越南语兼类词字段库,然后结合越南语语言和兼类词特点,获取越南语消歧特征;Step2、使用最大熵统计分析方法对已形成越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到最大熵的越南语兼类词消歧模型;Step3、使用条件随机场统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到条件随机场的越南语兼类词消歧模型;Step4、使用支撑向量机统计分析方法对已形成的越南语兼类词字段库中的越南语兼类词字段语料进行消歧建模,得到支持向量机的越南语兼类词消歧模型;Step5、从越南语兼类词字段语料中随机选取部分测试语料分别通过已构建的最大熵的越南语兼类词消歧模型、条件随机场的越南语兼类词消歧模型、支持向量机的越南语兼类词消歧模型进行消歧,分别得到消歧的参数序列;Step6、对分别得到的消歧参数序列进行投票方法确定最终消歧结果,得到最终的兼类词消歧结果。
地址 650093 云南省昆明市五华区学府路253号