发明名称 |
一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法 |
摘要 |
本发明涉及一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,属自然语言处理技术领域。本发明首先获取融合了越南语语言特点的PCFG模型中的语法规则概率;再制定越南语语言特征概率;将越南语语言特征概率作为语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;再进行初级越南语短语树库的构建;再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。本发明避免了人工收集和标注越南语短语树库的过程,节省了人力和构建树库的时间;相比采用传统PCFG构建越南语短语树库和最大熵构建越南语短语树库方法准确率明显提高。 |
申请公布号 |
CN105912529A |
申请公布日期 |
2016.08.31 |
申请号 |
CN201610242291.4 |
申请日期 |
2016.04.19 |
申请人 |
昆明理工大学 |
发明人 |
郭剑毅;李英;余正涛;线岩团;毛存礼;陈玮 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种融合了越南语语言特点的PCFG模型的越南语短语树库构建方法,其特征在于:所述融合了越南语语言特点的PCFG模型的越南语短语树库构建方法的具体步骤如下:Step1、首先构建越南语短语树语料,并利用得到的语料获取融合了越南语语言特点的PCFG模型中的语法规则概率;Step2、分析越南语的语言特征,主要针对越南语状语后置和定语后置的特点,制定越南语语言特征概率;Step3、将越南语语言特征概率作为融合了越南语语言特点的PCFG模型中的语法规则概率的补充和语法规则概率一起融入到PCFG模型中,得到融合了越南语语言特点的PCFG模型;Step4、将爬取的越南语网页经过规则提取、去重、机器标注、人工校对形成越南语文本语料库,作为构建初级越南语短语树库的测试语料;Step5、把测试语料加载到融合了越南语语言特点的PCFG模型中进行初级越南语短语树库的构建;Step6、再利用短语树库校正器对新生成的越南语短语树库进行校正,最后得到最终的越南语短语树库。 |
地址 |
650093 云南省昆明市五华区学府路253号 |