发明名称 |
一种中文处理中基于语义角色信息的指代消解方法 |
摘要 |
本发明公开了一种中文处理中基于语义角色信息的指代消解方法,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。本发明极大地提升了指代消解的性能,且其提升是稳定的。 |
申请公布号 |
CN101446943A |
申请公布日期 |
2009.06.03 |
申请号 |
CN200810243606.2 |
申请日期 |
2008.12.10 |
申请人 |
苏州大学 |
发明人 |
朱巧明;周国栋;孔芳;李培峰;钱龙华;李军辉;钱培德 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
苏州创元专利商标事务所有限公司 |
代理人 |
陶海锋 |
主权项 |
1.一种中文处理中基于语义角色信息的指代消解方法,其特征在于,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;所述特征模板包括:指代消解特征集:<img file="A200810243606C00021.GIF" wi="1932" he="1179" />新增特征集:<img file="A200810243606C00022.GIF" wi="1944" he="669" />(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。 |
地址 |
215123江苏省苏州市苏州工业园区仁爱路199号 |