发明名称 一种中文处理中基于语义角色信息的指代消解方法
摘要 本发明公开了一种中文处理中基于语义角色信息的指代消解方法,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。本发明极大地提升了指代消解的性能,且其提升是稳定的。
申请公布号 CN101446943A 申请公布日期 2009.06.03
申请号 CN200810243606.2 申请日期 2008.12.10
申请人 苏州大学 发明人 朱巧明;周国栋;孔芳;李培峰;钱龙华;李军辉;钱培德
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 苏州创元专利商标事务所有限公司 代理人 陶海锋
主权项 1.一种中文处理中基于语义角色信息的指代消解方法,其特征在于,包括下列步骤:(1)对文本进行预处理,所述预处理包括:段落、语句识别;命名实体识别;词性标注;组块识别;句法分析;语义角色标注;(2)根据组对规则生成正负例,在生成过程中针对数、性、语义类别进行简单的正负例的过滤;按分类器的算法要求,根据特征模板生成训练文件;采用训练文件对分类器进行训练,生成分类器模型;所述特征模板包括:指代消解特征集:<img file="A200810243606C00021.GIF" wi="1932" he="1179" />新增特征集:<img file="A200810243606C00022.GIF" wi="1944" he="669" />(3)对待处理的文本采用步骤(1)的方式进行预处理;按特征模板生成特征向量;将特征向量依次提交给已经训练生成的分类器模型进行分类,所得结果大于阈值,判断为正例,即具有指代关系,否则为负例,即无指代关系。
地址 215123江苏省苏州市苏州工业园区仁爱路199号
您可能感兴趣的专利