发明名称 一种自然语言句子的语义角色标注方法
摘要 本发明公开了一种自然语言句子的语义角色标注方法,其特征在于:采用联合学模型,同时实现中文句法分析和语义角色标注。本发明通过联合模型的使用,能够同时输出一个句子的句法分析结果和给定谓词的语义角色标注结果。在联合学模型中,由于句法分析模型中增加了语义信息,使得训练出来的模型更适合于语义角色标注任务,因此由此模型输出的语义角色标注性能更高。同时联合模型输出的句法分析结果同单个句法分析模型的结果相比,两者性能不会有很大差别,甚至由于语义信息的加入,还能够提高句法分析的性能。
申请公布号 CN101446942A 申请公布日期 2009.06.03
申请号 CN200810243605.8 申请日期 2008.12.10
申请人 苏州大学 发明人 王红玲;朱巧明;钱培德;孔芳;李培峰;周国栋;钱龙华
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 苏州创元专利商标事务所有限公司 代理人 陶海锋
主权项 1. 一种自然语言句子的语义角色标注方法,其特征在于:采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤:(1)生成语义角色标注模型:生成训练文件:从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件;位置 路径 中心词及其词性谓词 子类框架 句法成分类型句法成分首词和尾词 句法成分左兄弟结点类型 谓词语法框架动词类别 句法成分前一个词 句法成分父亲结点类型压缩路径 句法成分是否有右兄弟结点 句法成分左兄弟结点中心词类型修改的路径 路径中是否存在根结点模型生成:利用训练文件对最大熵分类器模型进行训练,得到语义角色标注模型文件;(2)生成联合学习模型:提取训练语料:从树库中,提取出句法分析训练语料,句法分析的训练事件中包含语义特征;生成训练文件:在句法分析模型常用特征基础上,添加语义特征,生成训练文件;所述句法分析模型常用特征由下表表示:第n棵树的中心词、成分标记和决策标记第n棵树的中心词词性、成分标记和决策标记第n棵树的成分标记和决策标记第n棵树的上下文特征所述语义特征由下表表示:谓词 当前谓语动词本身谓词类别 谓词所属的动词类别路径 当前句法成分到谓词的路径谓词角色 调用语义角色标注模型识别出的谓词语义角色语义特征的获取采用步骤(1)的语义角色标注模型实现;模型生成:利用训练文件对最大熵分类器模型进行训练,得到联合学习模型文件;(3)词性标记:调用词性标记模块,对给定句子进行词性标注,保留前N种最优的词性标记系列结果;(4)基本短语识别:调用基本短语识别模块,分别对步骤(3)输出的N种词性标记结果,进行基本短语识别,最后保留前N种最优的基本短语识别结果;(5)句法分析:调用联合学习模型,以步骤(4)输出的N种基本短语识别结果作为输入,输出最优的句法分析结果和语义角色标注结果;其中,N为10~20的整数。
地址 215123江苏省苏州市苏州工业园区仁爱路199号