发明名称 词性标注系统、用于训练词性标注模型的装置及其方法
摘要 本发明涉及一种词性标注系统,包括:词性标注模型训练装置,用于基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及词性标注装置,用于使用训练的词性标注模型对待标注的文本进行词性标注。本发明还涉及一种词性标注方法、一种用于训练词性标注模型的装置及其方法。根据本发明的系统和方法,实现了大规模标注集中的词性的标注并提高了词性标注的精度。
申请公布号 CN101866337B 申请公布日期 2014.07.02
申请号 CN200910132711.3 申请日期 2009.04.14
申请人 日电(中国)有限公司 发明人 胡长建;赵凯;邱立坤;沈国阳
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 罗松梅
主权项 一种词性标注系统,包括:词性标注模型训练装置,用于基于词性层次树利用词性标注训练集中已标注的第一文本来逐层逐节点地训练词性标注模型;以及词性标注装置,用于使用训练的词性标注模型对待标注的文本进行词性标注,其中词性标注模型训练装置包括:CRF模型训练语料构造单元,用于利用词性层次树将从词性标注训练集中已标注的第一文本逐层逐节点地标注为第二文本来构造CRF模型训练语料;以及CRF模型训练单元,用于利用CRF模型训练语料构造单元每次标注的第二文本相应地逐层逐节点地训练CRF模型以得到词性标注模型;其中CRF模型训练单元以下列方式选择特征模板来逐层逐节点地训练CRF模型:(a)当前层是第0层,特征模板包括第二文本中每一个词的前后各两个词、当前词的前字和后字以及前后各两个词之间的共现;和(b)当前层不是第0层,特征模板包括第0层选择的特征模板和上一层的第二文本中的每一个词的前后各两个词的词性,以及词性之间的共现、词与词性之间的共现。
地址 100007 北京市东城区东四十条甲22号南新仓国际大厦B栋12层1222室