发明名称 依存关系标注方法、装置和系统
摘要 发明提出了一种依存关系标注方法、装置和系统。根据本发明的依存关系标注系统,包括:未标注数据库1000,用于存储未标注词对集合;已标注数据库2000,用于存储已标注词对集合;语义相似度词典3000,用于存储语义相似度集合;依存关系标注装置200;和标注结果数据库4000,用于存储由所述依存关系标注装置标注完成的标注结果词对集合。所述依存关系标注装置包括:图构建单元210,用于根据未标注词对集合、已标注词对集合和语义相似度集合,构建图模型;和依存关系标注单元220,用于根据所述图构建单元所构建的图模型,基于已标注词对集合中的词对,对未标注词对集合中的词对进行标注。本发明能够大规模、高精度地自动标注依存关系实例。
申请公布号 CN102646091B 申请公布日期 2014.03.12
申请号 CN201110046982.4 申请日期 2011.02.22
申请人 日电(中国)有限公司 发明人 胡长建;邱立坤;赵凯;吴蕾
分类号 G06F17/28(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 潘剑颖
主权项 1.一种依存关系标注装置,包括:图构建单元,用于根据存储在未标注数据库中的未标注词对集合、存储在已标注数据库中的已标注词对集合和存储在语义相似度词典中的语义相似度集合,构建图模型;以及依存关系标注单元,用于根据图构建单元所构建的图模型,基于已标注词对集合中的词对,对未标注词对集合中的词对进行标注;其中,所述依存关系标注单元根据图模型,构建概率转化矩阵T,对概率转化矩阵T进行归一化,得到归一化的概率转化矩阵<img file="FDA0000459018660000011.GIF" wi="66" he="70" />构建标注结果矩阵Y,根据已标注词对集合,对标注结果矩阵Y进行初始化,得到初始化的标注结果矩阵Y<sup>0</sup>;初始化迭代指数z=0;根据公式<img file="FDA0000459018660000012.GIF" wi="261" he="57" />进行标签传递;重置Y<sup>z+1</sup>中与已标注词对集合对应的依存关系类型标签;重复上述标签传递操作和重置操作,直至标注结果矩阵Y序列收敛,或直至预定的迭代次数;将Y<sup>z+1</sup>作为最终的标注结果矩阵Y;从最终的标注结果矩阵Y中选择相应概率值最大的依存关系类型作为未标注词对集合中的词对的标注结果。
地址 100191 北京市海淀区学院路35号世宁大厦20层