发明名称 一种基于在线百科链接实体的知识抽取方法
摘要 本发明属于开放知识抽取技术领域,具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体,得到高质量的相关链接实体;然后利用Gmeans聚类方法对相关的链接实体做聚类,用基于LCA的类标签生成方法为每个类产生一个描述性的类标签,这样每个类对应的实体集合和类标签构成一组知识;最后,为了提高大数据量实体的聚类效率,使用基于最大生成树的类复用机制,从而极大节约聚类时间。本发明不同于传统的知识抽取方法,其抽取基于在线百科的链接实体,而不是正文内容,极大的避免了自然语言处理方法的计算代价高、错误率高等缺点,可以高效地处理大规模数据。
申请公布号 CN103902649B 申请公布日期 2017.01.18
申请号 CN201410052292.3 申请日期 2014.02.17
申请人 复旦大学 发明人 张可尊;肖仰华;汪卫
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;王洁平
主权项 一种基于在线百科链接实体的知识抽取方法,其特征在于,具体步骤如下:(1)不相关链接实体的识别与去除结合加权Jaccard系数WJC和点互信息PMI这两种简单的语义相关性度量方法,提出基于位置的证据融合的排序方法,得到证据融合的综合指标,设定噪音阈值,识别相关链接实体和不相关链接实体,将低于阈值的链接实体看作不相关链接实体并移除;(2)相关链接实体的聚类与类标签生成使用Gmeans聚类方法通过设定的置信度选择聚类截止条件对相关链接实体进行聚类的同时,使用Kmeans++方法选择初始聚类点,然后通过基于最小公共祖先LCA的类标签产生方法得到类的标签,以此产生的每个类的类标签组合构成一组知识,类标签描述知识的属性,类中的实体对应该属性下的属性值;(3)基于类复用的聚类使用基于最大生成树的类复用方法对步骤(2)中得到的不同类通过类的复用进行优化,实现高效聚类,再循环进行步骤(2)的操作;其中:步骤(1)中,基于位置的证据融合的排序方法,具体如下:首先针对实体e在PMI中的排序位置<img file="514025dest_path_image001.GIF" wi="38" he="18" />,实体e在WJC中的排序位置<img file="947149dest_path_image002.GIF" wi="39" he="18" />,计算用于表示实体e在两种排序中的位置差异性<img file="379267dest_path_image003.GIF" wi="59" he="19" />,公式如下:<img file="348492dest_path_image004.GIF" wi="184" he="48" />其中<img file="145546dest_path_image005.GIF" wi="18" he="18" />表示实体e的链接实体总数;然后计算实体e在两种指标的权重分配参数<img file="816699dest_path_image006.GIF" wi="33" he="21" />,<img file="724612dest_path_image007.GIF" wi="254" he="48" />其中<img file="49808dest_path_image008.GIF" wi="12" he="21" />为幅度调节参数;最后计算证据融合的综合指标<img file="80081dest_path_image009.GIF" wi="33" he="21" />,公式如下:<img file="176213dest_path_image010.GIF" wi="279" he="24" />其中<img file="700866dest_path_image011.GIF" wi="15" he="15" />=<img file="267851dest_path_image006.GIF" wi="33" he="21" />;步骤(2)中聚类时,使用在线百科页面实体的分类标签作为特征,特征c的权重idf(c)表示为下式:<img file="219758dest_path_image012.GIF" wi="194" he="47" />其中N表示全部实体数量,<img file="599924dest_path_image013.GIF" wi="16" he="21" />表示属于分类c的实体的数量;实体之间的距离<img file="423873dest_path_image014.GIF" wi="85" he="17" />用下式表示:<img file="409147dest_path_image015.GIF" wi="264" he="47" />其中<img file="781222dest_path_image016.GIF" wi="15" he="21" />、<img file="586367dest_path_image017.GIF" wi="14" he="18" />分别表示实体a或b的特征值组成的向量,向量的每一维是该特征的权值;<img file="452823dest_path_image018.GIF" wi="45" he="25" />、<img file="292603dest_path_image019.GIF" wi="42" he="23" />分别表示向量<img file="835580dest_path_image016.GIF" wi="15" he="21" />或<img file="767502dest_path_image017.GIF" wi="14" he="18" />的模;步骤(2)中,所述基于LCA的类标签产生方法如下:首先,对一个分类下的所有实体,构造一个以百科实体作为节点,以实体之间的链接作为边的有向分类图;然后,在构造的分类图上使用逐层扫描的方法找到满足分类覆盖率大于<img file="359020dest_path_image020.GIF" wi="9" he="21" />比率实体数量、且信息量最大的最小公共祖先LCA;在逐层扫描的同时,设定最大查找的层次L,如果查找层次大于L,就停止向更高层次查找,改为减小<img file="131935dest_path_image020.GIF" wi="9" he="21" />然后查找;其中:<img file="845813dest_path_image021.GIF" wi="14" he="24" />表示描述标签覆盖率的约束条件,所述逐层扫描的方法具体如下:先考虑实体的第一层分类,判断每个分类的覆盖率,如果存在某些分类覆盖率大于<img file="625551dest_path_image020.GIF" wi="9" he="21" />,则从中选择一个信息量最大的分类标签;如果没有找到满足要求的标签,则遍历第二层分类,判断每个分类的覆盖率,如果某些分类覆盖率大于<img file="335274dest_path_image020.GIF" wi="9" he="21" />,则从中选择最大信息量的标签作为类标签,否则迭代查询上层分类;步骤(3)中所述的基于最大生成树的类复用方法如下:首先将所有实体按照链接关系构造有向图G(V, E, w),V表示图上的节点,表示所有实体;E表示图上的边,表示实体之间的链接关系,w表示边的权重;对G中的两个实体u和v,<img file="149646dest_path_image022.GIF" wi="40" he="11" />表示在百科页面中u存在一个链接到v;<img file="34426dest_path_image022.GIF" wi="41" he="12" />这条链接在G上表示为一条边,<img file="114508dest_path_image023.GIF" wi="31" he="20" />、<img file="313408dest_path_image024.GIF" wi="41" he="22" />分别表示实体u、v的链接实体集合;则边的权重w表示为:<img file="dest_path_image025.GIF" wi="219" he="48" />再使用Prim方法得到最大生成树;即在最大生成树中父亲节点的聚类结果被孩子节点复用;使用广度优先搜索遍历方法进行类复用。
地址 200433 上海市杨浦区邯郸路220号