发明名称 一种从维基中抽取领域术语间上下位关系的方法
摘要 一种从维基中抽取领域术语间上下位关系的方法,按照如下步骤:(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历,并利用URL正则表达式过滤到未指向领域术语的超链接,遍历得到的页面与超链接分别存为页面文本集与二元组集合;(2)从二元组集合中获得双向链接特征、边介数特征、聚集系数特征;从文本集中获得的锚文本位置特征、锚文本上下文特征,并构建五维特征向量;(3)采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类。本发明能综合运用文本特征与超链接拓扑特征,实现从维基中自动抽取上下位关系。
申请公布号 CN103699568A 申请公布日期 2014.04.02
申请号 CN201310578954.6 申请日期 2013.11.16
申请人 西安交通大学城市学院 发明人 何绯娟;缪相林
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安智大知识产权代理事务所 61215 代理人 弋才富
主权项 一种从维基中抽取领域术语间上下位关系的方法,其特征在于,包括如下步骤:步骤一:领域术语的页面文本与超链接关系获取(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历;(2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,该文件名也作为领域术语;(3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名;(4)利用一组URL正则表达式过滤到未指向领域术语的超链接,即不遍历能匹配下列正则表达式的URL:a)^/List_of_/w+$b)^/w+(ist|ists)$c)^[1‑9]+_/w+$d)^/w+(organisation|government|company)/w+$e)^/w+(man|men)$步骤二:特征选择与构建选择能够从超链接关系中识别出上下位关系的特征,并构建E中每个超链接(termi,termj)的特征向量;这里上下位关系是指子类与类(kind‑of),实例与类(is‑a)关系;所述的识别出上下位关系的特征包括五个特征:从二元组集合中获得的双向链接特征、边介数(edge‑betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征;对五个特征进行量化,并构建五维特征向量;步骤三:上下位关系抽取利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签,即上下位关系或非上下位关系,形成一个训练数据集,采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。
地址 710018 陕西省西安市尚稷路8715号