发明名称 一种网页特征自适应的信息抽取方法
摘要 本发明公开了一种从学术主页中抽取信息的方法,其步骤为:(1)在互联网中发现学术主页;(2)对学术主页进行爬取和解析,使用启发式策略减少无关页面的爬取,加快解析速度;(3)将页面解析成DOM树的形式,并按照元素的属性和内容进行划分,得到内聚的文本单元列表;(4)使用信息识别器对文本单元进行识别,每种信息识别器只识别一种信息类型,对于文章信息还需要进行子字段提取。(5)对抽取结果进行关联分析,利用信息的关联性消除歧义,对缺失字段进行补全;(6)将抽取结果与数据库进行匹配,消除冗余数据,抽取结果以语义数据的形式保存在语义数据库中。本发明通过结合使用启发式规则,机器学方法和条件概率模型能够高效准确的从学术主页中抽取学术信息。
申请公布号 CN102254014A 申请公布日期 2011.11.23
申请号 CN201110205137.7 申请日期 2011.07.21
申请人 华中科技大学 发明人 金海;李毅;赵峰;严奉伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 曹葆青
主权项 一种网页特征自适应的信息抽取方法,其特征在于,该方法包括下述步骤:第1步从互联网中搜寻类型为学术主页的站点;第2步对搜寻的学术主页进行分析,将学术主页的页面看成是二元组(L,C)的集合,其中L是链接的URL,C是链接的上下文,再检查L和C中是否包含关键字,如果包含,则进入第3步,否则过滤掉该链接;第3步对所述链接进行分析,得到页面的文档树结构,根据树节点的属性和内容对页面进行划分,分成文本单元T,构成文本单元集合{T1,T2,...,Tn}第4步从文本单元集合{T1,T2,...,Tn}中抽取出作者名字N,邮箱M,机构信息U和文章信息集合{P1,P2,...,Pn}这四个目标字段,作为初步抽取结果;第5步对第4步得到的初步抽取结果进行关联分析,利用信息的关联性消除歧义,对缺失字段进行补全,得到抽取结果,存至结果数据库中;第6步将文章信息集合{P1,P2,...,Pn}中的元素与结果数据库中的记录进行匹配,消除冗余数据;第7步输出抽取结果。
地址 430074 湖北省武汉市洪山区珞喻路1037号