基于属性重现和标签路径的网页抽取方法,申请号CN201210097167.5-传众专利搜索

发明名称	基于属性重现和标签路径的网页抽取方法
摘要	一种基于属性重现和标签路径的网页抽取方法，包括：通过抽取目标网站或的属性值列表页面，构建属性值种子集合，其中包含了目标属性的部分取值；获取部分样本页面，确定各属性在属性名和值之间的相对标签路径；下载部分网页构建训练样本库，将获取的代码存放到本地数据库；查找并标注每一个种子属性值在训练网页中的所有重现，记录每次重现对应的标签路径；以对同一属性网页支持度最高的标签路径，作为抽取训练样本外其它网页信息的抽取规则；用所获取的标签路径，访问目标网站中的其他网页HTML树，定位属性值所在标签，抽取文本字符串；删除没有属性名或拥有错误属性名的属性值，将正确属性值存储到本地数据库，从而完成对页面属性的属性值抽取。
申请公布号	CN102760150A	申请公布日期	2012.10.31
申请号	CN201210097167.5	申请日期	2012.04.05
申请人	中国人民解放军国防科学技术大学	发明人	尹刚;王怀民;李翔;朱沿旭;史殿;王涛;袁霖;余跃
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京安博达知识产权代理有限公司 11271	代理人	徐国文
主权项	一种基于属性重现和标签路径的网页抽取方法方法，包括下列步骤：步骤1、搭建种子集合，通过抽取目标网站或同领域其它网站中的属性值列表页面，构建属性值种子集合，集合中包含了目标属性的部分取值。步骤2、抽取相对标签路径，获取目标网站部分样本页面，使用HTML解析工具，以属性名及其属性值为输入，分别查找其对应的标签节点，抽取目标网站中各属性在属性名和值之间的相对标签路径；步骤3、构建训练样本库，使用网络爬虫下载目标网站中的部分网页，样本数大于一预先设定值，将获取的HTML源代码存放到本地数据库。步骤4、属性标注，根据种子集合中的种子属性值对训练样本库应用字符串相似匹配，查找并标注每一个种子属性值在训练网页中的所有重现，记录每次重现对应的标签路径。步骤5、标签路径选取，对同一属性网页支持度最高的标签路径，作为抽取训练样本外其它网页信息的抽取规则；步骤6、属性定位与抽取。应用所获取的标签路径，从各自的根节点出发访问目标网站中的其他网页HTML树，定位属性值所在的标签，抽取其中包含的文本字符串；步骤7、属性名验证，借助属性名‑属性值相对标签路径，获取步骤6中属性值对应的属性名，并采用字符串匹配与真实属性名进行比对，删除没有属性名或拥有错误属性名的属性值，将正确属性值存储到本地数据库，完成对页面属性的属性值抽取。
地址	410073 湖南省长沙市开福区砚瓦池正街47号