发明名称 基于属性重现和标签路径的网页抽取方法
摘要 一种基于属性重现和标签路径的网页抽取方法,包括:通过抽取目标网站或的属性值列表页面,构建属性值种子集合,其中包含了目标属性的部分取值;获取部分样本页面,确定各属性在属性名和值之间的相对标签路径;下载部分网页构建训练样本库,将获取的代码存放到本地数据库;查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径;以对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;用所获取的标签路径,访问目标网站中的其他网页HTML树,定位属性值所在标签,抽取文本字符串;删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,从而完成对页面属性的属性值抽取。
申请公布号 CN102760150A 申请公布日期 2012.10.31
申请号 CN201210097167.5 申请日期 2012.04.05
申请人 中国人民解放军国防科学技术大学 发明人 尹刚;王怀民;李翔;朱沿旭;史殿;王涛;袁霖;余跃
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京安博达知识产权代理有限公司 11271 代理人 徐国文
主权项 一种基于属性重现和标签路径的网页抽取方法方法,包括下列步骤:步骤1、搭建种子集合,通过抽取目标网站或同领域其它网站中的属性值列表页面,构建属性值种子集合,集合中包含了目标属性的部分取值。步骤2、抽取相对标签路径,获取目标网站部分样本页面,使用HTML解析工具,以属性名及其属性值为输入,分别查找其对应的标签节点,抽取目标网站中各属性在属性名和值之间的相对标签路径;步骤3、构建训练样本库,使用网络爬虫下载目标网站中的部分网页,样本数大于一预先设定值,将获取的HTML源代码存放到本地数据库。步骤4、属性标注,根据种子集合中的种子属性值对训练样本库应用字符串相似匹配,查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径。步骤5、标签路径选取,对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;步骤6、属性定位与抽取。应用所获取的标签路径,从各自的根节点出发访问目标网站中的其他网页HTML树,定位属性值所在的标签,抽取其中包含的文本字符串;步骤7、属性名验证,借助属性名‑属性值相对标签路径,获取步骤6中属性值对应的属性名,并采用字符串匹配与真实属性名进行比对,删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,完成对页面属性的属性值抽取。
地址 410073 湖南省长沙市开福区砚瓦池正街47号