发明名称 |
基于属性重现和标签路径的网页抽取方法 |
摘要 |
一种基于属性重现和标签路径的网页抽取方法,包括:通过抽取目标网站或的属性值列表页面,构建属性值种子集合,其中包含了目标属性的部分取值;获取部分样本页面,确定各属性在属性名和值之间的相对标签路径;下载部分网页构建训练样本库,将获取的代码存放到本地数据库;查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径;以对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;用所获取的标签路径,访问目标网站中的其他网页HTML树,定位属性值所在标签,抽取文本字符串;删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,从而完成对页面属性的属性值抽取。 |
申请公布号 |
CN102760150A |
申请公布日期 |
2012.10.31 |
申请号 |
CN201210097167.5 |
申请日期 |
2012.04.05 |
申请人 |
中国人民解放军国防科学技术大学 |
发明人 |
尹刚;王怀民;李翔;朱沿旭;史殿;王涛;袁霖;余跃 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京安博达知识产权代理有限公司 11271 |
代理人 |
徐国文 |
主权项 |
一种基于属性重现和标签路径的网页抽取方法方法,包括下列步骤:步骤1、搭建种子集合,通过抽取目标网站或同领域其它网站中的属性值列表页面,构建属性值种子集合,集合中包含了目标属性的部分取值。步骤2、抽取相对标签路径,获取目标网站部分样本页面,使用HTML解析工具,以属性名及其属性值为输入,分别查找其对应的标签节点,抽取目标网站中各属性在属性名和值之间的相对标签路径;步骤3、构建训练样本库,使用网络爬虫下载目标网站中的部分网页,样本数大于一预先设定值,将获取的HTML源代码存放到本地数据库。步骤4、属性标注,根据种子集合中的种子属性值对训练样本库应用字符串相似匹配,查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径。步骤5、标签路径选取,对同一属性网页支持度最高的标签路径,作为抽取训练样本外其它网页信息的抽取规则;步骤6、属性定位与抽取。应用所获取的标签路径,从各自的根节点出发访问目标网站中的其他网页HTML树,定位属性值所在的标签,抽取其中包含的文本字符串;步骤7、属性名验证,借助属性名‑属性值相对标签路径,获取步骤6中属性值对应的属性名,并采用字符串匹配与真实属性名进行比对,删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,完成对页面属性的属性值抽取。 |
地址 |
410073 湖南省长沙市开福区砚瓦池正街47号 |