发明名称 | 网页数据抓取过滤方法 | ||
摘要 | 本发明公开了一种网页数据抓取过滤方法,包括如下步骤:a)获取网页Html代码;b)将Html转化为XML序列表;c)对XML序列表利用信息关键词进行模糊匹配获取网页数据。本发明提供的网页数据抓取过滤方法,通过先将Html全面XML序列化,再采用模糊过滤的方式获取XML文件中的网页数据,从而实现快速、较准确的对海量网站数据进行抓取及过滤。 | ||
申请公布号 | CN102567521A | 申请公布日期 | 2012.07.11 |
申请号 | CN201110448055.5 | 申请日期 | 2011.12.29 |
申请人 | 维构(上海)文化传媒有限公司 | 发明人 | 金炜杰 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海申汇专利代理有限公司 31001 | 代理人 | 金碎平 |
主权项 | 一种网页数据抓取过滤方法,其特征在于,包括如下步骤:a) 获取网页Html代码;b) 将Html转化为XML序列表;c) 对XML序列表利用信息关键词进行模糊匹配获取网页数据。 | ||
地址 | 201907 上海市嘉定区宝安公路2762号2幢4055室 |