发明名称 网页内容的提取方法、装置及系统
摘要 本发明公开了一种网页内容的提取方法、装置及系统,属于互联网技术领域。方法包括:获取待提取网页,确定本地是否存储有用于提取待提取网页的网页内容的提取规则;若确定本地未存储用于提取待提取网页的网页内容的提取规则,则向服务器请求获取用于提取待提取网页的网页内容的提取规则;接收服务器下发的统一提取规则,并在确定不支持解析统一提取规则后,下载并安装用于解析统一提取规则的第三方解析库;通过第三方解析库对统一提取规则进行解析,并根据解析后的统一提取规则对待提取网页的网页内容进行提取。本发明通过安装用于解析统一提取规则的第三方解析库对统一提取规则进行解析,实现网页内容的提取,避免规则转换,提高了提取效率。
申请公布号 CN104598472A 申请公布日期 2015.05.06
申请号 CN201310530941.1 申请日期 2013.10.31
申请人 腾讯科技(深圳)有限公司 发明人 张锐杰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京三高永信知识产权代理有限责任公司 11138 代理人 滕一斌
主权项 一种网页内容的提取方法,其特征在于,所述方法包括:获取待提取网页,并根据所述待提取网页的网址确定本地是否存储有用于提取所述待提取网页的网页内容的提取规则;若确定本地未存储用于提取所述待提取网页的网页内容的提取规则,则向服务器请求获取用于提取所述待提取网页的网页内容的提取规则;接收所述服务器下发的统一提取规则,并在确定不支持解析所述统一提取规则后,下载并安装用于解析所述统一提取规则的第三方解析库;通过所述第三方解析库对所述统一提取规则进行解析,并根据解析后的统一提取规则对所述待提取网页的网页内容进行提取。
地址 518000 广东省深圳市福田区振兴路赛格科技园2栋东403室