发明名称 一种网络信息抓取方法和装置
摘要 发明的实施例公开了一种网络信息抓取方法和装置。涉及网络技术领域,能够直接获取动态网页中的URL和URL对应的内容。该方法包括:通过预设的浏览器客户端访问静态的统一资源定位符URL;获取静态的URL对应的超文本标记语言HTML文件;获取该HTML文件中对应可实现用户操作执行的脚本语言函数,该脚本语言函数包括:JavaScript脚本函数;解析该脚本语言函数,得到解析后的网页,并从该网页中抽取其他静态的URL,并将该网页存储,并应用正则表达式抽取其中的其他静态的URL。本发明应用于网络信息抓取。
申请公布号 CN103631806A 申请公布日期 2014.03.12
申请号 CN201210305527.6 申请日期 2012.08.24
申请人 华为技术有限公司;北京大学 发明人 邓志鸿;张杰;赖博彦;刘河
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中博世达专利商标代理有限公司 11274 代理人 申健
主权项 一种网络信息抓取方法,其特征在于,包括:通过预设的浏览器客户端访问静态的统一资源定位符URL;获取所述静态的URL对应的超文本标记语言HTML文件;获取所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页存储。
地址 518129 广东省深圳市龙岗区坂田华为总部办公楼