发明名称 |
一种网络信息抓取方法和装置 |
摘要 |
发明的实施例公开了一种网络信息抓取方法和装置。涉及网络技术领域,能够直接获取动态网页中的URL和URL对应的内容。该方法包括:通过预设的浏览器客户端访问静态的统一资源定位符URL;获取静态的URL对应的超文本标记语言HTML文件;获取该HTML文件中对应可实现用户操作执行的脚本语言函数,该脚本语言函数包括:JavaScript脚本函数;解析该脚本语言函数,得到解析后的网页,并从该网页中抽取其他静态的URL,并将该网页存储,并应用正则表达式抽取其中的其他静态的URL。本发明应用于网络信息抓取。 |
申请公布号 |
CN103631806A |
申请公布日期 |
2014.03.12 |
申请号 |
CN201210305527.6 |
申请日期 |
2012.08.24 |
申请人 |
华为技术有限公司;北京大学 |
发明人 |
邓志鸿;张杰;赖博彦;刘河 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中博世达专利商标代理有限公司 11274 |
代理人 |
申健 |
主权项 |
一种网络信息抓取方法,其特征在于,包括:通过预设的浏览器客户端访问静态的统一资源定位符URL;获取所述静态的URL对应的超文本标记语言HTML文件;获取所述HTML文件中对应可实现用户操作执行的脚本语言函数,所述脚本语言函数包括:JavaScript脚本语言函数;解析所述脚本语言函数,得到解析后的网页,并从所述网页中抽取其他静态的URL,并将所述网页存储。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |