发明名称 |
一种基于WebKit浏览器引擎的动态页面数据采集方法 |
摘要 |
本发明公开了一种基于WebKit浏览器引擎的动态页面数据采集方法,包括:向服务器端发送http请求,接收原始页面数据,构建DOM树,所述发送http请求,接收原始页面数据,解析js及构建DOM树由WebKit底层实现;针对不同的网站,维护相应的配置文件,配置文件中包含触发相应事件的js代码,以字符串的形式传递给WebKit提供的js执行接口,由WebKit根据事件相应,更新DOM树;调用WebKit的I/0接口,将DOM树转化成html格式,以字符串的形式输出。本发明技术方案通过配置文件的方式实现了可扩展性的需求,实现了浏览器和服务器之间的异步并行处理,减轻了服务器端的负担,增加了用户体验。 |
申请公布号 |
CN102214098A |
申请公布日期 |
2011.10.12 |
申请号 |
CN201110161800.8 |
申请日期 |
2011.06.15 |
申请人 |
中山大学 |
发明人 |
李飞燕;陈曦;杨艾琳 |
分类号 |
G06F9/44(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F9/44(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于WebKit浏览器引擎的动态页面数据采集方法,其特征在于,包括:向服务器端发送http请求,接收原始页面数据,构建DOM树,所述发送http请求,接收原始页面数据,解析js及构建DOM树由WebKit底层实现;针对不同的网站,维护相应的配置文件,配置文件中包含触发相应事件的js代码,以字符串的形式传递给WebKit提供的js执行接口,由WebKit根据事件相应,更新DOM树;调用WebKit的I/O接口,将DOM树转化成html格式,以字符串的形式输出。 |
地址 |
510006 广东省广州市番禺区大学城中山大学东校区教学实验中心C401 |