发明名称 一种基于WebKit浏览器引擎的动态页面数据采集方法
摘要 本发明公开了一种基于WebKit浏览器引擎的动态页面数据采集方法,包括:向服务器端发送http请求,接收原始页面数据,构建DOM树,所述发送http请求,接收原始页面数据,解析js及构建DOM树由WebKit底层实现;针对不同的网站,维护相应的配置文件,配置文件中包含触发相应事件的js代码,以字符串的形式传递给WebKit提供的js执行接口,由WebKit根据事件相应,更新DOM树;调用WebKit的I/0接口,将DOM树转化成html格式,以字符串的形式输出。本发明技术方案通过配置文件的方式实现了可扩展性的需求,实现了浏览器和服务器之间的异步并行处理,减轻了服务器端的负担,增加了用户体验。
申请公布号 CN102214098A 申请公布日期 2011.10.12
申请号 CN201110161800.8 申请日期 2011.06.15
申请人 中山大学 发明人 李飞燕;陈曦;杨艾琳
分类号 G06F9/44(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F9/44(2006.01)I
代理机构 代理人
主权项 一种基于WebKit浏览器引擎的动态页面数据采集方法,其特征在于,包括:向服务器端发送http请求,接收原始页面数据,构建DOM树,所述发送http请求,接收原始页面数据,解析js及构建DOM树由WebKit底层实现;针对不同的网站,维护相应的配置文件,配置文件中包含触发相应事件的js代码,以字符串的形式传递给WebKit提供的js执行接口,由WebKit根据事件相应,更新DOM树;调用WebKit的I/O接口,将DOM树转化成html格式,以字符串的形式输出。
地址 510006 广东省广州市番禺区大学城中山大学东校区教学实验中心C401