发明名称 |
一种精确提取网页内容的方法及系统 |
摘要 |
本发明实施例公开了一种精确提取网页内容的方法,具体步骤为:获取URL对应的网页内容,将所述网页内容源代码解析成DOM结构树;读取用户输入的筛选表达式,语法分析器加载语法表将所述筛选表达式解析成由多个词汇组成的表达式树,通过语义分析将所述多个词汇分解出筛选条件集合,所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成。本发明实施例还公开了一种精确提取网页内容的系统。采用本发明,对筛选表达式的进行语法分析重组成优化表达式树,并通过语义分析组成多个筛选条件对象的集合,从而实现对DOM文档树节点的采集定位和快速筛选。使用本发明有利于提高开发效率、降低维护成本。 |
申请公布号 |
CN103226599A |
申请公布日期 |
2013.07.31 |
申请号 |
CN201310143987.8 |
申请日期 |
2013.04.23 |
申请人 |
翁杰 |
发明人 |
翁杰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州三环专利代理有限公司 44202 |
代理人 |
温旭 |
主权项 |
一种精确提取网页内容的方法,其特征在于,具体步骤如下:获取URL对应的网页文档,将所述网页文档源代码解析成DOM结构树;读取用户输入的筛选表达式,语法分析器加载语法表对所述筛选表达式的合法性分析并将所述筛选表达式解析成由多个词汇组成的表达式树;通过语义分析,将所述多个词汇分解出筛选条件集合;所述筛选条件集合由若干个筛选条件对象组成,每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成;所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象,所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤,得出所述筛选条件对象的筛选结果,将所述筛选结果返回。 |
地址 |
515000 广东省汕头市金平区长厦村东三横巷18号501房 |