一种精确提取网页内容的方法及系统,申请号CN201310143987.8-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种精确提取网页内容的方法及系统
摘要	本发明实施例公开了一种精确提取网页内容的方法，具体步骤为：获取URL对应的网页内容，将所述网页内容源代码解析成DOM结构树；读取用户输入的筛选表达式，语法分析器加载语法表将所述筛选表达式解析成由多个词汇组成的表达式树，通过语义分析将所述多个词汇分解出筛选条件集合，所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成。本发明实施例还公开了一种精确提取网页内容的系统。采用本发明，对筛选表达式的进行语法分析重组成优化表达式树，并通过语义分析组成多个筛选条件对象的集合，从而实现对DOM文档树节点的采集定位和快速筛选。使用本发明有利于提高开发效率、降低维护成本。
申请公布号	CN103226599A	申请公布日期	2013.07.31
申请号	CN201310143987.8	申请日期	2013.04.23
申请人	翁杰	发明人	翁杰
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州三环专利代理有限公司 44202	代理人	温旭
主权项	一种精确提取网页内容的方法，其特征在于，具体步骤如下：获取URL对应的网页文档，将所述网页文档源代码解析成DOM结构树；读取用户输入的筛选表达式，语法分析器加载语法表对所述筛选表达式的合法性分析并将所述筛选表达式解析成由多个词汇组成的表达式树；通过语义分析，将所述多个词汇分解出筛选条件集合；所述筛选条件集合由若干个筛选条件对象组成，每个筛选条件对象由一个标签提取方法和若干个标签筛选方法组成；所述标签提取方法从所述DOM结构树中提取所述筛选条件对象指定的对象，所述标签筛选方法根据所述筛选条件对象附带的标签过滤方法对所述标签提取方法所提取的对象做进一步过滤，得出所述筛选条件对象的筛选结果，将所述筛选结果返回。
地址	515000 广东省汕头市金平区长厦村东三横巷18号501房

您可能感兴趣的专利

INDEXING NET WRAP SYSTEM

SUSPENSION SYSTEM FOR A VEHICLE

IMAGE FORMING APPARATUS

FITTING FOR A DOOR LEAF OF A DOOR

NUMBERED DATA CARRIER AND METHOD FOR ITS PREPARATION

PLC SYSTEM HAVING A PLURALITY OF CPU MODULES AND CONTROL METHOD THEREOF

Method and device for filament-based white light generation

COOLANT CIRCUIT

METHOD AND APPARATUS FOR PROVIDING FEDERATED SERVICE ACCOUNTS

WAVE POWER PLANT

DISC REPLACEMENT DEVICE AND METHOD OF USE

REDUCED MEMORY VECTORED DSL

Electrochemical capacitor devices using two-dimensional carbon material for high frequency AC line filtering

GRAIN-ORIENTED ELECTRICAL STEEL SHEET AND METHOD FOR MANUFACTURING THE SAME

POWER TRANSMISSION SYSTEM AND POWER SUPPLY DEVICE FOR VEHICLES

System and method for television signal recording