网页内容抽取方法和网页内容抽取系统,申请号CN201310432426.X-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	网页内容抽取方法和网页内容抽取系统
摘要	本发明提供了一种网页内容抽取方法和和网页内容抽取系统。该网页内容抽取方法包括：提取网页对应的DOM树结构；遍历DOM树，获取DOM树中各结点的维度特征；将各结点的维度特征按照预定规则输入决策树，对各结点进行分类，并根据决策树的分类结果确定网页的结构分块；按照结构分块选择性抽取相应的网页内容。利用本发明的技术方案，根据网页的DOM树结构进行结构分块，根据结构分块过滤掉无关块的内容，抽取出需要的分块的网页内容，分块和抽取过程中不需要使用人工规则，解决了人工规则效率低、维护复杂的问题。
申请公布号	CN103473338B	申请公布日期	2016.10.05
申请号	CN201310432426.X	申请日期	2013.09.22
申请人	北京奇虎科技有限公司;奇智软件（北京）有限公司	发明人	王志刚
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京智汇东方知识产权代理事务所(普通合伙) 11391	代理人	康正德;范晓斌
主权项	一种网页内容抽取方法，包括：提取网页对应的DOM树结构；遍历所述DOM树，获取所述DOM树中各结点的维度特征；将所述各结点的维度特征按照预定规则输入决策树，对所述各结点进行分类，并根据所述决策树的分类结果确定所述网页的结构分块；按照所述结构分块选择性抽取相应的网页内容，其中，根据所述决策树的分类结果确定所述网页的结构分块的步骤进一步包括：根据决策树对所述DOM树中各结点的分类结果构建所述网页的第一分块序列，其中第一分块序列包括多个结构分块；将所述第一分块序列输入条件随机场进行优化计算，得到第二分块序列，其中第二分块序列包括一个或多个经优化后的结构分块。
地址	100088 北京市西城区新街口外大街28号D座112室（德胜园区）

您可能感兴趣的专利

METOD OF OBTAINING OF N- SUBSTITUATED OXAZOLIDINES

METHOD OF OBTAINING OF ARYLOXYALKYLAMINEBENZOIC ACIDS AND ESTERS

METHOD OF INSULATING OF FACED CONNECTIONS AND JOINING CONNECTIONS AMONG WINDING BARS OF ELECTRICAL MACHINES

APPARATUS FOR MAKING OF SEMI- SPHERES

APPARATUS FOR DRYING AND GRANULATING OF SOLUTIONS

HYDRAULIC PERCUSSIVE MECHANISM

PROTECTIVE LAYER FOR FLAT ROOFS

METHOD FOR CONTINUOUS OBTAINING OF WINDINE MATERIALS WITH STRATIFIED SURFACE

METHOD FOR RESIN VULCANIZATION OF BUTHYLRUBBER BY BLENDING WITH ALKYLPHENOLFORMALDEHYDE RESIN

METHOD OF OBTAINING OF 2,4- DICHLOR- 2- OXY- 1,2- OXAPHOSPHOL 3- ENY

DERIVATIVES OF HEXAHYDROINDENE- (2,1- 6)- 1,4- OXAZINE, METHOD OF THEIR OBTAINING AND APPLICATION

METHOD AND APPARATUS FOR PHOTOCHEMICAL OBTAINING OF DERIVATIVES OF METHANE FROM NATURAL GAS

ADDITIVE FOR INTENSIFICATION OF CEMENT MILLING

METHOD OF OBTAINING ARTICLES FROM WASTE QWARTS GLASS

MULBERRY SORT 'TRAKIA 6'

WATERDISTRIBUTING HEAD

SINKING SPRINKLING APPARATUS

ADJUSTABLE VALVE FOR AIR INLET TO THE PETROL MIXTURE OF ENGINES WITH PURPOSE OF COMBUSTION IMPROVEMENT

THE WED NAMED AROUND DONAX FOR ENERGY GENERATION,FOR MAKING DESERTS PRODUCTIVE AND FOR USE AS FODDER

MECHANISM AND METHOD OF HEATING AND COOLING OF WATER BY USING OF UNDERGROUND NATURAL HEAT