一种网页信息抽取方法及其系统,申请号CN201110047743.0-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种网页信息抽取方法及其系统
摘要	本发明公开了一种网页信息抽取方法及其系统，该方法包括：将待抽取网页解析为文档对象模型DOM树，获取与待抽取网页对应的模板；根据所述模板定义的网页划分粒度遍历所述DOM树，将对应网页划分为内容块；根据所述模板定义的输出规则，将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。
申请公布号	CN102651002A	申请公布日期	2012.08.29
申请号	CN201110047743.0	申请日期	2011.02.28
申请人	腾讯科技（深圳）有限公司	发明人	王传刚;杨巍;张立明
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京鑫媛睿博知识产权代理有限公司 11297	代理人	龚家骅
主权项	一种网页信息抽取方法，其特征在于，包括以下步骤：将待抽取网页解析为文档对象模型DOM树，获取与待抽取网页对应的模板；根据所述模板定义的网页划分粒度遍历所述DOM树，将对应网页划分为内容块；根据所述模板定义的输出规则，将所述内容块的内容和类型信息进行输出。
地址	518057 广东省深圳市福田区振兴路赛格科技园2栋东403室

您可能感兴趣的专利

METHOD AND DEVICE FOR MONITORING A TORQUE OF AN ELECTRIC MOTOR

A CONTAINER FOR DRINKING DRINKS.

SEPARATION DEVICE COMPRISING A SWIRLER

METHOD FOR DRIVING VARIABLE RESISTANCE ELEMENT, AND NONVOLATILE STORAGE DEVICE

NANOWIRE GRID STRUCTURE AND METHOD OF MANUFACTURING NANOWIRE

AIR-TIGHTNESS MAINTAINING STRUCTURE FOR BUTTERFLY VALVE

HAIR TREATMENT WITHOUT ARYLATED SILICONES

STRAY LIGHT RESISTANCE OF UV INKJET INKS

PRODUCTION OF PARA-XYLENE

CONJUGATED POLYMERS

HEAD-UP DISPLAY DEVICE

FOOD AND BEVERAGE SERVER

DOSE OPTIMIZATION BASED ON OUTCOME QUALITY

PRESSURE SENSING DEVICE

DEVICE AND METHOD FOR EVACUATING A CHAMBER AND PURIFYING THE GAS EXTRACTED FROM SAID CHAMBER

METHOD FOR TRANSMITTING AND RECEIVING SIGNALS AND DEVICE FOR SAME

RTWO-BASED PULSE WIDTH MODULATOR

MULTIPLE USE FOOTWEAR

FENCING ASSEMBLY WITH CLIP