发明名称 一种网页信息抽取方法及其系统
摘要 本发明公开了一种网页信息抽取方法及其系统,该方法包括:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。
申请公布号 CN102651002A 申请公布日期 2012.08.29
申请号 CN201110047743.0 申请日期 2011.02.28
申请人 腾讯科技(深圳)有限公司 发明人 王传刚;杨巍;张立明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鑫媛睿博知识产权代理有限公司 11297 代理人 龚家骅
主权项 一种网页信息抽取方法,其特征在于,包括以下步骤:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
地址 518057 广东省深圳市福田区振兴路赛格科技园2栋东403室