发明名称 |
一种网页信息抽取方法及其系统 |
摘要 |
本发明公开了一种网页信息抽取方法及其系统,该方法包括:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。 |
申请公布号 |
CN102651002A |
申请公布日期 |
2012.08.29 |
申请号 |
CN201110047743.0 |
申请日期 |
2011.02.28 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
王传刚;杨巍;张立明 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鑫媛睿博知识产权代理有限公司 11297 |
代理人 |
龚家骅 |
主权项 |
一种网页信息抽取方法,其特征在于,包括以下步骤:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。 |
地址 |
518057 广东省深圳市福田区振兴路赛格科技园2栋东403室 |