发明名称 |
一种互联网网页清洗方法、系统及设备 |
摘要 |
本发明适用于互联网信息处理领域,提供了一种互联网网页清洗方法、系统及设备,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。本发明可以实现任意网页的清洗,清洗准确率高,可以应用于移动终端浏览、搜索引擎、面向主题的信息收集、自动信息提取和垂直搜索等方面。 |
申请公布号 |
CN101251855B |
申请公布日期 |
2010.12.22 |
申请号 |
CN200810066432.7 |
申请日期 |
2008.03.27 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
方高林;郑全战 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳中一专利商标事务所 44237 |
代理人 |
张全文 |
主权项 |
一种互联网网页清洗方法,其特征在于,所述方法包括下述步骤:分析输入的网页,对网页标签内容自动纠错,建立文档对象模型树;保留所述文档对象模型树中具有表示内容的HTML的块元素结点,生成与所述文档对象模型树对应的结构块树;在所述结构块树的基础上按照定义的网页类型对输入的网页进行分类;根据输入的网页所属的网页类型,对其进行语义块分析,提取并输出重要块及其文本信息。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |