发明名称 |
一种网页分割方法和网页分割装置 |
摘要 |
本发明涉及互联网技术,针对现有页面分割技术会破坏网页结构以及分割效率不高的缺陷,提供一种网页分割方法和网页分割装置。网页分割方法包括DOM树构建步骤,包括构建所述原始网页对应的DOM树;脉络集合构建步骤,包括分别构建该DOM树中每一叶子节点对应的脉络集合,该脉络集合中包含该DOM树的根节点、该叶子节点以及根节点与该叶子节点之间的每一中间节点;合并步骤。本发明还提供了一种网页分割装置。通过对原始网页构建DOM树并依据该DOM树来对网页进行分割,本发明提供的网页分割方法和网页分割装置能够大大降低分割操作对网页结构造成的破坏。此外,本发明提供的技术方案实现简单,因此效率更高。 |
申请公布号 |
CN101655874A |
申请公布日期 |
2010.02.24 |
申请号 |
CN200910189872.6 |
申请日期 |
2009.09.04 |
申请人 |
卓望数码技术(深圳)有限公司 |
发明人 |
王有为;张啸雄;赵建鹏;关学功;朱章厚;刘明军 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市顺天达专利商标代理有限公司 |
代理人 |
李 琴 |
主权项 |
1、一种网页分割方法,用于对原始网页进行分割,其特征在于,包括:DOM树构建步骤,包括构建所述原始网页对应的DOM树;脉络集合构建步骤,包括分别构建该DOM树中每一叶子节点对应的脉络集合,该脉络集合中包含该DOM树的根节点、该叶子节点以及根节点与该叶子节点之间的每一中间节点;合并步骤,包括以首叶子节点对应的脉络集合作为第一基准集合,以首叶子节点的后继叶子节点对应的脉络集合作为第二基准集合,执行合并操作,该合并操作包括:S1、生成第一基准集合和第二基准集合的合集;S2、判断步骤S1中生成的合集所对应网页的大小是否超过预先设置的阈值,若是,则:S21、依据第一基准集合中的各个节点及该各个节点彼此之间的所属关系构建DOM树,再依据该DOM树生成对应的分割网页;S22、判断是否存在第二基准集合所对应叶子节点的后继叶子节点,若是,则以第二基准集合对第一基准集合进行替换更新,以第二基准集合所对应叶子节点的后继叶子节点的脉络集合对第二基准集合进行替换更新,然后回到步骤S1;若否,则依据第二基准集合中的各个节点及该各个节点彼此之间的所属关系构建DOM树,再依据该DOM树生成对应的分割网页;若否,则:判断是否存在第二基准集合所对应叶子节点的后继叶子节点,若是,则以该合集对第一基准合集进行替换更新,以第二基准集合所对应叶子节点的后继叶子节点的脉络集合对第二基准集合进行替换更新,然后回到步骤S1;若否,则以该合集中的各个节点及该各个节点彼此之间的所属关系构建DOM树,再依据该DOM树生成对应的分割网页。 |
地址 |
518057广东省深圳市南山区高新技术产业园南区深港产学研基地大楼西座六楼南翼 |