发明名称 网页主体内容识别方法和装置
摘要 本发明提供了一种网页主体内容识别方法和装置,其中的方法包括:解析待装载的网页,构建DOM树;对所述DOM树中的每个节点进行评分;根据DOM树中每个节点的分值确定所述网页中所有块元素的分值;查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。利用上述网页主体内容识别方法,可以很快的判断出网页的真正的主体内容,从而使用户以更快的速度和更加节省的流量阅读到所请求网页的主体内容。
申请公布号 CN102880707B 申请公布日期 2016.03.16
申请号 CN201210371310.5 申请日期 2012.09.27
申请人 广州市动景计算机科技有限公司 发明人 梁捷;俞永福;何小鹏;朱顺炎;陈德志
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿元知识产权代理有限公司 11327 代理人 林锦辉;龚洁
主权项 一种网页主体内容识别方法,包括:解析待装载的网页,构建DOM树;对所述DOM树中的每个节点进行评分,其中,评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定,其中,文本节点的分值为所述文本节点的字符串的长度;对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为0;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值,其中,如果根据所述块元素div下的innerText属性确定所述块元素所包含的文本的长度T,T=Length(innerText),其分值相应的为T,则对于节点类型属于网页主体内容的元素,在T的基础上增加分值;对于节点类型不属于网页主体内容的元素,在T的基础上减去分值;查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。
地址 510665 广东省广州市天河区科韵路16号自编2栋301房