发明名称 | 一种抽取正文的方法及装置 | ||
摘要 | 本发明实施例提供了一种抽取正文的方法及装置,该方法,包括:获取待抽取网页中的层叠样式表CSS内容;根据所述CSS内容,确定所述待抽取网页中的节点的宽度,根据所述待抽取网页中的节点的宽度,确定包含正文内容的正文节点;根据所述正文节点,对所述待抽取网页进行清理,抽取所述待抽取网页的正文。本发明实施例提供了一种抽取正文的方法及装置,能够更加简单的实现正文抽取。 | ||
申请公布号 | CN105740423A | 申请公布日期 | 2016.07.06 |
申请号 | CN201610066341.8 | 申请日期 | 2016.01.29 |
申请人 | 浪潮软件集团有限公司 | 发明人 | 毛立花;孙海峰;王传超 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南信达专利事务所有限公司 37100 | 代理人 | 李世喆 |
主权项 | 一种抽取正文的方法,其特征在于,包括:S1:获取待抽取网页中的层叠样式表CSS内容;S2:根据所述CSS内容,确定所述待抽取网页中的节点的宽度,根据所述待抽取网页中的节点的宽度,确定包含正文内容的正文节点;S3:根据所述正文节点,对所述待抽取网页进行清理,抽取所述待抽取网页的正文。 | ||
地址 | 250100 山东省济南市高新区科航路2877号 |