发明名称 一种抽取正文的方法及装置
摘要 本发明实施例提供了一种抽取正文的方法及装置,该方法,包括:获取待抽取网页中的层叠样式表CSS内容;根据所述CSS内容,确定所述待抽取网页中的节点的宽度,根据所述待抽取网页中的节点的宽度,确定包含正文内容的正文节点;根据所述正文节点,对所述待抽取网页进行清理,抽取所述待抽取网页的正文。本发明实施例提供了一种抽取正文的方法及装置,能够更加简单的实现正文抽取。
申请公布号 CN105740423A 申请公布日期 2016.07.06
申请号 CN201610066341.8 申请日期 2016.01.29
申请人 浪潮软件集团有限公司 发明人 毛立花;孙海峰;王传超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 李世喆
主权项 一种抽取正文的方法,其特征在于,包括:S1:获取待抽取网页中的层叠样式表CSS内容;S2:根据所述CSS内容,确定所述待抽取网页中的节点的宽度,根据所述待抽取网页中的节点的宽度,确定包含正文内容的正文节点;S3:根据所述正文节点,对所述待抽取网页进行清理,抽取所述待抽取网页的正文。
地址 250100 山东省济南市高新区科航路2877号