发明名称 一种提取网页正文内容的方法及系统
摘要 本发明公开了一种提取网页正文内容的方法及系统,该方法包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。本发明通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息,可广泛应用于网页正文内容抽取领域中。
申请公布号 CN105022803A 申请公布日期 2015.11.04
申请号 CN201510381617.7 申请日期 2015.07.01
申请人 广州市万隆证券咨询顾问有限公司 发明人 吴远辉
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州嘉权专利商标事务所有限公司 44205 代理人 胡辉;郑泽萍
主权项 一种提取网页正文内容的方法,其特征在于,包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。
地址 510088 广东省广州市越秀区中山一路21号天兴大厦东塔20楼