发明名称 |
一种提取网页正文内容的方法及系统 |
摘要 |
本发明公开了一种提取网页正文内容的方法及系统,该方法包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。本发明通过对HTML源码逐行比较相同性,从而确定网页的噪音信息行和正文信息行,最后抽取获得网页正文内容,实现方式简单、快速,而且可以取得较高的准确率和完整性,能有效地抽取网页正文信息,可广泛应用于网页正文内容抽取领域中。 |
申请公布号 |
CN105022803A |
申请公布日期 |
2015.11.04 |
申请号 |
CN201510381617.7 |
申请日期 |
2015.07.01 |
申请人 |
广州市万隆证券咨询顾问有限公司 |
发明人 |
吴远辉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州嘉权专利商标事务所有限公司 44205 |
代理人 |
胡辉;郑泽萍 |
主权项 |
一种提取网页正文内容的方法,其特征在于,包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性;S3、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4;S4、对待分析网页的HTML源码进行正文内容抽取。 |
地址 |
510088 广东省广州市越秀区中山一路21号天兴大厦东塔20楼 |