一种提取网页正文内容的方法及系统,申请号CN201510381617.7-传众专利搜索

发明名称	一种提取网页正文内容的方法及系统
摘要	本发明公开了一种提取网页正文内容的方法及系统，该方法包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。本发明通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息，可广泛应用于网页正文内容抽取领域中。
申请公布号	CN105022803A	申请公布日期	2015.11.04
申请号	CN201510381617.7	申请日期	2015.07.01
申请人	广州市万隆证券咨询顾问有限公司	发明人	吴远辉
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州嘉权专利商标事务所有限公司 44205	代理人	胡辉;郑泽萍
主权项	一种提取网页正文内容的方法，其特征在于，包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。
地址	510088 广东省广州市越秀区中山一路21号天兴大厦东塔20楼