发明名称 |
一种网页内容识别方法和系统 |
摘要 |
本发明公开了一种网页内容识别方法和系统,该方法包括:网络爬虫从互联网抓取网页;网络爬虫自动抓取互联网网页的内容,包括但不限于网页结构、网页标签、程序或者脚本信息;所述网页结构根据下述信息生成:包括但不限于网页标题,网页正文内容,图片、声音或视频信息;所述新抓取的网页和网页数据库中存储的网页进行比较;所述特征码通过采集下述信息生成:包括但不限于网页的标签数量,标签中文字长度;有效页面存储于网页数据库。本发明技术方案简化了网页识别的运算量,算法相对简单,进一步的降低了系统资源的占用,对于提高搜索时间、减小系统资源占用具有积极的意义。 |
申请公布号 |
CN106326236A |
申请公布日期 |
2017.01.11 |
申请号 |
CN201510341545.3 |
申请日期 |
2015.06.18 |
申请人 |
天脉聚源(北京)科技有限公司 |
发明人 |
章杰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种网页内容识别方法,其特征在于,包括以下步骤:网络爬虫从互联网抓取网页;所述新抓取的网页和网页数据库中存储的网页进行比较;有效页面存储于网页数据库。 |
地址 |
100007 北京市东城区安定门东大街28号2号楼806室 |