一种网页内容识别方法和系统,申请号CN201510341545.3-传众专利搜索

发明名称	一种网页内容识别方法和系统
摘要	本发明公开了一种网页内容识别方法和系统，该方法包括：网络爬虫从互联网抓取网页；网络爬虫自动抓取互联网网页的内容，包括但不限于网页结构、网页标签、程序或者脚本信息；所述网页结构根据下述信息生成：包括但不限于网页标题，网页正文内容，图片、声音或视频信息；所述新抓取的网页和网页数据库中存储的网页进行比较；所述特征码通过采集下述信息生成：包括但不限于网页的标签数量，标签中文字长度；有效页面存储于网页数据库。本发明技术方案简化了网页识别的运算量，算法相对简单，进一步的降低了系统资源的占用，对于提高搜索时间、减小系统资源占用具有积极的意义。
申请公布号	CN106326236A	申请公布日期	2017.01.11
申请号	CN201510341545.3	申请日期	2015.06.18
申请人	天脉聚源（北京）科技有限公司	发明人	章杰
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种网页内容识别方法，其特征在于，包括以下步骤：网络爬虫从互联网抓取网页；所述新抓取的网页和网页数据库中存储的网页进行比较；有效页面存储于网页数据库。
地址	100007 北京市东城区安定门东大街28号2号楼806室