发明名称 一种网页内容识别方法和系统
摘要 本发明公开了一种网页内容识别方法和系统,该方法包括:网络爬虫从互联网抓取网页;网络爬虫自动抓取互联网网页的内容,包括但不限于网页结构、网页标签、程序或者脚本信息;所述网页结构根据下述信息生成:包括但不限于网页标题,网页正文内容,图片、声音或视频信息;所述新抓取的网页和网页数据库中存储的网页进行比较;所述特征码通过采集下述信息生成:包括但不限于网页的标签数量,标签中文字长度;有效页面存储于网页数据库。本发明技术方案简化了网页识别的运算量,算法相对简单,进一步的降低了系统资源的占用,对于提高搜索时间、减小系统资源占用具有积极的意义。
申请公布号 CN106326236A 申请公布日期 2017.01.11
申请号 CN201510341545.3 申请日期 2015.06.18
申请人 天脉聚源(北京)科技有限公司 发明人 章杰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种网页内容识别方法,其特征在于,包括以下步骤:网络爬虫从互联网抓取网页;所述新抓取的网页和网页数据库中存储的网页进行比较;有效页面存储于网页数据库。
地址 100007 北京市东城区安定门东大街28号2号楼806室