发明名称 |
轻量级智能网页内容解析方法 |
摘要 |
本发明为网页内容解析提供了一种通用的轻量级智能解析方法,可以对文章类(如新闻、博客、论坛等)网页进行有效的内容解析。步骤如下:首先,下载网页HTML源码并将其转换成结构化数据模型;其次,分析结构化数据模型,收集用于定位主体内容的数据;再次,利用收集的数据,对数据模型进行进一步分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析获取的主体内容模型,去除无用信息,得到主体内容。此外,通过交互式界面,用户可对解析结果进行合并、编辑、保存、索引,相当于为用户建立了网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。 |
申请公布号 |
CN101819584A |
申请公布日期 |
2010.09.01 |
申请号 |
CN201010126329.4 |
申请日期 |
2010.03.18 |
申请人 |
上海引跑信息科技有限公司 |
发明人 |
不公告发明人 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种轻量级智能网页内容解析方法,其特征在于:1)从因特网获取网页的HTML源码。2)利用HTML源码的结构化、层次化特性,构建数据对象。同时对不完整的HTML源码进行补充。3)遵循网页构建时候的基本特征和开发者的常规习惯,利用文章类(如新闻、博客、论坛等)网页的基本特征,对网页的主体内容进行定位和解析。4)获取的网页主体内容,可通过浏览器查看、编辑、保存、索引。5)可以定制任务,定时更新结果。 |
地址 |
201203 上海市浦东新区蔡伦路1690号2号楼303室 |