发明名称 一种新闻网页正文信息的提取方法
摘要 本发明涉及一种新闻网页正文信息的提取方法,属于网页信息分析处理技术领域。现有技术中,通常采用包装器来抽取网页中感兴趣的数据,而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容,并以特定形式加以表示的,包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构,把网页数据的层次结构信息转化为用向量表达,构建和解析Html树,然后将Html树的各层次数据做对比,进行数据过滤,细化、识别,和数据重组,提取所需的数据信息。采用本发明所述的方法,适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息,速度快,准确性高。
申请公布号 CN1786965B 申请公布日期 2010.05.26
申请号 CN200510132372.0 申请日期 2005.12.21
申请人 北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学 发明人 舒文兵;吴於茜;肖建国
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 田明;王达佐
主权项 一种新闻网页正文信息的提取方法,包括以下步骤:(1)对网页进行规范化预处理,使之符合Html语言标准,然后依据Html语言中的<table>和<div>标记,解析所有新闻网页的Html数据,得到Html树;(2)将由相同模版生成的Html树的各层次数据做对比,把坐标相同,所包含的有效信息也相同的table节点或div节点剔除;(3)将Html树中各层次的table节点内的数据进行细化识别,区分出标题信息和内容信息;(4)重组处理后的Html树中各个节点内的数据,提取所需的数据信息。
地址 100871 北京市海淀区成府路298号方正大厦