一种新闻网页正文信息的提取方法,申请号CN200510132372.0-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种新闻网页正文信息的提取方法
摘要	本发明涉及一种新闻网页正文信息的提取方法，属于网页信息分析处理技术领域。现有技术中，通常采用包装器来抽取网页中感兴趣的数据，而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容，并以特定形式加以表示的，包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构，把网页数据的层次结构信息转化为用向量表达，构建和解析Html树，然后将Html树的各层次数据做对比，进行数据过滤，细化、识别，和数据重组，提取所需的数据信息。采用本发明所述的方法，适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息，速度快，准确性高。
申请公布号	CN1786965B	申请公布日期	2010.05.26
申请号	CN200510132372.0	申请日期	2005.12.21
申请人	北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学	发明人	舒文兵;吴於茜;肖建国
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京英赛嘉华知识产权代理有限责任公司 11204	代理人	田明;王达佐
主权项	一种新闻网页正文信息的提取方法，包括以下步骤：(1)对网页进行规范化预处理，使之符合Html语言标准，然后依据Html语言中的<table>和<div>标记，解析所有新闻网页的Html数据，得到Html树；(2)将由相同模版生成的Html树的各层次数据做对比，把坐标相同，所包含的有效信息也相同的table节点或div节点剔除；(3)将Html树中各层次的table节点内的数据进行细化识别，区分出标题信息和内容信息；(4)重组处理后的Html树中各个节点内的数据，提取所需的数据信息。
地址	100871 北京市海淀区成府路298号方正大厦

您可能感兴趣的专利

METHOD AND APPARATUS FOR SAMPLING SURFACE LAYER OF METALLIC MATERIAL

AUTOMATIC ANALYZER FOR TRACE METAL IN BLOOD

OPTICAL IMMUNOASSAY METHOD AND IMMUNOASSAY APPARATUS USED THEREFOR

METHOD AND TOOL FOR PREPARING FLAKE SAMPLE

IMPACT WIND TUNNEL

FREE PISTON FOR IMPACT WIND TUNNEL

METHOD OR CHECKING WATER LEAK OF UNDERGROUND CITY WATER PIPE

METHOD FOR CHECKING WATER LEAK OF UNDERGROUND CITY WATER PIPE

SOUND VELOCITY MEASURING METHOD

WEIGHTING/MIXING SYSTEM

POWDER AND LIQUID DETECTOR

TIME DIVISION MULTIPLEX SWITCH

FACSIMILE COMMUNICATION EQUIPMENT

SURFACE MOUNTING PART

SUBSTRATE RESISTANT TO LOW TEMPERATURE

SEMICONDUCTOR DEVICE PROVIDED WITH CHECKING PATTERN

MANUFACTURE OF SEMICONDUCTOR DEVICE

SEMICONDUCTOR DEVICE AND ITS MANUFACTURE

OPTICAL CHARACTER SEGMENTING DEVICE

APPARATUS AND METHOD FOR CONNECTION OF SHORT-WORD-LENGTH MEMORY TO LONG-WORD-LENGTH MULTIPLEXED BUS