一种基于网页数据挖掘的信息采集方法,申请号CN201110344785.0-传众专利搜索

发明名称	一种基于网页数据挖掘的信息采集方法
摘要	本发明公开了一种基于网页数据挖掘的信息采集方法，涉及数据挖掘技术领域。所述方法包括步骤：A：从目标Web文档中获得待采集信息；B：判断待采集信息类型是否是固定格式数据，如果是，执行步骤E；否则，剔除无用信息后进行信息整理，执行步骤C；C：判断待采集信息类型是否是半结构化数据，如果是，进行模式发现，执行步骤D；否则，执行步骤E；D：判断是否保存有模式模板，如果是，执行步骤E；否则，进行模式分析后保存其模式模板，执行步骤E；E：剔除重复信息后存储到本地计算机上。所述方法，能够以较低的成本和较短的时间，满足需求简单、数据量较小的信息采集需求。
申请公布号	CN102402592A	申请公布日期	2012.04.04
申请号	CN201110344785.0	申请日期	2011.11.04
申请人	同辉佳视（北京）信息技术股份有限公司	发明人	王磊;张许亮;戴福昊;马桐
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京路浩知识产权代理有限公司 11002	代理人	王莹
主权项	一种基于网页数据挖掘的信息采集方法，其特征在于，包括步骤：A：从目标Web文档中获得待采集信息；B：判断所述待采集信息类型是否是固定格式数据，如果是，执行步骤E；否则，从所述待采集信息中剔除无用信息后进行信息整理，然后执行步骤C；C：判断所述待采集信息类型是否是半结构化数据，如果是，对所述待采集信息进行模式发现，然后执行步骤D；否则，执行步骤E；D：判断是否保存有所述待采集信息的模式模板，如果是，执行步骤E；否则，对所述待采集信息进行模式分析后保存其模式模板，再执行步骤E；E：对所述待采集信息进行分类，剔除重复信息后创建检索目录；F：将所述待采集信息存储到本地计算机上。
地址	100094 北京市海淀区永丰北清路103号超然时代1号楼