发明名称 一种基于网页数据挖掘的信息采集方法
摘要 本发明公开了一种基于网页数据挖掘的信息采集方法,涉及数据挖掘技术领域。所述方法包括步骤:A:从目标Web文档中获得待采集信息;B:判断待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,剔除无用信息后进行信息整理,执行步骤C;C:判断待采集信息类型是否是半结构化数据,如果是,进行模式发现,执行步骤D;否则,执行步骤E;D:判断是否保存有模式模板,如果是,执行步骤E;否则,进行模式分析后保存其模式模板,执行步骤E;E:剔除重复信息后存储到本地计算机上。所述方法,能够以较低的成本和较短的时间,满足需求简单、数据量较小的信息采集需求。
申请公布号 CN102402592A 申请公布日期 2012.04.04
申请号 CN201110344785.0 申请日期 2011.11.04
申请人 同辉佳视(北京)信息技术股份有限公司 发明人 王磊;张许亮;戴福昊;马桐
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种基于网页数据挖掘的信息采集方法,其特征在于,包括步骤:A:从目标Web文档中获得待采集信息;B:判断所述待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,从所述待采集信息中剔除无用信息后进行信息整理,然后执行步骤C;C:判断所述待采集信息类型是否是半结构化数据,如果是,对所述待采集信息进行模式发现,然后执行步骤D;否则,执行步骤E;D:判断是否保存有所述待采集信息的模式模板,如果是,执行步骤E;否则,对所述待采集信息进行模式分析后保存其模式模板,再执行步骤E;E:对所述待采集信息进行分类,剔除重复信息后创建检索目录;F:将所述待采集信息存储到本地计算机上。
地址 100094 北京市海淀区永丰北清路103号超然时代1号楼