发明名称 |
一种基于网页数据挖掘的信息采集方法 |
摘要 |
本发明公开了一种基于网页数据挖掘的信息采集方法,涉及数据挖掘技术领域。所述方法包括步骤:A:从目标Web文档中获得待采集信息;B:判断待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,剔除无用信息后进行信息整理,执行步骤C;C:判断待采集信息类型是否是半结构化数据,如果是,进行模式发现,执行步骤D;否则,执行步骤E;D:判断是否保存有模式模板,如果是,执行步骤E;否则,进行模式分析后保存其模式模板,执行步骤E;E:剔除重复信息后存储到本地计算机上。所述方法,能够以较低的成本和较短的时间,满足需求简单、数据量较小的信息采集需求。 |
申请公布号 |
CN102402592A |
申请公布日期 |
2012.04.04 |
申请号 |
CN201110344785.0 |
申请日期 |
2011.11.04 |
申请人 |
同辉佳视(北京)信息技术股份有限公司 |
发明人 |
王磊;张许亮;戴福昊;马桐 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
王莹 |
主权项 |
一种基于网页数据挖掘的信息采集方法,其特征在于,包括步骤:A:从目标Web文档中获得待采集信息;B:判断所述待采集信息类型是否是固定格式数据,如果是,执行步骤E;否则,从所述待采集信息中剔除无用信息后进行信息整理,然后执行步骤C;C:判断所述待采集信息类型是否是半结构化数据,如果是,对所述待采集信息进行模式发现,然后执行步骤D;否则,执行步骤E;D:判断是否保存有所述待采集信息的模式模板,如果是,执行步骤E;否则,对所述待采集信息进行模式分析后保存其模式模板,再执行步骤E;E:对所述待采集信息进行分类,剔除重复信息后创建检索目录;F:将所述待采集信息存储到本地计算机上。 |
地址 |
100094 北京市海淀区永丰北清路103号超然时代1号楼 |