发明名称 一种基于Deep Web深层动态数据的数据挖掘装置及方法
摘要 本发明公开了一种基于Deep Web深层动态数据的数据挖掘装置及方法,所述装置包括:商用服务器、数据存储服务器、数据索引服务器及文件服务器,基于所述装置的装置系统包括:采集模拟主题词库管理系统、采集任务调度管理系统、采集服务器及采集存储调度系统。本发明提供了一种数量大、数据质量高、实时性强、易于深度分析的动态数据获取手段,弥补了常规搜索引擎获取数据的数量质量均有限的不足;而且本发明操作简便实用,定制功能丰富,可扩展性健壮性好,用户可以根据特定或者专题性强的需求定制采集并重建管理数据库,很大程度的提供了数据的利用效率,扩展了数据来源和信息资源。
申请公布号 CN101840432B 申请公布日期 2012.07.25
申请号 CN201010168286.6 申请日期 2010.05.11
申请人 同方知网(北京)技术有限公司 发明人 张振海;雷华平
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京捷诚信通专利事务所(普通合伙) 11221 代理人 魏殿绅
主权项 一种基于Deep Web深层动态数据的数据挖掘装置的装置系统,该装置包括商用服务器、数据存储服务器、数据索引服务器及文件服务器,其特征在于,基于所述装置的装置系统包括:采集模拟主题词库管理系统,用于输入数据挖掘的检索条件或需采集的词库;采集任务调度管理系统,用于读取采集模拟主题词库管理系统中的词库数据,并根据读取的词库数据对采集任务进行调度和管理;采集服务器,根据配置和管理生成的检索条件,对目标数据源进行模拟访问并解析,将获取的数据通过所述采集任务调度管理系统返回到采集存储调度系统;所述采集服务器中还设置有分布式负载均衡调度逻辑控制器,该负载均衡调度逻辑控制器根据接收到的任务并基于智能分析算法对采集服务器进行均衡调度;采集存储调度系统,用于将接收到的数据进行存储并根据索引设置进行字段索引处理,以获得数据采集结果并发送到采集库发布管理平台;采集库发布管理平台,将获取的数据进行分类管理和应用;所述采集库发布管理平台还用于创建采集任务和调度信息并将所述调度信息输出到采集任务调度管理系统;所述的调度是根据调度策略进行的,其调度策略包括任务优先级、任务复杂系数及任务等待时间。
地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室