发明名称 一种面向多用户协作的数据挖掘平台的构建方法
摘要 本发明公开了一种面向多用户协作的数据挖掘平台的构建方法,该方法集成了弹性工作流、多用户协作机制,提供了面向数据采集人员、数据分析人员和结果审查人员三种用户角色协作进行数据挖掘的工作空间,整个工作流程以构件来实现,包括:数据采集构件、数据预处理构件、数据建模构件、结果可视化显示构件和模型评估构件。不同的用户角色可以在不同的用户视图里以拖拽的方式建立和操纵由构件和箭头组成的弹性工作流。针对数据挖掘不断重复、不断修改、不断迭代的复杂性,本发明不仅可以极大的简化数据挖掘工作,还可以防止数据的外泄,保证数据的安全性。
申请公布号 CN103853821A 申请公布日期 2014.06.11
申请号 CN201410059806.8 申请日期 2014.02.21
申请人 河海大学 发明人 叶枫;郭小成;李源畅;范仕良
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 李玉平
主权项 一种面向多用户协作的数据挖掘平台的构建方法,其特征在于:提供一种面向数据采集人员、数据分析人员和结果审查人员三种用户角色协作进行数据挖掘的工作空间,具体包括以下步骤:步骤1:设计并实现数据采集构件;在以下两种情况下进行数据采集:在数据库中采集数据和web上传方式采集数据;在数据库中采集数据,通过Java数据库连接实现,将数据挖掘平台的数据访问实时地转化为数据库中相应的数据查询;Web上传方式采集数据,通过监听web客户端的数据上传请求,建立客户端和数据存储服务器的socket连接,再使用Java I/O流将数据集写入到数据存储服务器的文件系统中;在两种数据采集构件具体实现时,都需将数据集相应的数据的元数据信息保存到系统的数据库中,并对外提供统一的访问接口;步骤2:设计并实现数据预处理构件;通过R语言对数据集进行统计分析,以图形的方式向用户展现数据集的基本描述信息;封装插值填补、记录去除和数据修正的数学方法,提供处理数据缺失值、处理重复数据、处理噪声数据和处理异常数据等数据预处理环节的用户接口;步骤3:设计并实现数据建模构件;通过R语言封装分类、聚类、关联和时间序列的数据挖掘模型;提供图形界面接口给用户设置相应的模型分析参数;步骤4:设计并实现结果可视化显示构件;通过R语言将数据挖掘结果和模型评估结果以图形、列表等方式展现给用户;通过Ajax轮询技术将结果实时推送给结果审查人员;步骤5:设计并实现模型评估构件;通过使用R语言提供精确率、误差率和混淆矩阵的多种模型评估方法;提供将模型分析参数和模型元数据信息保存到系统数据库的用户接口;步骤6:设计并实现用户工作空间;通过JQuery实现一个拖拽式的图形操作界面,包括构件候选流程构件区和流程创建区两个部分;通过堆栈数据结构存储用户操作日志,提供撤销、重做和保存工作空间的用户接口;步骤7:定义并实现数据挖掘流程;以步骤1至步骤5设计的数据挖掘构件为节点,定义由若干个节点和箭头组成的工作流;提供调整节点执行参数、更改流程执行方向以及导出中间运算结果等用户接口;步骤8:集成和部署挖掘平台;对步骤1至步骤5设计的数据挖掘构件提供JSON格式的配置接口,提供以编辑配置文件的方式定制挖掘平台的功能的用户接口。
地址 210098 江苏省南京市鼓楼区西康路1号