发明名称 | 一种基于XBRL文件的数据挖掘方法 | ||
摘要 | 本发明公开了一种基于XBRL实例文件的数据挖掘方法,包括如下步骤:获取XBRL实例文件,将所述XBRL实例文件利用Hadoop平台HDFS文件系统进行存储;将所述Hadoop平台存储的所述XBRL实例文件进行分片处理,通过MapReduce技术将每个分片上是所述XBRL实例文件进行解析并生成相应的布尔矩阵;将所述布尔矩阵进行分块处理,通过迭代算法统计所有分块对应的布尔矩阵中不同元素的数量,根据数量获取所述XBRL实例文件的频繁项,获取所述频繁项对应的XBRL实例文件的数据。本发明通过Hadoop平台实现海量XBRL实例文件的存储,同时利用Hadoop平台中Map/Reduce函数的使用实现对XBRL实例文件的解析并生成相应的布尔矩阵后,再次利用Map/Reduce数据将布尔矩阵进行分块处理降低数据挖掘过程中的计算量,同时提高了计算速度。 | ||
申请公布号 | CN105930375A | 申请公布日期 | 2016.09.07 |
申请号 | CN201610228600.2 | 申请日期 | 2016.04.13 |
申请人 | 云南财经大学 | 发明人 | 冯涛 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京卓唐知识产权代理有限公司 11541 | 代理人 | 龚洁 |
主权项 | 一种基于XBRL实例文件的数据挖掘方法,其特征在于,包括如下步骤:获取XBRL实例文件,将所述XBRL实例文件利用Hadoop平台HDFS文件系统进行存储;将所述Hadoop平台存储的所述XBRL实例文件进行分片处理,通过MapReduce技术将每个分片上是所述XBRL实例文件进行解析并生成相应的布尔矩阵,解析后的所述XBRL实例文件包括财务数据;将所述布尔矩阵进行分块处理,通过迭代算法统计所有分块对应的布尔矩阵中不同元素的数量,根据不同元素的数量获取解析后的所述XBRL实例文件中的频繁项集。 | ||
地址 | 650231 云南省昆明市龙泉路南段 |