发明名称 | 一种大数据分类方法及系统 | ||
摘要 | 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。 | ||
申请公布号 | CN103729428B | 申请公布日期 | 2017.04.12 |
申请号 | CN201310727192.1 | 申请日期 | 2013.12.25 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 何清;吴新宇;庄福振;敖翔 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京律诚同业知识产权代理有限公司 11006 | 代理人 | 祁建国;梁挥 |
主权项 | 一种大数据分类方法,其特征在于,该方法包括以下步骤:训练步骤,包括多次循环的第一映射/化简步骤,用于将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,包括一个第二映射/化简步骤,用于读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果;其中该第一映射/化简步骤具体为:包括一个或多个第一映射步骤和一个化简步骤,其中,该第一映射步骤用于将该输入数据分成固定大小的输入数据块,逐行读取该输入数据块并按照每一维依次取前l位的方式构造模式字符串,并将该输入数据块生成键值对<模式字符串,类标>,其中l为当前循环次数;该化简步骤用于将该键值合并成项目<模式字符串,list<类标>>,并判断该项目是否纯净,若纯净,则向该Hbase数据库规则表中写入该规则,否则转该第一映射步骤,其中该纯净指list<类标>中包含某一个类标次数的百分比达到用户设定的阈值。 | ||
地址 | 100190 北京市海淀区中关村科学院南路6号 |