发明名称 一种大数据分类方法及系统
摘要 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。
申请公布号 CN103729428B 申请公布日期 2017.04.12
申请号 CN201310727192.1 申请日期 2013.12.25
申请人 中国科学院计算技术研究所 发明人 何清;吴新宇;庄福振;敖翔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 一种大数据分类方法,其特征在于,该方法包括以下步骤:训练步骤,包括多次循环的第一映射/化简步骤,用于将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,包括一个第二映射/化简步骤,用于读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果;其中该第一映射/化简步骤具体为:包括一个或多个第一映射步骤和一个化简步骤,其中,该第一映射步骤用于将该输入数据分成固定大小的输入数据块,逐行读取该输入数据块并按照每一维依次取前l位的方式构造模式字符串,并将该输入数据块生成键值对<模式字符串,类标>,其中l为当前循环次数;该化简步骤用于将该键值合并成项目<模式字符串,list<类标>>,并判断该项目是否纯净,若纯净,则向该Hbase数据库规则表中写入该规则,否则转该第一映射步骤,其中该纯净指list<类标>中包含某一个类标次数的百分比达到用户设定的阈值。
地址 100190 北京市海淀区中关村科学院南路6号