一种大数据分类方法及系统,申请号CN201310727192.1-传众专利搜索

发明名称	一种大数据分类方法及系统
摘要	本发明公开了一种大数据分类方法及系统，方法包括：训练步骤，将输入数据划分成输入数据块，将该输入数据块生成模式字符串的分类规则{模式字符串=>类标}，并将该分类规则写入Hbase数据库规则表；测试步骤，读取该输入数据块，并构造待分类模式字符串，在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则，并输出分类结果。由此，提供一种基于超曲面的大数据分类方法及系统，通过采用基于超曲面的覆盖算法，能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现，且能以较低的计算代价，构建易于解释的规则模型，快速高效处理海量数据，以应对现实世界中呈爆炸式增长的数据的分类需求。
申请公布号	CN103729428B	申请公布日期	2017.04.12
申请号	CN201310727192.1	申请日期	2013.12.25
申请人	中国科学院计算技术研究所	发明人	何清;吴新宇;庄福振;敖翔
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京律诚同业知识产权代理有限公司 11006	代理人	祁建国;梁挥
主权项	一种大数据分类方法，其特征在于，该方法包括以下步骤：训练步骤，包括多次循环的第一映射/化简步骤，用于将输入数据划分成输入数据块，将该输入数据块生成模式字符串的分类规则{模式字符串＝>类标}，并将该分类规则写入Hbase数据库规则表；测试步骤，包括一个第二映射/化简步骤，用于读取该输入数据块，并构造待分类模式字符串，在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则，并输出分类结果；其中该第一映射/化简步骤具体为：包括一个或多个第一映射步骤和一个化简步骤，其中，该第一映射步骤用于将该输入数据分成固定大小的输入数据块，逐行读取该输入数据块并按照每一维依次取前l位的方式构造模式字符串，并将该输入数据块生成键值对<模式字符串，类标>，其中l为当前循环次数；该化简步骤用于将该键值合并成项目<模式字符串，list<类标>>，并判断该项目是否纯净，若纯净，则向该Hbase数据库规则表中写入该规则，否则转该第一映射步骤，其中该纯净指list<类标>中包含某一个类标次数的百分比达到用户设定的阈值。
地址	100190 北京市海淀区中关村科学院南路6号