一种基于Map/Reduce的快速支持向量数据描述方法及系统,申请号CN201110443726.9-传众专利搜索

发明名称	一种基于Map/Reduce的快速支持向量数据描述方法及系统
摘要	本发明涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统，其中方法包括：对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集D；根据预设置的参数、由训练数据集D生成n个子数据集，预设置的参数包括训练数据集的划分个数；根据n个子数据集，生成MapReduce编程架构下的n个子分类器SVDDi＝(1，......，n)的Map任务，并将Map任务交由Hadoop集群调度器进行运算；调用MapReduce编程架构下的Reduce任务进行子分类器SVDDi＝(1，......，n)的合并，得到训练数据集的SVDD分类器。本发明可以在处理海量数据时，降低SVDD训练数据集的维数，加快SVDD训练速度，同时避免训练中断。
申请公布号	CN102591940B	申请公布日期	2013.09.25
申请号	CN201110443726.9	申请日期	2011.12.27
申请人	厦门市美亚柏科信息股份有限公司	发明人	庄进发;吴鸿伟;罗佳
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京恒都律师事务所 11395	代理人	何自刚
主权项	1.一种基于Map/Reduce的快速支持向量数据描述方法，其特征在于，包括以下步骤：对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集D；根据预设置的参数、由所述训练数据集D生成n个子数据集，所述预设置的参数包括训练数据集的划分个数；根据所述n个子数据集，生成Map/Reduce编程架构下的n个子分类器<img file="715075DEST_PATH_IMAGE002.GIF" wi="112" he="33" />的Map任务，并将所述Map任务交由Hadoop集群调度器进行运算；在所述Hadoop集群调度器运算完成后，调用Map/Reduce编程架构下的Reduce任务进行子分类器<img file="605671DEST_PATH_IMAGE004.GIF" wi="119" he="34" />的合并，得到最后训练数据集的SVDD分类器；其中，所述i、n为自然数；所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括：获取预计要抽样的子训练集的个数n值；应用Bagging方式对所述训练数据集<img file="340409DEST_PATH_IMAGE006.GIF" wi="18" he="18" />进行抽样，在所抽样本不重复时，将所抽样本加入到子数据集<img file="949245DEST_PATH_IMAGE008.GIF" wi="50" he="40" />中；在所述子数据集<img file="60420DEST_PATH_IMAGE008.GIF" wi="50" he="40" />中所包含样本的个数达到预设的个数时，判断所有子数据集是否已全部完成抽样，如果是，则停止抽样，否则更新所述训练数据集D，令<img file="DEST_PATH_IMAGE010A.GIF" wi="242" he="25" />，再重复执行前一步骤。
地址	361008 福建省厦门市软件园二期观日路12号美亚柏科大厦