发明名称 |
一种基于Map/Reduce的快速支持向量数据描述方法及系统 |
摘要 |
本发明涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统,其中方法包括:对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;根据预设置的参数、由训练数据集D生成n个子数据集,预设置的参数包括训练数据集的划分个数;根据n个子数据集,生成MapReduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算;调用MapReduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到训练数据集的SVDD分类器。本发明可以在处理海量数据时,降低SVDD训练数据集的维数,加快SVDD训练速度,同时避免训练中断。 |
申请公布号 |
CN102591940B |
申请公布日期 |
2013.09.25 |
申请号 |
CN201110443726.9 |
申请日期 |
2011.12.27 |
申请人 |
厦门市美亚柏科信息股份有限公司 |
发明人 |
庄进发;吴鸿伟;罗佳 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京恒都律师事务所 11395 |
代理人 |
何自刚 |
主权项 |
1.一种基于Map/Reduce的快速支持向量数据描述方法,其特征在于,包括以下步骤:对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器<img file="715075DEST_PATH_IMAGE002.GIF" wi="112" he="33" />的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器<img file="605671DEST_PATH_IMAGE004.GIF" wi="119" he="34" />的合并,得到最后训练数据集的SVDD分类器;其中,所述i、n为自然数;所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括:获取预计要抽样的子训练集的个数n值;应用Bagging方式对所述训练数据集<img file="340409DEST_PATH_IMAGE006.GIF" wi="18" he="18" />进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集<img file="949245DEST_PATH_IMAGE008.GIF" wi="50" he="40" />中;在所述子数据集<img file="60420DEST_PATH_IMAGE008.GIF" wi="50" he="40" />中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新所述训练数据集D,令<img file="DEST_PATH_IMAGE010A.GIF" wi="242" he="25" />,再重复执行前一步骤。 |
地址 |
361008 福建省厦门市软件园二期观日路12号美亚柏科大厦 |