发明名称 一种基于Map/Reduce的快速支持向量数据描述方法及系统
摘要 本发明涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统,其中方法包括:对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;根据预设置的参数、由训练数据集D生成n个子数据集,预设置的参数包括训练数据集的划分个数;根据n个子数据集,生成MapReduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算;调用MapReduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到训练数据集的SVDD分类器。本发明可以在处理海量数据时,降低SVDD训练数据集的维数,加快SVDD训练速度,同时避免训练中断。
申请公布号 CN102591940B 申请公布日期 2013.09.25
申请号 CN201110443726.9 申请日期 2011.12.27
申请人 厦门市美亚柏科信息股份有限公司 发明人 庄进发;吴鸿伟;罗佳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京恒都律师事务所 11395 代理人 何自刚
主权项 1.一种基于Map/Reduce的快速支持向量数据描述方法,其特征在于,包括以下步骤:对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器<img file="715075DEST_PATH_IMAGE002.GIF" wi="112" he="33" />的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器<img file="605671DEST_PATH_IMAGE004.GIF" wi="119" he="34" />的合并,得到最后训练数据集的SVDD分类器;其中,所述i、n为自然数;所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括:获取预计要抽样的子训练集的个数n值;应用Bagging方式对所述训练数据集<img file="340409DEST_PATH_IMAGE006.GIF" wi="18" he="18" />进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集<img file="949245DEST_PATH_IMAGE008.GIF" wi="50" he="40" />中;在所述子数据集<img file="60420DEST_PATH_IMAGE008.GIF" wi="50" he="40" />中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新所述训练数据集D,令<img file="DEST_PATH_IMAGE010A.GIF" wi="242" he="25" />,再重复执行前一步骤。
地址 361008 福建省厦门市软件园二期观日路12号美亚柏科大厦