发明名称 |
一种确定数据样本类别的方法及其系统 |
摘要 |
本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。 |
申请公布号 |
CN101799748A |
申请公布日期 |
2010.08.11 |
申请号 |
CN200910077994.6 |
申请日期 |
2009.02.06 |
申请人 |
中国移动通信集团公司 |
发明人 |
徐萌;邓超;高丹;罗治国;周文辉;何清;庄福振;郑诗豪;沈亚飞;陈磊 |
分类号 |
G06F9/38(2006.01)I;G06F9/46(2006.01)I |
主分类号 |
G06F9/38(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
魏杉 |
主权项 |
一种确定数据样本类别的方法,其特征在于,包括:并行执行多个第一映射Map任务,其中,每个第一Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行简化Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。 |
地址 |
100032 北京市西城区金融大街29号 |