发明名称 |
一种海量数据的处理、搜索、推荐方法及装置 |
摘要 |
本申请提供了一种海量数据的处理方法及装置,以解决是原始数据稀疏性较大导致数据区分的效果不明显的问题。所述的方法包括:将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。本申请从根本上解决了原始数据稀疏性较大的问题,从而使得后续海量数据在处理中数据的区分性较好。 |
申请公布号 |
CN103389966A |
申请公布日期 |
2013.11.13 |
申请号 |
CN201210141618.0 |
申请日期 |
2012.05.09 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
陈欢 |
分类号 |
G06F17/16(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/16(2006.01)I |
代理机构 |
北京润泽恒知识产权代理有限公司 11319 |
代理人 |
苏培华 |
主权项 |
一种海量数据的处理方法,其特征在于,包括:将海量的原始数据存储到m×n阶原始矩阵A中,其中,m和n均为正整数,所述原始数据为针对每个用户的操作数据;对原始矩阵A进行奇异值分解时,将原始矩阵A中的原始数据分布到若干个处理节点上进行处理;将通过奇异值分解得到的第一酉矩阵U、第一对角矩阵S和第二酉矩阵V进行重构,得到对应的重构矩阵B;对所述重构矩阵B中的数据进行聚类以区分出不同的类别数据。 |
地址 |
英属开曼群岛大开曼资本大厦一座四层847号邮箱 |