发明名称 基于用户的协同过滤的并行实现方法及系统
摘要 本发明涉及一种基于用户的协同过滤的并行实现方法及系统。首先将待处理数据按照固定分块大小存放在分布式文件系统中;接着进行数据规范化处理、用户相似度计算以及推荐物品计算,其中数据规范化处理将数据整理成可并行处理的形式,用户相似度计算以及推荐物品计算均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作,接着将处理结果以主键、值对的方式发送给中心节点,由中心节点按照主键计算出每个主键需要归并的节点,最后进行跨存储节点的数据归并操作,从而得到用户的最终推荐结果。本发明充分利用了分布式文件系统分块存储文件的特性,通过并行运算减少了循环遍历所需要的开销,能够满足面向海量用户进行协同推荐的要求。
申请公布号 CN104572880A 申请公布日期 2015.04.29
申请号 CN201410808451.8 申请日期 2014.12.22
申请人 中国科学院信息工程研究所 发明人 宋晨;罗熙;杨婧;徐震;王远
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余长江
主权项 一种基于用户的协同过滤的并行实现方法,其特征在于,包括如下步骤:1)采用分布式文件系统分块保存待进行计算的数据文件;2)分布式文件系统中的每个文件服务器对存储于其上的数据进行数据规范化处理、用户相似度计算以及推荐物品计算,其中:所述数据规范化处理将数据整理成可并行处理的形式;所述用户相似度计算以及所述推荐物品计算,均首先在文件存储的服务器中进行数据整理、同一文件系统数据归并操作,接着将处理结果的键值对发送给中心节点,由中心节点按照主键计算出每个主键需要归并的节点,最后进行跨存储节点的数据归并操作,从而得到用户的最终推荐结果。
地址 100093 北京市海淀区闵庄路甲89号