发明名称 一种海量数字信息的分布式推荐方法
摘要 本发明涉及海量信息处理技术领域,具体涉及一种海量数字信息的分布式推荐方法,该分布式推荐方法包括以下步骤:第一步,建设对等的分布式局域网络;第二步,收集当前用户行为的数字信息,存入面向文档的分布式数据库mongodb中;第三步,数字信息的预处理;第四步,统计与当前用户有关系的数字信息的集合;第五步,构建数字信息之间的相似度矩阵;第六步,统计数字信息之间相似度的总数矩阵;第七步,统计向当前用户候选推荐的数字信息的评分值;第八步,向当前用户推荐数字信息。本发明的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,准确度更高;本发明的分布式推荐方法适用于各种数字信息。
申请公布号 CN102298650A 申请公布日期 2011.12.28
申请号 CN201110316628.9 申请日期 2011.10.18
申请人 东莞市巨细信息科技有限公司 发明人 郗旻;张金领
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 东莞市华南专利商标事务所有限公司 44215 代理人 李玉平
主权项 一种海量数字信息的分布式推荐方法,其特征在于:所述分布式推荐方法包括以下步骤:第一步,建立对等的分布式局域网络,网络中每台计算机可直接相互通讯,网络中计算机的数量至少为10台;第二步,收集当前用户行为的数字信息,存入面向文档的分布式数据库mongodb中;第三步,将第二步中收集的数字信息进行预处理;第四步,统计与当前用户有关系的数字信息的集合:通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息的集合;其中,将数据库mongodb中的当前用户行为的数字信息作为Map阶段的输入数据源;Map 阶段完成后开始 Reduce阶段的并行运算, Reduce阶段的输入数据源为Map阶段的输出结果,将与当前用户有关系的数字信息集合进行汇总;第五步,构建数字信息之间的相似度关系矩阵:运行并行的Map阶段运算,将第四步中Reduce阶段的输出结果作为本步骤中Map阶段运算的输入数据源,进而构建数字信息之间的相似度矩阵;第六步,统计数字信息之间相似度的总数矩阵:运行并行的Reduce阶段运算,将第五步中Map阶段的输出结果作为本步骤中Reduce阶段运算的输入数据源,统计数字信息之间相似度的总数矩阵;第七步,统计向当前用户候选推荐的数字信息的评分值的Map阶段运算:运行并行的Map阶段运算,将第四步中Reduce阶段的输出结果作为本步骤中Map阶段运算的输入数据源,统计向当前用户候选推荐的数字信息的评分值;第八步,统计向当前用户候选推荐的数字信息的评分值的Reduce阶段运算:第七步中Map阶段运算完成后,开始Reduce阶段的并行运算,将第六步的运算结果和第七步中Map阶段运算的输出结果作为本步骤中Reduce阶段运算的输入数据源;第九步,为当前用户推荐数字信息的Map阶段运算:运行并行的Map阶段运算,将第八步中Reduce阶段的输出结果作为本步骤中Map阶段运算的输入数据源,运算规则为直接输出第八步中Reduce阶段的输出结果;第十步,为当前用户推荐数字信息的Reduce阶段运算:第九步中Map阶段运算完成后开始Reduce阶段的并行运算,将第九步中Map阶段运算的结果作为本步骤中Reduce阶段运算的输入数据源,运算规则为:排序比较与用户没有发生过关系的数字信息的总评分值,按总评分值的高低依次选择前N 项数字信息作为最终的推荐结果;结果格式为:<用户标示,推荐的数字信息项集合>;其中,所述N为设定的正整数;第十一步,根据向当前用户推荐的数字信息项集合,进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,最后将所获取的数字信息的详细内容返回给当前用户。
地址 523808 广东省东莞市松山湖科技产业园区松科苑9号楼416、417室东莞市巨细信息科技有限公司