发明名称 一种基于MapReduce框架的网页排序方法和系统
摘要 本发明公开了一种基于MapReduce框架的网页排序方法和系统,应用于Hadoop集群中的MapReduce框架,MapReduce框架包括Map模块和Reduce模块,Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息、积分信息和出度信息;Reduce模块根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分,并在满足预设的收敛条件时,将网页排序结果输出,提升了网页排序的效率,且保证网页排序的准确性。
申请公布号 CN104156457A 申请公布日期 2014.11.19
申请号 CN201410409929.X 申请日期 2014.08.19
申请人 浪潮(北京)电子信息产业有限公司 发明人 宗栋瑞;郭美思;吴楠
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京安信方达知识产权代理有限公司 11262 代理人 王丹;李丹
主权项 一种基于MapReduce框架的网页排序方法,其特征在于,应用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,所述方法包括以下步骤:S1、所述Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息,并对与各个网页对应的积分信息进行初始化和保存;S2、所述Map模块根据与各个网页对应的积分信息,生成并保存与各个网页对应的出度信息;S3、所述Reduce模块获取与各个网页对应的链接信息和出度信息,根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分;S4、所述Reduce模块判断是否满足预设的收敛条件,如果是,则执行步骤S6;否则,返回步骤S5;S5、所述Reduce模块根据更新后的各个网页的贡献积分,对与各个网页对应的积分信息进行更新和保存,并返回步骤S2;S6、所述Reduce模块将与更新后的各个网页的贡献积分对应的网页排序结果输出。
地址 100085 北京市海淀区上地信息路2号2-1号C栋1层