发明名称 |
一种基于MapReduce框架的网页排序方法和系统 |
摘要 |
本发明公开了一种基于MapReduce框架的网页排序方法和系统,应用于Hadoop集群中的MapReduce框架,MapReduce框架包括Map模块和Reduce模块,Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息、积分信息和出度信息;Reduce模块根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分,并在满足预设的收敛条件时,将网页排序结果输出,提升了网页排序的效率,且保证网页排序的准确性。 |
申请公布号 |
CN104156457A |
申请公布日期 |
2014.11.19 |
申请号 |
CN201410409929.X |
申请日期 |
2014.08.19 |
申请人 |
浪潮(北京)电子信息产业有限公司 |
发明人 |
宗栋瑞;郭美思;吴楠 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京安信方达知识产权代理有限公司 11262 |
代理人 |
王丹;李丹 |
主权项 |
一种基于MapReduce框架的网页排序方法,其特征在于,应用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,所述方法包括以下步骤:S1、所述Map模块从文本文件中读取与各个网页对应的数据记录,根据读取到的数据记录,生成并保存与各个网页对应的链接信息,并对与各个网页对应的积分信息进行初始化和保存;S2、所述Map模块根据与各个网页对应的积分信息,生成并保存与各个网页对应的出度信息;S3、所述Reduce模块获取与各个网页对应的链接信息和出度信息,根据与各个网页对应的链接信息和出度信息,更新各个网页的贡献积分;S4、所述Reduce模块判断是否满足预设的收敛条件,如果是,则执行步骤S6;否则,返回步骤S5;S5、所述Reduce模块根据更新后的各个网页的贡献积分,对与各个网页对应的积分信息进行更新和保存,并返回步骤S2;S6、所述Reduce模块将与更新后的各个网页的贡献积分对应的网页排序结果输出。 |
地址 |
100085 北京市海淀区上地信息路2号2-1号C栋1层 |