发明名称 获取网络资源访问的方法
摘要 本发明提供一种数据分布统计方法,包括:将访问记录分布定位的步骤;根据记录建立索引的步骤;通过索引进行统计的步骤。本发明提供的数据分布统计方法,以一个有100个节点,数据量为1000亿的群集为例,设其记录的键值数量为10亿,键值使用整数表示,每个键值占用4个字节,平均分布在100个节点中,每个节点的所有子索引大致占用40M(40亿*4/100)存储空间。设每个节点有5个子索引,则每个子索引只存储8M的数据,而主索引就集合了80M(40亿*8/100)数据。当需要对所有记录进行统计时,采用本发明可以在1秒内的时间内处理完毕,既不占用大量资源,也无需集中运算,大大提高统计效率。
申请公布号 CN101231649B 申请公布日期 2010.12.15
申请号 CN200710307139.0 申请日期 2007.12.27
申请人 腾讯科技(深圳)有限公司 发明人 吴双
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 谢安昆;宋志强
主权项 一种获取网络资源访问量的方法,包括:将所述网络在逻辑上分为多个区域,每个所述区域包括多个簇,每个簇包括多个节点;根据用户对所述资源的访问形成多个记录,每条记录都具有键和至少一个属性值,所述键具有键值;根据所述多个记录中每个记录的属性值将所述多个记录分别定位到对应的区域中;根据所述多个记录中每个记录的键值将所述多个记录分别定位到被定位的区域的簇中;根据所述多个记录中每个记录的键值将所述多个记录中每个记录定位到被定位的簇的节点中,根据所述多个记录中每个记录的属性为所述多个记录建立子索引,并将属性值相同的记录的键值列入所述子索引中;为所述多个记录建立主索引,并将所述子索引中记录的键值及其对应计数记入所述主索引中;以及通过所述主索引从所述多个记录获取对所述网络资源的访问量。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室