发明名称 |
一种分布式数据去重处理方法及装置 |
摘要 |
本发明实施例公开了一种分布式数据去重处理方法及装置,解决了目前的精确去重但是非即席查询,所导致的在数据量较大时往往需要较长的计算时间才能得出结果的技术问题,以及非精确去重的即席查询,导致的计算出来的结果不是精确值的技术问题。本发明实施例分布式数据去重处理方法包括:将具有相同去重字段值的数据对应存储在预置分片中;将存储在预置分片中的所有数据进行列存储到Lucene中;根据Lucene提取每个预置分片中的去重列,并进行每一列的倒排索引;根据每个预置分片的倒排索引获取去重列对应的去重值;将获取到的所有去重值进行累加获取到最终去重值。 |
申请公布号 |
CN105550236A |
申请公布日期 |
2016.05.04 |
申请号 |
CN201510893456.X |
申请日期 |
2015.11.27 |
申请人 |
广州华多网络科技有限公司 |
发明人 |
柯钦武 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
杨炳财;屈慧丽 |
主权项 |
一种分布式数据去重处理方法,其特征在于,包括:将具有相同去重字段值的数据对应存储在预置分片中;将存储在所述预置分片中的所有所述数据进行列存储到Lucene中;根据所述Lucene提取每个所述预置分片中的去重列,并进行每一列的倒排索引;根据每个所述预置分片的所述倒排索引获取所述去重列对应的去重值;将获取到的所有所述去重值进行累加获取到最终去重值。 |
地址 |
510665 广东省广州市黄埔大道中309号羊城创意产业园3-08栋 |