发明名称 | 一种实现大数据处理的方法及装置 | ||
摘要 | 本申请公开了一种实现大数据处理的方法及装置,包括:在分布式系统基础架构(hadoop)外部环境,利用预先设置的拆分策略拆分hadoop总查询任务;按照拆分的hadoop查询任务,在hadoop的分布式存储系统中分别进行hadoop内部查询;将各内部查询结果按照预先设置的存储策略存储在hadoop外部环境;通过hadoop外部查询方式对存储信息进行统计并显示。本发明还包括与方法相对应的装置,通过本发明在hadoop外部环境对总查询任务进行拆分,在执行完拆分查询任务后,将内部查询结果按照任务拆分进行相应的分级存储,实现hadoop大数据访问的分页浏览和在不影响系统性能下进行数据统计。 | ||
申请公布号 | CN103617268B | 申请公布日期 | 2017.01.18 |
申请号 | CN201310646544.0 | 申请日期 | 2013.12.04 |
申请人 | 中国联合网络通信集团有限公司 | 发明人 | 王志军;廖慧 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京安信方达知识产权代理有限公司 11262 | 代理人 | 栗若木;白莹 |
主权项 | 一种实现大数据处理的方法,其特征在于,包括:在分布式系统基础架构hadoop外部环境,利用预先设置的拆分策略拆分hadoop总查询任务;按照拆分的hadoop查询任务,在hadoop的分布式存储系统中分别进行hadoop内部查询;将各内部查询结果按照预先设置的存储策略存储在hadoop外部环境;通过hadoop外部查询方式对存储信息进行统计并显示;其中,所述进行统计的方法包括:对各拆分任务的内部查询结果的每一页进行查询统计,并将各拆分任务每一页内部查询结果的查询统计信息进行合并,得到相应拆分任务的统计信息;将相应拆分任务的统计信息进行合并,得到总查询任务的统计结果。 | ||
地址 | 100033 北京市西城区金融大街21号 |