发明名称 |
一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法 |
摘要 |
本发明公开了一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法,通过SQL语句在基于HDFS的spark-sql大数据处理系统上增加索引,删除索引,插入数据,删除数据,在数据查询的时候,自动判断查询列是否存在索引,如果存在,则查找索引包含的文件块,过滤不需要查询的文件块。本发明对在给spark-sql增加索引功能后,能有效增加查询速度,例如一个典型的spark-sql数据表,大小为1000GB,1GB一个文件存放,分为1000个文件,如果查询单条记录,原先做法需要扫描1000个文件,建立索引后,只需要扫描1个文件即可,效率提高1000倍。按照一般情况估算,结合传统的关系型数据库经验,建立索引的spark-sql数据库比没有索引的sql语句查询速度执行要快100-10000倍或更多。 |
申请公布号 |
CN105574093A |
申请公布日期 |
2016.05.11 |
申请号 |
CN201510918956.4 |
申请日期 |
2015.12.10 |
申请人 |
深圳市华讯方舟软件技术有限公司;深圳市华讯方舟科技有限公司 |
发明人 |
张鋆;冯骏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京律和信知识产权代理事务所(普通合伙) 11446 |
代理人 |
刘国伟;武玉琴 |
主权项 |
一种在基于HDFS的spark‑sql大数据处理系统上建立索引的方法,其特征在于:通过SQL语句在基于HDFS的spark‑sql大数据处理系统上增加索引,删除索引,插入数据,删除数据,在数据查询的时候,自动判断查询列是否存在索引,如果存在,则查找索引包含的文件块,过滤不需要查询的文件块。 |
地址 |
518102 广东省深圳市宝安区西乡街道宝田一路臣田工业区第37栋3楼 |