发明名称 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法
摘要 本发明公开了一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法,通过SQL语句在基于HDFS的spark-sql大数据处理系统上增加索引,删除索引,插入数据,删除数据,在数据查询的时候,自动判断查询列是否存在索引,如果存在,则查找索引包含的文件块,过滤不需要查询的文件块。本发明对在给spark-sql增加索引功能后,能有效增加查询速度,例如一个典型的spark-sql数据表,大小为1000GB,1GB一个文件存放,分为1000个文件,如果查询单条记录,原先做法需要扫描1000个文件,建立索引后,只需要扫描1个文件即可,效率提高1000倍。按照一般情况估算,结合传统的关系型数据库经验,建立索引的spark-sql数据库比没有索引的sql语句查询速度执行要快100-10000倍或更多。
申请公布号 CN105574093A 申请公布日期 2016.05.11
申请号 CN201510918956.4 申请日期 2015.12.10
申请人 深圳市华讯方舟软件技术有限公司;深圳市华讯方舟科技有限公司 发明人 张鋆;冯骏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律和信知识产权代理事务所(普通合伙) 11446 代理人 刘国伟;武玉琴
主权项 一种在基于HDFS的spark‑sql大数据处理系统上建立索引的方法,其特征在于:通过SQL语句在基于HDFS的spark‑sql大数据处理系统上增加索引,删除索引,插入数据,删除数据,在数据查询的时候,自动判断查询列是否存在索引,如果存在,则查找索引包含的文件块,过滤不需要查询的文件块。
地址 518102 广东省深圳市宝安区西乡街道宝田一路臣田工业区第37栋3楼