发明名称 一种支持高维数据实时有偏查询的并行索引方法
摘要 本发明适用于索引技术领域,提供了一种支持高维数据实时有偏查询的并行索引方法,所述方法包括:查询系统使用MapReduce等方法对数据属性进行特征抽取作为输入,由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数构建并行索引,通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中;如果所述映射的误差超过用户能够接受的范围,查询系统将有偏查询提交并行组合的索引服务器分别处理;并行组合的索引服务器按用户给出的权重的比例分别返回经筛选后的结果,然后对所有返回的结果进行计算与合并,确保在确定的时间内返回查询响应的结果。本发明技术方案具有能够处理海量数据的优点。
申请公布号 CN103455531B 申请公布日期 2016.12.28
申请号 CN201310041516.6 申请日期 2013.02.01
申请人 深圳信息职业技术学院 发明人 王寅峰;邓果丽;许志良
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳中一专利商标事务所 44237 代理人 梁珣
主权项 一种支持高维数据实时有偏查询的并行索引方法,其特征在于,所述方法包括:查询系统使用MapReduce对数据属性进行特征抽取作为输入,由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数,优化LSH算法分别构建数据的向量索引,其中,各个索引服务器的向量索引之间形成正交关系;查询系统接收用户的有偏查询,通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中;如果所述映射的误差超过用户能够接受的范围,查询系统将有偏查询提交并行组合的索引服务器分别处理;并行组合的索引服务器按所述有偏查询中的用户给出的权重的比例分别返回经筛选后的结果,然后对所有返回的结果进行计算与合并,确保在确定的时间内返回查询响应的结果;所述查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数具体包括:所述哈希函数<img file="FDA0001117951360000011.GIF" wi="431" he="134" />所述哈希函数中的v为一个d维度的向量,所述哈希函数中的a为一个d维度的向量,且满足稳定分布,所述哈希函数中的b为按数据的密度产生均匀分布,所述均匀分布的区间为[0,r],r为数据桶的宽度。
地址 518029 广东省深圳市龙岗区龙翔大道2188号