发明名称 一种基于局部敏感哈希改进算法的相似性数据检索方法
摘要 本发明提供一种基于局部敏感哈希改进算法的相似性数据检索方法,首先对数据对象进行特征提取,将每一个数据对象使用其特征集合表示,基于向量空间模型把每一个数据对象转换为特征空间的向量;然后使用一组哈希函数,建立多个哈希表,将所有的数据对象映射到相应的哈希桶中;接着对于查询对象,随机选择一个哈希表进行映射,对于与查询对象在同一哈希桶的数据对象,以同样方式利用剩余的哈希表进行映射,并将所有与这些对象在同一哈希桶中的对象合并成为查询候选集;最后将查询对象与查询候选集中的数据对象进行真实距离的计算,从而得到最邻近对象。本发明在保持准确率和召回率的前提下减少了传统局部敏感哈希的内存需求,适合于处理大量的高维数据的相似性检索。
申请公布号 CN104035949A 申请公布日期 2014.09.10
申请号 CN201310664350.3 申请日期 2013.12.10
申请人 南京信息工程大学 发明人 马廷淮;陆颖华;田伟;朱节中
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 许方
主权项 一种基于局部敏感哈希改进算法的相似性数据检索方法,其特征在于包含以下步骤:步骤1),对需要处理的数据集合进行特征提取,得到预处理之后的数据集;步骤2),将得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合;步骤3),根据数据集特征以及所需的准确率和召回率来确定哈希表个数l,并根据局部敏感哈希函数族构建l个哈希表;步骤4),将数据向量集合中的每一个对象分别通过l个哈希表进行映射,映射到相应的哈希桶中;步骤5),将待查询对象以向量形式表示,从l个哈希表中任意选取一个哈希表进行映射,得到与待查询对象处于同一哈希桶的其他对象的集合;步骤6),对于步骤5)中得到的对象的集合的每一个对象,在其余的哈希表分别进行查找,得到与这些对象处于同一哈希桶的其他对象的集合;步骤7),将步骤5)和步骤6)得到的对象的集合融合形成最终的候选对象集合;步骤8),计算候选对象集合中每一个对象与待查询对象之间的真实距离,并根据真实距离进行升序排序,得到最相似的对象。
地址 215101 江苏省苏州市吴中区木渎镇中山东路70号吴中科技创业园2号楼2310室