发明名称 基于局部敏感哈希的大规模多媒体数据的高维索引方法
摘要 本发明涉及一种基于局部敏感哈希的大规模多媒体数据的高维索引方法,包括以下步骤:离线索引阶段,对多媒体数据提取高维特征;建立内存索引,包括特征存储区和哈希表存储区,将多媒体高维特征存储到特征存储区中,计算高维特征的局部敏感哈希向量,并将特征对应的特征编号和局部敏感哈希向量存储在哈希表存储区中;建立一级磁盘索引,包括特征存储区、索引存储区和多个哈希表存储区;建立二级磁盘索引,包括哈希桶存储区;重复上述步骤直到所有多媒体输入全部被索引为止。在线查询阶段,对用于查询的多媒体数据提取特征,在建立的索引基础上进行查询,返回相似的查询结果。本发明提高了内存和磁盘的调度性能,以及多媒体数据索引和检索的速度。
申请公布号 CN104199827A 申请公布日期 2014.12.10
申请号 CN201410356941.9 申请日期 2014.07.24
申请人 北京大学 发明人 彭宇新;彭云波;张健
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余功勋
主权项 一种基于局部敏感哈希的大规模多媒体数据的高维索引方法,包括以下步骤:(1)对需要建立索引的多媒体数据提取一种或多种高维特征;(2)基于步骤(1)中的多媒体高维特征建立内存索引,内存索引包括特征存储区和哈希表存储区,将多媒体高维特征存储到特征存储区中,计算多媒体高维特征的局部敏感哈希向量,将对应的特征编号和该局部敏感哈希向量存储在哈希表存储区中;(3)基于步骤(2)中的内存索引建立一级磁盘索引,一级磁盘索引包括特征存储区、索引存储区和多个哈希表存储区;当内存索引中特征存储区中存储的多媒体高维特征数目达到一定值后,通过一级磁盘索引将其写入磁盘文件中的特征存储区;当内存索引哈希表存储区中存储的特征编号和局部敏感哈希向量数目达到一定值后,通过一级磁盘索引将其写入磁盘文件中的哈希表存储区和索引存储区;(4)基于步骤(3)中的一级磁盘索引建立二级磁盘索引,二级磁盘索引包括哈希桶存储区;当一级磁盘索引中哈希表存储区的哈希桶中存储的特征编号和局部敏感哈希向量数目达到一定值后,通过二级磁盘索引将后继需要存入该哈希桶的数据写入磁盘文件;(5)重复步骤(2)、(3)和(4),直到输入的多媒体高维特征全部被索引为止。
地址 100871 北京市海淀区颐和园路5号北京大学