发明名称 |
数据搜索方法及系统 |
摘要 |
本发明提出一种数据搜索方法,包括:提取训练数据集的特征向量;将特征向量投影到近似汉明空间的预设特征空间;根据投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;根据量化阈值和最优缓冲区对特征向量投影结果进行双比特量化以得到哈希编码;获取查询实例的哈希编码,并根据查询实例的哈希编码和特征向量投影结果的哈希编码从训练数据集中提取近似的训练数据以作为查询实例的搜索结果。根据本发明实施例的方法具有搜索速度快,搜索精度高的优点。本发明还提出了一种数据搜索系统。 |
申请公布号 |
CN104123375A |
申请公布日期 |
2014.10.29 |
申请号 |
CN201410364896.1 |
申请日期 |
2014.07.28 |
申请人 |
清华大学 |
发明人 |
丁贵广;林梓佳;陈文烁 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
张大威 |
主权项 |
一种数据搜索方法,其特征在于,包括以下步骤:提供训练数据集,并提取所述训练数据集的特征向量;利用投影算法将所述特征向量由原始特征空间投影到近似汉明空间的预设特征空间以得到特征向量投影结果;根据所述投影算法得到量化阈值,并根据优化性能和优化范围确定最优缓冲区;根据所述量化阈值和所述最优缓冲区对所述特征向量投影结果进行双比特量化以得到哈希编码;获取查询实例的哈希编码,并根据所述查询实例的哈希编码和所述特征向量投影结果的哈希编码从所述训练数据集中提取近似的训练数据以作为所述查询实例的搜索结果。 |
地址 |
100084 北京市海淀区100084-82信箱 |