发明名称 哈希编码方法和装置
摘要 本发明实施例提供一种哈希编码方法和装置,其中,所述方法包括:首先利用多个投影对数据投影得到多维数据投影值,然后在每维数据下通过k-means聚类得到k个聚类中心,假定两两相邻聚类中心存在一个阈值,根据熵最大化原则求得(k-1)个阈值并利用这些阈值及预设的编码方案对每维数据进行编码,最后拼合所有投影下的编码得到最终的二值编码。通过在每个投影方向下使用多个阈值,克服了单阈值量化中无法有效对数据划分问题且可以选择使用任意多个阈值;通过使用多个自适应学的阈值来对每维数据进行量化,有效地保持了近邻结构,从而为大规模数据索引及近邻查询提供良好基础。
申请公布号 CN105320685A 申请公布日期 2016.02.10
申请号 CN201410364922.0 申请日期 2014.07.29
申请人 富士通株式会社 发明人 刘汝杰;刘曦
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京三友知识产权代理有限公司 11127 代理人 樊一槿
主权项 一种哈希编码装置,其中,所述装置包括:投影单元,其基于给定的训练数据集生成多个投影方向;聚类单元,其将所述训练数据集中的所有训练数据在每一个所述投影方向上进行投影,得到对应每一个投影方向的一组投影值,利用预先设定的聚类算法对每一个投影方向对应的投影值进行聚类,得到对应每一个投影方向的预定数量的聚类中心;阈值确定单元,其根据每一个投影方向对应的预定数量的聚类中心,根据熵最大化原则确定对应每一个投影方向的多个阈值,包括:对于每一个投影方向,根据所述投影方向对应的聚类中心的个数确定所述阈值的个数,其中,所述阈值的个数为所述聚类中心的个数减1;对每个阈值赋予候选值;迭代所有阈值的所有候选值,分别计算出相应的熵值;将熵值最大所对应的一组阈值的候选值作为所述多个阈值;编码单元,其利用对应每一个投影方向的多个阈值,对输入数据在所述每一个投影方向的投影值进行编码,得到所述输入数据的编码。
地址 日本神奈川县川崎市