发明名称 对非结构化内容进行高效索引存储的方法和装置
摘要 公开了用于对非结构化内容进行高效索引存储的方法和装置。
申请公布号 CN101432684B 申请公布日期 2013.04.24
申请号 CN200680010821.7 申请日期 2006.02.24
申请人 那哈瓦有限公司 发明人 中野利夫
分类号 G06F7/00(2006.01)I 主分类号 G06F7/00(2006.01)I
代理机构 北京安信方达知识产权代理有限公司 11262 代理人 陈怡;郑霞
主权项 一种对非结构化内容进行索引存储的方法,所述方法包括:(a)将所述非结构化内容转换为n个向量x.i,i=1,...,n的集合并输入所述n个向量,其中n大于预定的阈值k;(b)计算输入向量的平均值x.avg=(1/n)*sum(i,x.i);(c)如果所述x.avg不为零,则:(c1)对每个所述i计算偏差值d.i=<x.i‑x.avg,x.avg>,其中,对于任意向量A和B,<A,B>=对角线求和(A与B的转置的点积);(d)如果所述x.avg为零,则(d1)选择不为零的特定的所述x.i,并将其表示为x.pvg;(d2)对每个所述i计算偏差值d.i=<x.i‑x.pvg,x.pvg>;(e)将D初始化为所述n个偏差值d.i的集合;以及(f)如果所述D包含多于两个偏差值且所述D的最小偏差值和最大偏差值不同,则:(f1)从所述D中除去所述最小偏差值和所述最大偏差值;(f2)重复(f)‑(f1);(g)如果所述D包含一个偏差值,则:(g1)将所述D的所述一个偏差值作为分割值d.mid返回,以将表示非结构化内容的向量集合分割成上层组和下层组,其中,对于所述向量集合中的任一向量y,d.y=<y‑x.avg,x.avg>,如果d.y>d.mid,则将y分配到所述上层组,否则将y分配到所述下层组;(h)如果所述D包含两个偏差值,则:(h1)计算所述两个偏差值的平均值;(h2)将所述两个偏差值的所述平均值作为分割值d.mid返回,以 将表示非结构化内容的向量集合分割成上层组和下层组,其中,对于所述向量集合中的任一向量y,d.y=<y‑x.avg,x.avg>,如果d.y>d.mid,则将y分配到所述上层组,否则将y分配到所述下层组;(i)对向量个数大于所述预定的阈值k的上层组和/或下层组,重复步骤(b)‑(h);(j)根据返回的所有分割值及分割得到的所有组,对所述非结构化内容进行索引存储。
地址 美国加利福尼亚州