发明名称 | 对散列序列矩阵的索引和查询 | ||
摘要 | 在此所述的实施例旨在对索引矩阵中的散列值的序列进行索引和查询。计算机系统访问文档以从该文档中提取文本部分。计算机系统将散列算法应用于所提取的文本。提取的文本的散列值形成散列值的代表序列。计算机系统还将散列值的序列的每个散列值插入到索引矩阵中,该索引矩阵被配置为存储多个不同的散列值序列计算机系统还查询索引矩阵以基于选中的散列值序列中有多少散列值与所述存储的散列值序列的散列值相重叠来确定所述多个散列值序列与选中的散列值序列有多相似。 | ||
申请公布号 | CN102541995B | 申请公布日期 | 2015.12.09 |
申请号 | CN201110372972.X | 申请日期 | 2011.11.09 |
申请人 | 微软技术许可有限责任公司 | 发明人 | C·W·拉曼纳;M·H·甘地;J·E·布鲁尔 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海专利商标事务所有限公司 31100 | 代理人 | 顾嘉运 |
主权项 | 一种用于对索引矩阵中的散列值的序列进行索引和查询的计算机实现的方法,所述方法包括:访问文档以从所述文档中提取文本的至少一部分的动作;从所提取的文本的部分中构造一个或多个字单元的动作;将散列算法应用到构造的一个或多个字单元的动作,其中,所述构造的一个或多个字单元的散列值形成散列值的代表性序列;根据位置标识符将散列值的序列的每个散列值插入到索引矩阵中的动作,其中所述位置标识符指示每一字单元出现在文本中的位置,其中被插入到所述索引矩阵的每个散列值能被截短以便仅每个散列值的一部分被存储在所述索引矩阵中,并且其中被存储在所述索引矩阵中的每个散列值的部分取决于处理能力和安全性问题而改变,其中配置所述索引矩阵来存储多个不同的散列值序列,其中所述多个不同的散列值序列对应于形成多个不同文档的字构造;查询所述索引矩阵,以确定所述查询所基于的选中的散列值序列的散列值在哪些地方与所述索引矩阵中存储的多个不同的散列值序列的散列值相重叠,并基于所述选中的散列值序列中有多少散列值与所述索引矩阵中存储的多个不同的散列值序列的散列值相重叠来确定所述多个不同的散列值序列与所述选中的散列值序列有多相似的动作。 | ||
地址 | 美国华盛顿州 |