发明名称 用于文本处理的方法和系统
摘要 本发明涉及用于文本处理的方法和系统,其中方法是一种由计算机处理包括多个单词的多个句子的集合的方法,所述方法包括步骤:层级地标识句子集合中的至少一些单词的出现;基于针对每个单词标识的出现的高层级来创建至少一些单词的每个单词的第一索引;接收查询的单词的输入;层级地标识查询的单词在句子的集合中的出现;基于针对查询的单词标识的出现的高层级来创建第二索引;比较第一索引和第二索引以计算针对单词在查询的单词附近出现的次数的估计值;以及在估计的值等于或大于预定的次数的条件下,基于出现的高层级和低层级来计算单词在查询的单词附近出现的次数的实际值。
申请公布号 CN103577532B 申请公布日期 2016.12.28
申请号 CN201310347285.1 申请日期 2013.08.09
申请人 国际商业机器公司 发明人 宅间大介;柳泽弘挥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市金杜律师事务所 11256 代理人 酆迅;孙新国
主权项 一种由计算机处理包括多个单词的多个句子的集合的方法,所述方法包括步骤:层级地标识所述句子的集合中的至少一些单词的出现;基于针对每个单词标识的出现的高层级来创建所述至少一些单词的每个单词的第一索引;接收查询的单词的输入;层级地标识查询的单词在所述句子的集合中的出现;基于针对查询的单词标识的出现的高层级来创建第二索引;比较所述第一索引和所述第二索引以计算针对单词在查询的单词附近出现的次数的估计值;以及在所述估计值等于或大于预定的次数的条件下,基于出现的高层级和低层级来计算单词在查询的单词附近出现的次数的实际值,其中所述第一索引和所述第二索引具有由1/N压缩的高层级位集合,其中N为自然数,并且在一个或多个未压缩的位是真的条件下,压缩的位是真,其中计算估计值的步骤存储相应的高层级的元素,并且在两个或多个未压缩的位是真的条件下,基于所述元素来计算单词在查询的单词附近出现的次数的所述估计值。
地址 美国纽约阿芒克