发明名称 | 从非结构化文本提取可伸缩增量语义实体和相关性 | ||
摘要 | 公开了从非结构化文本提取可伸缩增量语义实体和相关性。用于包含文本的文档的搜索引擎可以使用统计语言模型来处理文本,基于熵对该文本进行分类,并且创建后缀树或每一分类的文本的其他映射。可以从后缀树或映射中用不同单词或文本串之间的关系来构造图。可以使用该图来确定搜索结果,并且在查看搜索结果之前可以对该图进行浏览或导航。由于添加了新文档,可以对它们进行处理并且添加到后缀树,随后可以响应于搜索请求按需创建该图。可以将该图表示为邻接矩阵,并且传递闭包算法可以处理该邻接矩阵作为后台进程。 | ||
申请公布号 | CN102236696A | 申请公布日期 | 2011.11.09 |
申请号 | CN201110111578.0 | 申请日期 | 2011.04.20 |
申请人 | 微软公司 | 发明人 | K·穆克吉;S·盖尔曼 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海专利商标事务所有限公司 31100 | 代理人 | 蔡悦 |
主权项 | 一种在计算机处理器上执行的方法,所述方法包括:接收包含文本串的项(202);确定所述项的项标识符(204);用统计语言模型处理所述文本串(212),用于:标识文本元素;确定所述文本元素的文本元素标识符;以及将熵值分配给所述元素的每一个;选择所述文本元素的第一子集(228),所述第一子集中的所述文本元素的每一个具有大于第一预定义的熵值的熵值;将所述文本元素的每一个添加(230)到第一数据结构,所述第一数据结构包括所述文本元素标识符以及所述项标识符;创建邻接矩阵(236),所述邻接矩阵表示包括表示所述文本元素的顶点以及表示加权的关系的边缘的图,所述加权的关系是从所述第一数据结果中确定的;以及接收对第一文本元素的搜索查询(238),并且用从所述邻接矩阵中导出的搜索结果来作出响应。 | ||
地址 | 美国华盛顿州 |