发明名称 语义内容搜索
摘要 公开了提供文档检索的一个或多个技术和/或系统,其中用户可以标识所需潜在目标文档的关键属性(例如,具有对用户而言的特定语义内容)。此外,可检索包括该所需语义内容的相关文档。另外,用户可以提供对检索到的文档的反馈,例如基于文档中找到的关键语义概念,并且输入可被用来更新分类。例如,这一过程可重复进行以提高通过机器学技术来找到的文档的检索和准确度。
申请公布号 CN103026356B 申请公布日期 2016.08.31
申请号 CN201180029819.5 申请日期 2011.06.06
申请人 微软技术许可有限责任公司 发明人 E·I-C·张;M·T·吉勒姆;许燕;C·菲尔德;J·汉德勒
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 陈斌
主权项 一种用于基于语义内容进行文档搜索的基于计算机的方法,包括:接收对来自包括潜在目标文档的数据库的初始文档的所需第一部分的最终用户选择,所述初始文档包括描述所述初始文档的各组成部分的属性的元数据标签,所述第一部分包括所需语义内容;使用计算机的处理器使包括所选第一部分的所述初始文档穿过一个或多个已训练的分类器以从所述数据库中标识包括第二部分的第一潜在目标文档;以及响应于确定所述第二部分不具有所需语义内容,则:接收对所述第一潜在目标文档的包括所需语义内容的第三部分的最终用户选择;以及使包括所选第三部分的所述第一潜在目标文档穿过所述一个或多个已训练的分类器以从所述数据库中标识包括具有所需语义内容的第四部分的第二潜在目标文档;以及以下动作中的至少一者:接收对相应文档的最终用户输入,所述输入包括以下各项中的一个或多个:所述一个或多个分类器从所述数据库检索到的文档包括所需语义内容的指示;所述一个或多个分类器从所述数据库检索到的文档不包括所需语义内容的指示;以及所述一个或多个分类器从所述数据库检索到的文档的所选部分,其中该所选部分包括所需语义内容;使多个文档穿过所述一个或多个分类器直至对于所需语义内容而言达到所需文档选择精度为止;使所述多个文档穿过所述一个或多个分类器直至在没有检索错误文档的情况下检索到所需数量的正确文档为止;使所述多个文档穿过所述一个或多个分类器直至从所述数据库检索到所需数量的文档;使用第二分类器来确认由第一分类器检索到的文档;或标识具有检索文档的所需准确率的、两个或更多个分类器的组合,并利用所标识的组合检索文档以寻找所需语义内容。
地址 美国华盛顿州