发明名称 使用主题意识文件排序器之资讯检索
摘要
申请公布号 TWI479344 申请公布日期 2015.04.01
申请号 TW101100959 申请日期 2012.01.10
申请人 微软公司 发明人 库玛吉利西;陈伟华;奎斯威尔尼可拉斯艾力克
分类号 G06F17/30 主分类号 G06F17/30
代理机构 代理人 蔡坤财 台北市中山区松江路148号11楼;李世章 台北市中山区松江路148号11楼
主权项 一种储存电脑可执行指令的电脑储存媒体,其中当该等电脑可执行指令被执行时,会执行一种决定一文件分数的方法,该文件分数建议一文件与一搜寻查询之一相关性,该方法包括以下步骤:接收该搜寻查询;将该搜寻查询解析为一第一n-gram及一第二n-gram,该第一n-gram系具有一第一权重,该第二n-gram系具有一第二权重,其中该第一权重量化(quantify)该第一n-gram针对该搜寻查询之一重要性,而该第二权重量化该第二n-gram针对该搜寻查询之一重要性;决定该第一权重及该第二权重系满足一阀值权重标准(threshold weight criterion),其中当一n-gram之一权重并未满足该阀值权重标准时,该n-gram并不被用以决定该文件分数;识别一第一同等主题及一第二同等主题,该第一同等主题系语义上类似该第一n-gram,而该第二同等主题系语义上类似该第二n-gram,其中该第一n-gram及该第一同等主题系包含一第一主题群组,而该第二n-gram及该第二同等主题系包含一第二主题群组;及决定该文件的该文件分数,其中该文件分数系由一第一主题群组分数 及一第二主题群组分数所组成,且其中,该第一主题群组分数及该第二主题群组分数两者系使用一主题频率及一同等主题频率两者来计算,该主题频率包括在该文件中找到一个别n-gram的次数,该同等主题频率包括在该文件中找到一个别同等主题的次数。
地址 美国