发明名称 信息检索系统中的短语识别方法和设备
摘要 本发明涉及一种信息检索系统,其使用短语来编制索引、检索、组织并描述文献。识别预测文献中存在其它短语的短语。根据文献中所包括的短语来对文献编制索引。同时识别相关短语与扩展短语。识别并使用查询中的短语来检索文献并对文献分等级。同时使用短语来群集搜索结果中的文献、创建文献说明并从搜索结果与索引中去除重复文献。
申请公布号 CN1728142B 申请公布日期 2011.01.12
申请号 CN200510085372.X 申请日期 2005.07.26
申请人 咕果公司 发明人 安娜·林恩·帕特森
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律盟知识产权代理有限责任公司 11287 代理人 王允方
主权项 一种用于识别一文献库中有效短语的计算机实施方法,所述方法包括:从所述文献库中的文献收集可能短语;根据每个可能短语的出现频率将所述可能短语中的一些可能短语归类为一好短语或一坏短语;为所述文献库中的一对好的短语gj和gk,确定短语gk相对于gj的一信息增益作为在所述文献库中gj和gk同时出现率的度量的函数;仅选择性地保留预测所述文献库中出现至少一个其它好短语的那些作为有效短语,其中,当存在一好短语gj,一好的短语gk的所述确定的信息增益超过一第一预定阈值时,gj预测gk在所述文献库中出现;为多个选择性地保留的有效短语gx识别一短语gy作为gx的一相关短语,其中gy相对于gx的信息增益超过一第二预定阈值,所述第二预定阈值比所述第一预定阈值更加严格;及在一计算机可读的存储介质上存储所述有效短语和所述经识别的相关短语。
地址 美国加利福尼亚州