发明名称 一种基于分布式信息检索系统的集合选择方法
摘要 本发明涉及一种分布式信息检索中集合选择方法,目的是提供一种检索效率高和效果好的基于分布式信息检索系统的集合选择方法。实现上述发明目的的技术方案是:一种基于分布式信息检索系统的集合选择方法,该方法包括:计算需要检索的数据对待选数据库的覆盖程度,根据覆盖程度的大小,确定选择数据库集合的先后顺序。本发明方法大大提高了计算机在进行分布式信息检索时系统计算的时间和空间开销,保证了提问结果的查全率和查准率,增强了分布式信息检索的效率和效果。
申请公布号 CN101582085B 申请公布日期 2011.11.16
申请号 CN200910146070.7 申请日期 2009.06.05
申请人 江苏大学 发明人 王秀红;鞠时光
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种基于分布式信息检索系统的集合选择方法,其特征在于,该方法包括:利用集合覆盖,计算需要检索的数据对待选数据库的覆盖程度,根据覆盖程度的大小,确定选择数据库集合的先后顺序;所述计算需要检索的数据对待选择的数据库的覆盖程度包括下列步骤:通过给包含于待选数据库中的检索数据加权求和的方法,计算待选数据库集合的重要性分值,具体包括:(1)假设有一个提问,检索结果融合排序后的前n个数据,n为自然数,分别记为:d1,d2,...,dk,...,dn;第k个数据dk在某个数据库Ci中出现时,Ci为第i个可供选择的数据库,i=1,2,...,M,对该数据库重要性的贡献分值为1/kβ,β为正有理数;数据库的重要性分值为其所包含的所有特定的数据的贡献分值之和;(2)计算所有含有以上前n个数据中任何一个数据的数据库 Ci的重要性分值,i=1,2,...,M,选择分值最大的数据库作为数据库集合选择中首选的数据库并记为C’1;(3)除去已经被选择过的数据库,计算剩下的数据库中,所述包含以上前n个数据中任何一个数据的数据库Ci的重要性分值,在计算中,去除已经选择的数据库中包含的数据,该数据不再计入数据库Ci的重要性分值内;选择重要性分值中最大的一个,记为第2选择数据库C’2;(4)重复以上步骤(3),直到第m次选择C’m,当这1到m个被选择的数据库已共同补充覆盖所有的以上前n个数据时,结束数据库选择步骤。
地址 212013 江苏省镇江市学府路301号