主权项 |
一种基于分布式信息检索系统的集合选择方法,其特征在于,该方法包括:利用集合覆盖,计算需要检索的数据对待选数据库的覆盖程度,根据覆盖程度的大小,确定选择数据库集合的先后顺序;所述计算需要检索的数据对待选择的数据库的覆盖程度包括下列步骤:通过给包含于待选数据库中的检索数据加权求和的方法,计算待选数据库集合的重要性分值,具体包括:(1)假设有一个提问,检索结果融合排序后的前n个数据,n为自然数,分别记为:d1,d2,...,dk,...,dn;第k个数据dk在某个数据库Ci中出现时,Ci为第i个可供选择的数据库,i=1,2,...,M,对该数据库重要性的贡献分值为1/kβ,β为正有理数;数据库的重要性分值为其所包含的所有特定的数据的贡献分值之和;(2)计算所有含有以上前n个数据中任何一个数据的数据库 Ci的重要性分值,i=1,2,...,M,选择分值最大的数据库作为数据库集合选择中首选的数据库并记为C’1;(3)除去已经被选择过的数据库,计算剩下的数据库中,所述包含以上前n个数据中任何一个数据的数据库Ci的重要性分值,在计算中,去除已经选择的数据库中包含的数据,该数据不再计入数据库Ci的重要性分值内;选择重要性分值中最大的一个,记为第2选择数据库C’2;(4)重复以上步骤(3),直到第m次选择C’m,当这1到m个被选择的数据库已共同补充覆盖所有的以上前n个数据时,结束数据库选择步骤。 |