发明名称 实时垂直搜索引擎对象缓存优化方法
摘要 本发明公开了一种实时垂直搜索引擎对象缓存优化方法。利用对象及对象属性之间的关系,预测不同对象的热门度趋势,计算不同对象的缓存权重;利用用户对同一对象查询符合泊松过程以及数据抓取为查询驱动的特点,计算抓取配额在各个对象之间的初始分配和调整方法;利用数据的真实变化频率符合泊松过程的特点,计算抓取配额在各个对象之间的动态平衡方法。本发明增加了垂直搜索引擎对数据站点抓取配额的利用率,增加了实时垂直搜索引擎用户的体验,实现了实时垂直搜索引擎对不同数据站点的自适应配置。
申请公布号 CN101667198B 申请公布日期 2012.05.23
申请号 CN200910152877.1 申请日期 2009.09.18
申请人 浙江大学 发明人 陈珂;陈刚;寿黎但;胡天磊;周佳庆
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 林怀禹
主权项 1.一种实时垂直搜索引擎对象缓存优化方法,其特征在于,该方法的步骤如下:1)根据搜索对象之间的关联关系,预测搜索对象的热门度趋势,计算下一周期T内各个搜索对象的缓存权重度;其步骤如下:1.1)定义搜索对象的各个属性,并定义各属性的取值;1.2)计算关系矩阵集合κ,其中κ<sub>x</sub>代表属性P<sub>x</sub>的属性关系矩阵,该属性关系矩阵值K<sub>ij</sub>代表了属性取值p<sub>i</sub>与p<sub>j</sub>之间的关联度;1.3)处理上一周期内的所有查询数据,提取出每个属性不同取值的查询次数,计算属性访问集合η,η<sub>x</sub>表示属性P<sub>x</sub>的访问向量,该访问向量值N<sub>i</sub>代表属性某一取值p<sub>i</sub>在T内的访问次数,t<sub>x</sub>为各个属性P<sub>x</sub>的权重度;1.4)使用公式:<img file="FSB00000725961100011.GIF" wi="715" he="151" />计算下一个周期内各个搜索对象的缓存权重度;公式中W<sub>i</sub>表示对象i的权重;m表示对象的属性个数;2)根据步骤1)中所得各个搜索对象的缓存权重度,将抓取配额分配给不同搜索对象,并依据用户对同一搜索对象的访问规律,初步分配与调整抓取配额;用户对搜索对象的访问符合泊松过程,且用户对同一搜索对象的查询量随着时间的增长呈线性趋势,抓取配额的初步分配符合公式:<img file="FSB00000725961100012.GIF" wi="553" he="273" />其中C代表总抓取次数限制,N代表搜索对象个数,c<sub>i</sub>代表搜索对象i分配到的抓取配额;针对查询驱动的特点进行抓取配额的初步调整符合公式:<img file="FSB00000725961100013.GIF" wi="635" he="152" />其中c<sub>i_old</sub>代表抓取配额的初步分配公式中的c<sub>i</sub>,T代表计算周期,λ<sub>v</sub>为用户 对搜索对象i的查询频率;3)计算每个搜索对象的实际数据变化频率,动态平衡不同搜索对象的抓取配额;所述计算搜索对象实际数据变化频率λ<sub>c</sub>的计算方法,依据以下公式:<img file="FSB00000725961100021.GIF" wi="531" he="166" />其中t<sub>ci</sub>表示发现第i次变化的间隔,t<sub>uj</sub>表示第j次没有发现变化的间隔,在总共n次重抓中,总共发现了m次变化;所述动态平衡的过程中,使用t表示搜索对象的更新间隔,具体方法为:3.1)遍历所有搜索对象,计算每一个搜索对象的λ<sub>c</sub>·t值与用户查询量值V,并计算每个搜索对象的V·[(1-e<sup>λc</sup>·<sup>t</sup>)/λ<sub>c</sub>·t]值,定义其为F;3.2)对每个搜索对象按照λ<sub>c</sub>·t从大到小排序,同时对每个搜索对象按V从小到大排序;3.3)依次筛选出λ<sub>c</sub>·t最大,同时V最小的搜索对象与λ<sub>c</sub>·t最小,同时V最大的搜索对象,并将前者的抓取配额平衡给后者,直到这两个搜索对象的F相同为止;3.4)不断重复步骤3.3),直到所有搜索对象的F相同。
地址 310027 浙江省杭州市西湖区浙大路38号