发明名称 基于扩展查询似然模型的动态后继树索引裁剪方法
摘要 本发明公开了一种基于扩展查询似然模型的动态后继树索引裁剪方法,该方法依次包括以下步骤:(1)针对动态后继树索引结构,首先创建完整的动态后继树索引;(2)然后依次遍历索引中每一篇文档包含的不同二元词项,提取索引的统计信息;(3)计算这些二元词项在其当前出现文档中的相对重要性评分;(4)输入裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;(5)形成裁剪后的动态后继树索引。本方法通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。
申请公布号 CN102841945B 申请公布日期 2015.06.17
申请号 CN201210307005.X 申请日期 2012.08.27
申请人 广西大学 发明人 霍林;邹先泽
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广西南宁汇博专利代理有限公司 45114 代理人 邓晓安
主权项 一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:该方法依次包括以下步骤:(1)针对动态后继树索引结构,创建完整的动态后继树索引;(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;所述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体;所述的索引统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度和文档集的总长度、与一篇文档关联的所有树叶信息的个数|LIL<sub>d</sub>|;(3)利用重要性评分公式:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>B</mi><mrow><mo>(</mo><mi>bi</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mrow><mo>(</mo><mfrac><mrow><mo>|</mo><mi>C</mi><mo>|</mo><mo>&CenterDot;</mo><mi>tf</mi><mrow><mo>(</mo><mi>bi</mi><mo>)</mo></mrow><mo>-</mo><mo>|</mo><mi>D</mi><mo>|</mo><mo>&CenterDot;</mo><mi>TF</mi><mrow><mo>(</mo><mi>bi</mi><mo>)</mo></mrow></mrow><mrow><mrow><mo>(</mo><mo>|</mo><mi>D</mi><mo>|</mo><mo>+</mo><mi>&mu;</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mo>|</mo><mi>C</mi><mo>|</mo></mrow></mfrac><mo>)</mo></mrow><mi>log</mi><mfrac><mrow><mo>|</mo><mi>C</mi><mo>|</mo><mo>&CenterDot;</mo><mi>tf</mi><mrow><mo>(</mo><mi>bi</mi><mo>)</mo></mrow><mo>+</mo><mi>&mu;</mi><mo>&CenterDot;</mo><mi>TF</mi><mrow><mo>(</mo><mi>bi</mi><mo>)</mo></mrow></mrow><mrow><mrow><mo>(</mo><mo>|</mo><mi>D</mi><mo>|</mo><mo>+</mo><mi>&mu;</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>TF</mi><mrow><mo>(</mo><mi>bi</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000629798350000011.GIF" wi="1518" he="150" /></maths>其中:tf(bi)是二元词项bi在文档d中的出现次数,TF(bi)是二元词项bi在文档集C中的出现次数,|C|是文档集C的长度,|D|为文档d的长度,μ为平滑因子;计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行排序;(4)输入裁剪参数k(1≤k,k∈N<sup>*</sup>)、ρ(0≤ρ≤1),让裁剪参数k、ρ依次分别和索引中与一篇文档关联的所有树叶信息的个数|LIL<sub>d</sub>|进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息;具体步骤为:①输入裁剪参数k、ρ;②若|LIL<sub>d</sub>|≤k,转步骤⑤;③若|LIL<sub>d</sub>|>k且|LIL<sub>d</sub>|‑ρ|LIL<sub>d</sub>|&gt;k,则裁剪掉排序靠后的<img file="FDA0000629798350000012.GIF" wi="236" he="72" />个树叶信息;④若|LIL<sub>d</sub>|>k且|LIL<sub>d</sub>|‑ρ|LIL<sub>d</sub>|≤k,则裁剪掉排序靠后的|LIL<sub>d</sub>|‑k个树叶信息;⑤结束;(5)形成并输出裁剪后的动态后继树索引。
地址 530004 广西壮族自治区南宁市大学路100号