主权项 |
1.一种倒排索引压缩的预处理方法,其特征在于,包括:(1)对每个倒排列表,以docID的索引x<sub>i</sub>为横坐标、值y<sub>i</sub>为纵坐标作二维散点图,x<sub>i</sub>、y<sub>i</sub>都是非负整数,其中i=1,...,n,n为正整数,基于最小二乘法生成一条线性回归直线y=f(x)=α+βx,<img file="FSA00000417860000011.GIF" wi="773" he="125" /><img file="FSA00000417860000012.GIF" wi="285" he="62" />其中<img file="FSA00000417860000013.GIF" wi="242" he="116" /><img file="FSA00000417860000014.GIF" wi="245" he="116" />使得图中所有点(x<sub>i</sub>,y<sub>i</sub>)到该直线的竖直离差y<sub>i</sub>-f(x<sub>i</sub>)的平方和<img file="FSA00000417860000015.GIF" wi="319" he="115" />最小,得到与该倒排列表等价的竖直离差列表;(2)对每个竖直离差列表,将所有竖直离差y<sub>i</sub>-f(x<sub>i</sub>)向上取整记为<img file="FSA00000417860000016.GIF" wi="283" he="72" />得到与该竖直离差列表等价的整数离差列表;(3)对每个整数离差列表,求出最小值记为<img file="FSA00000417860000017.GIF" wi="421" he="78" />同时将所有整数离差<img file="FSA00000417860000018.GIF" wi="250" he="71" />减去这个最小值记为<img file="FSA00000417860000019.GIF" wi="722" he="78" />得到与该整数离差列表等价的非负整数离差列表。 |