发明名称 倒排索引压缩的预处理方法
摘要 一种倒排索引压缩的预处理方法。所述的倒排索引压缩的预处理方法包括:对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,得到与该倒排列表等价的竖直离差列表;对每个竖直离差列表,将所有竖直离差向上取整,得到与该竖直离差列表等价的整数离差列表;对每个整数离差列表,求出最小值,同时将所有整数离差减去这个最小值,得到与该整数离差列表等价的非负整数离差列表。基于本发明的压缩算法具有较高的压缩比,提高了并行解压效率,可以更好地与集合归并方法结合。
申请公布号 CN102081659A 申请公布日期 2011.06.01
申请号 CN201110007170.9 申请日期 2011.01.14
申请人 南开大学 发明人 敖耐勇;吴迪;张帆;刘晓光;王刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津佳盟知识产权代理有限公司 12002 代理人 侯力
主权项 1.一种倒排索引压缩的预处理方法,其特征在于,包括:(1)对每个倒排列表,以docID的索引x<sub>i</sub>为横坐标、值y<sub>i</sub>为纵坐标作二维散点图,x<sub>i</sub>、y<sub>i</sub>都是非负整数,其中i=1,...,n,n为正整数,基于最小二乘法生成一条线性回归直线y=f(x)=α+βx,<img file="FSA00000417860000011.GIF" wi="773" he="125" /><img file="FSA00000417860000012.GIF" wi="285" he="62" />其中<img file="FSA00000417860000013.GIF" wi="242" he="116" /><img file="FSA00000417860000014.GIF" wi="245" he="116" />使得图中所有点(x<sub>i</sub>,y<sub>i</sub>)到该直线的竖直离差y<sub>i</sub>-f(x<sub>i</sub>)的平方和<img file="FSA00000417860000015.GIF" wi="319" he="115" />最小,得到与该倒排列表等价的竖直离差列表;(2)对每个竖直离差列表,将所有竖直离差y<sub>i</sub>-f(x<sub>i</sub>)向上取整记为<img file="FSA00000417860000016.GIF" wi="283" he="72" />得到与该竖直离差列表等价的整数离差列表;(3)对每个整数离差列表,求出最小值记为<img file="FSA00000417860000017.GIF" wi="421" he="78" />同时将所有整数离差<img file="FSA00000417860000018.GIF" wi="250" he="71" />减去这个最小值记为<img file="FSA00000417860000019.GIF" wi="722" he="78" />得到与该整数离差列表等价的非负整数离差列表。
地址 300071 天津市南开区卫津路94号