发明名称 一种用于离线搜索的小规模索引数据存储方法
摘要 本发明公开了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:将数据内容按照从0开始的顺序编号,将各标题存入数组中;逐一对数据内容拆分关键字;逐一将拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;在对所有内容完成分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;将关联数组做序列化输出成字符串,对该字符串再次压缩。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。
申请公布号 CN105426519A 申请公布日期 2016.03.23
申请号 CN201510884263.8 申请日期 2015.12.04
申请人 河海大学 发明人 许军才;张卫东;赖金辉;任青文;沈振中
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 陈静
主权项 一种用于离线搜索的小规模索引数据存储方法,其特征在于,包括如下步骤:(1)将数据内容按照从0开始的顺序编号,将各标题存入数组中;(2)逐一对数据内容拆分关键字;(3)逐一将步骤(2)中拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;(4)在对所有内容完成前述步骤(1)~步骤(3)的分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;(5)将步骤(4)中关联数组做序列化输出成字符串,对该字符串再次压缩;如果网站服务器支持gzip压缩方式,则直接利用网站服务器来压缩;(6)客户端在取得经压缩的关联数组字符串之后,将其解压并反序列化,获得关联数组索引结构;(7)在用户查询单一关键字时,用Javascript从关联数组中查询关键字,如果找到了,将该键的值表达成查询结果,返回一个有网页或文档标题的列表;(8)对于组合查询,用Javascript从关联数组中查询各关键字,将其找到的值做组合运算,其运算结果即为结果大二进制数字,如果某位位1则该篇网页或文档存在,为0则不存在,给用户返回一个查询结果即可。
地址 211100 江苏省南京市江宁开发区佛城西路8号