发明名称 密文全文检索系统
摘要 本发明公开了一种密文全文检索系统,包括有原始文本处理模块、分词模块、加密模块、文档密文存储模块、密文索引模块、密文检索模块、检索结果处理模块、系统管理模块。该系统由于采用了密文动态后继树索引结构、分词分组方法、文档局部级的密文动态后继树索引更新方法,可实现安全高效的索引创建、索引的动态更新以及密文状态下的全文检索和子串查询;该系统还可在P2P网络中实现安全覆盖网的对等全文检索,并在此基础上引入基于对等网络枢纽节点的索引文件副本复制机制。此外,本发明密文全文检索系统可扩展性好,解决了海量数据索引文件的分布存储和检索问题,并且不增加网络带宽占用,网络资源利用率高。
申请公布号 CN101859323A 申请公布日期 2010.10.13
申请号 CN201010187384.4 申请日期 2010.05.31
申请人 广西大学 发明人 霍林;黄保华;胡和平;覃海生;黄俊文;王力;潘英花;李瑞轩;李德顺;谭颖璐;邢霄;邹先泽
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广西南宁汇博专利代理有限公司 45114 代理人 黄萍
主权项 密文全文检索系统,包括有原始文本处理模块、分词模块、加密模块、文档密文存储模块、密文索引模块、密文检索模块、检索结果处理模块、系统管理模块;其特征在于:所述原始文本处理模块(100),用于对文档的原始文本进行格式化预处理,包括但不限于电子化纸质文档和/或格式化电子原始文档,并提取其主题、正文及附加属性信息,以及,形成文档概要;所述分词模块(200),用于对所述原始文本处理模块所提供的文档主题、正文及附加属性进行分词并提取特征向量,以及,用于对所述密文检索模块提供的检索词/串进行分词和查询扩展;所述加密模块(300),对包括但不限于所述原始文本处理模块传送过来的纯文本文档、文档概要,所述分词模块传送来的特征向量、分词进行加密操作,并将所述特征向量密文存入特征向量密文库;对由密文索引模块传送过来的分词位置信息进行加/解密操作;对包括但不限于所述文档密文存储模块传送来的文档密文、文档概要密文进行解密;对经所述检索结果处理模块传送来的特征向量密文进行解密;并向所述文档密文存储模块、检索结果处理模块、密文检索模块、密文索引模块提供经加/解密的相应数据;所述文档密文存储模块(400),用于分布存储、提供文档密文和文档概要密文:所述分布是按照地域、文档密级和文档分类来决定相应密文所存向的目标文档密文服务器,各文档密文服务器接收并存储来自所述加密模块提供的文档密文和文档概要密文;本模块还接受所述检索结果处理模块的密文读取请求,为加密模块提供需要解密的密文;所述密文索引模块(500),用于分布密文分词并创建、存储密文索引,提供需要解密的密文索引,及检索到的文档编号:所述分布是按照地域、文档密级和文档分类来决定相应密文索引所存向的目标索引服务器;各索引服务器接收来自所述加密模块提供的密文分词和分词位置信息并进行索引创建;经加密后存储密文索引到相应的密文索引库;本模块还根据所述密文检索模块的密文分词检索请求,从密文索引库中检索到需要解密的索引分词位置信息密文并传送到加密模块,及,将从加密模块返回的文档编号集发送给密文检索模块;所述密文检索模块(600),为系统的合法用户提供相应级别的信息检索服务;该模块接收合法用户输入的检索词/串,经审查过滤后提交给所述分词模块;接收加密模块发送来的扩展密文分词集并形成密文分词检索请求,然后传送到所述密文索引模块进行检索;接收密文索引模块返回的文档编号集,并提交给所述检索结果处理模块;所述检索结果处理模块(700),用来接收并处理所述密文检索模块提供的文档编号集,并将经过排序处理后得到的结果集返回给检索用户;根据所述密文检索模块提供的文档编号集,从特征向量密文库中取出相应的特征向量密文,经加密模块解密后对文档编号集合进行排序;把有序的文档编号集发送给文档密文存储模块;接收经所述加密模块解密的相应文档概要并显示给用户;根据用户选择的文档概要明文提取相应文档密文,经加密模块解密后显示给用户,其提取方式与提取文档概要明文相同;所述系统管理模块(800),用来管理用户权限,对部门、角色、用户的基本信息以及它们之间的映射关系进行维护更新等。
地址 530004 广西壮族自治区南宁市大学路100号广西大学科技处