发明名称 字符串规划存贮索引查找技术
摘要 本发明是一种字符串存贮、索引、模糊检索技术。首先对数据库字符串按字符元进行统计分析,并根据数据库状况决定标记方案。按标记位值V<SUB>n</SUB>建立索引表,若按标记位值V<SUB>n</SUB>聚集存贮后建立索引表则性能更好,称为双表处理;也可将数据库,按标记位值V<SUB>n</SUB>重新组织存贮,即单表处理。检索时,先对检索关键词进行标记,取得位值V<SUB>t</SUB>:双表处理,以V<SUB>t</SUB>与索引表中的标记位值V<SUB>n</SUB>进行位比较,按符合位比较条件的标记位值V<SUB>n</SUB>,在句型数据库中查找V<SUB>n</SUB>,或W<SUB>n</SUB>,对查找到的记录,按需要,与检索关键词进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理;单表处理,以V<SUB>t</SUB>与表中的标记位值V<SUB>n</SUB>进行位比较,对符合位比较条件的V<SUB>n</SUB>的各字符串字段D<SUB>n</SUB>或其对应的信息字段F<SUB>n</SUB>、W<SUB>n</SUB>,按需要,与检索关键词进行通常的字符串模糊匹配、质数代换整除、W位值比较等处理。在CPU赛扬800Hz,内存256M,810主板,硬盘40G测试,检索每条字符串5个汉字、2,035,454条字符串、10,177,270个汉字的表,由于数据库不能全部读入内存,对于每个关键词,必须从硬盘读入部分数据,第一次响应时间为0.9秒,第二次以后,响应时间为0.14至0.18秒。在位标记字符串检索的速度上再提高了一个数量级,可用于自然语言处理中快速查找参考句型,其它方面的字符串模糊检索也可以应用。
申请公布号 CN1983249A 申请公布日期 2007.06.20
申请号 CN200510111376.0 申请日期 2005.12.12
申请人 徐文新 发明人 徐文新
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 代理人
主权项 1.一种字符串存贮、索引、模糊检索技术,其特征在于,包括以下步骤:a.对数据库字符串按字符元进行统计分析,按一定方案进行位标记,得到每条字符串的位值Vn。b.按标记位值Vn建立索引表,若按标记位值Vn对数据库进行聚集存贮后,再按Vn建立索引表,则性能更优,称为双表处理;或是将数据库按标记位值Vn重新组织,称为单表处理。c.检索时,先对检索关键词进行标记,取得位值Vt后:双表处理,以Vt与索引表中的标记位值Vn进行位比较,按符合位比较条件的标记位值Vn,在句型数据库中查找Vn,或Wn,对查找到的记录,按需要,与检索关键词进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理,得到结果;单表处理,以Vt与表中的标记位值Vn进行位比较,对符合位比较条件的Vn的各字符串字段Dn或其对应的信息字段Fn、Wn,按需要,与检索关键词进行通常的字符串模糊匹配、质数代换整除、W位值比较等处理,得到结果。
地址 200433上海市杨浦区邯郸路220号复旦大学中文系博士后流动站博士后信箱