发明名称 一种构造用于处理大规模词典的完美哈希函数的方法
摘要 本发明涉及信息检索和自然语言处理技术领域,公开了一种构造用于处理大规模词典的完美哈希函数的方法,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为自然数;C、对构造的每个子词典的相关图中的顶点进行排序,对排序后各顶点依次关联整数,将各单词映射到不同的哈希地址,得到词典的完美哈希函数。利用本发明,能够对包含上百万单词的词典成功构造完美哈希函数,并且能够处理中文等大字符集词典,填充因子接近1,提高了填充因子,缩短了构造时间,减少了哈希函数的工作空间。
申请公布号 CN1996306A 申请公布日期 2007.07.11
申请号 CN200610171640.4 申请日期 2006.12.31
申请人 中国科学院计算技术研究所 发明人 龚才春
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 中科专利商标代理有限责任公司 代理人 周国城
主权项 1、一种构造用于处理大规模词典的完美哈希函数的方法,其特征在于,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为自然数;C、对构造的每个子词典的相关图中的顶点进行排序,对排序后各顶点依次关联整数,将各单词映射到不同的哈希地址,得到词典的完美哈希函数。
地址 100080北京市海淀区中关村科学院南路6号