发明名称 | 一种构造用于处理大规模词典的完美哈希函数的方法 | ||
摘要 | 本发明涉及信息检索和自然语言处理技术领域,公开了一种构造用于处理大规模词典的完美哈希函数的方法,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为自然数;C、对构造的每个子词典的相关图中的顶点进行排序,对排序后各顶点依次关联整数,将各单词映射到不同的哈希地址,得到词典的完美哈希函数。利用本发明,能够对包含上百万单词的词典成功构造完美哈希函数,并且能够处理中文等大字符集词典,填充因子接近1,提高了填充因子,缩短了构造时间,减少了哈希函数的工作空间。 | ||
申请公布号 | CN1996306A | 申请公布日期 | 2007.07.11 |
申请号 | CN200610171640.4 | 申请日期 | 2006.12.31 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 龚才春 |
分类号 | G06F17/30(2006.01) | 主分类号 | G06F17/30(2006.01) |
代理机构 | 中科专利商标代理有限责任公司 | 代理人 | 周国城 |
主权项 | 1、一种构造用于处理大规模词典的完美哈希函数的方法,其特征在于,该方法包括:A、将待构造哈希函数的词典中的单词平滑;B、将平滑后词典按照单词长度分为n个子词典,对每个子词典构造相关图,n为自然数;C、对构造的每个子词典的相关图中的顶点进行排序,对排序后各顶点依次关联整数,将各单词映射到不同的哈希地址,得到词典的完美哈希函数。 | ||
地址 | 100080北京市海淀区中关村科学院南路6号 |