发明名称 一种新的基于汉语拼音的全文检索系统
摘要 本发明公开了一种新的基于拼音全文检索的方法,属于全文检索领域。中文全文检索的难点在于语法和语义的复杂性,按着传统的全文检索算法在处理这个问题上都要以词为单位,因此,对中文检索的研究最终转移到对词的研究。根据现有的中文全文检索存在的不足,本发明提出一种新的基于汉语拼音的全文检索技术,不仅解决了避免了中文分词,也比现在存在的检索方法大大加快了系统的检索速度,提高了用户体验度。基于汉语拼音的索引还利用了拼音的声调法则,通过过滤声调压缩索引空间,降低系统的复杂性,间接提升系统的执行效率。
申请公布号 CN103116607B 申请公布日期 2016.04.13
申请号 CN201310018105.5 申请日期 2013.01.18
申请人 中国传媒大学 发明人 巩微;银国辉;梁小文
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于拼音的全文检索方法,包括如下步骤:S11:用户输入关键词或词组时,以空格、标点符号、制表符作为分隔符进行分割,提取关键词;用户输入句子、段落时,按照分割时不能破坏句子的完整性和每块不超过64kb大小的原则提取关键词;S12:将提取的关键词存储到检索词集合中,并将每个汉字分别转换为拼音,建立拼音检索词集合;S13:将含有相同的拼音项的物理位置进行合并,按物理位置的数值增序存储;将拼音项进行索引并按字母顺序排序;S14:检索时,接受用户输入的关键词、句子、段落并进行预处理,将汉字转换成拼音,查询拼音索引文件得到检索结果。
地址 100024 北京市朝阳区定福庄东街1号